Dataset Viewer MCP Server

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Integrations

  • Allows interaction with the Hugging Face Dataset Viewer API, providing tools for browsing, searching, filtering, and analyzing datasets hosted on the Hugging Face Hub, along with support for authentication for private datasets.

数据集查看器 MCP 服务器

用于与Hugging Face 数据集查看器 API交互的 MCP 服务器,提供浏览和分析 Hugging Face Hub 上托管的数据集的功能。

特征

资源

  • 使用dataset:// URI 方案访问 Hugging Face 数据集
  • 支持数据集配置和分割
  • 提供对数据集内容的分页访问
  • 处理私有数据集的身份验证
  • 支持搜索和过滤数据集内容
  • 提供数据集统计和分析

工具

该服务器提供以下工具:

  1. 证实
    • 检查数据集是否存在且可访问
    • 参数:
      • dataset :数据集标识符(例如“stanfordnlp/imdb”)
      • auth_token (可选):用于私有数据集
  2. 获取信息
    • 获取有关数据集的详细信息
    • 参数:
      • dataset :数据集标识符
      • auth_token (可选):用于私有数据集
  3. 获取行
    • 获取数据集的分页内容
    • 参数:
      • dataset :数据集标识符
      • config :配置名称
      • split :拆分名称
      • page (可选):页码(从 0 开始)
      • auth_token (可选):用于私有数据集
  4. 获取第一行
    • 从数据集分割中获取第一行
    • 参数:
      • dataset :数据集标识符
      • config :配置名称
      • split :拆分名称
      • auth_token (可选):用于私有数据集
  5. 获取统计数据
    • 获取有关数据集分割的统计信息
    • 参数:
      • dataset :数据集标识符
      • config :配置名称
      • split :拆分名称
      • auth_token (可选):用于私有数据集
  6. 搜索数据集
    • 在数据集中搜索文本
    • 参数:
      • dataset :数据集标识符
      • config :配置名称
      • split :拆分名称
      • query :要搜索的文本
      • auth_token (可选):用于私有数据集
  7. 筛选
    • 使用类似 SQL 的条件过滤行
    • 参数:
      • dataset :数据集标识符
      • config :配置名称
      • split :拆分名称
      • where :SQL WHERE 子句(例如“score > 0.5”)
      • orderby (可选):SQL ORDER BY 子句
      • page (可选):页码(从 0 开始)
      • auth_token (可选):用于私有数据集
  8. 获取镶木地板
    • 以 Parquet 格式下载整个数据集
    • 参数:
      • dataset :数据集标识符
      • auth_token (可选):用于私有数据集

安装

先决条件

  • Python 3.12 或更高版本
  • uv - 快速 Python 软件包安装程序和解析器

设置

  1. 克隆存储库:
git clone https://github.com/privetin/dataset-viewer.git cd dataset-viewer
  1. 创建虚拟环境并安装:
# Create virtual environment uv venv # Activate virtual environment # On Unix: source .venv/bin/activate # On Windows: .venv\Scripts\activate # Install in development mode uv add -e .

配置

环境变量

  • HUGGINGFACE_TOKEN :用于访问私有数据集的 Hugging Face API 令牌

Claude 桌面集成

将以下内容添加到您的 Claude Desktop 配置文件:

在 Windows 上: %APPDATA%\Claude\claude_desktop_config.json

在 MacOS 上: ~/Library/Application Support/Claude/claude_desktop_config.json

{ "mcpServers": { "dataset-viewer": { "command": "uv", "args": [ "run", "dataset-viewer" ] } } }

使用示例

  1. 验证数据集:
{ "dataset": "stanfordnlp/imdb" }
  1. 获取数据集信息:
{ "dataset": "stanfordnlp/imdb" }
  1. 搜索数据集内容:
{ "dataset": "stanfordnlp/imdb", "config": "plain_text", "split": "train", "query": "great movie" }
  1. 过滤和排序行:
{ "dataset": "stanfordnlp/imdb", "config": "plain_text", "split": "train", "where": "label = 'positive'", "orderby": "text DESC", "page": 0 }
  1. 获取数据集统计数据:
{ "dataset": "stanfordnlp/imdb", "config": "plain_text", "split": "train" }

执照

MIT 许可证 - 详情请参阅许可证

You must be authenticated.

A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

实现与 Hugging Face Dataset Viewer API 的交互,允许用户浏览、搜索、过滤和分析 Hugging Face Hub 上托管的数据集。

  1. Features
    1. Resources
    2. Tools
  2. Installation
    1. Prerequisites
    2. Setup
  3. Configuration
    1. Environment Variables
    2. Claude Desktop Integration
  4. Usage Examples
    1. License
      ID: b5mmrmnn6b