Dataset Viewer MCP Server

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Integrations

  • Allows interaction with the Hugging Face Dataset Viewer API, providing tools for browsing, searching, filtering, and analyzing datasets hosted on the Hugging Face Hub, along with support for authentication for private datasets.

Servidor MCP del visor de conjuntos de datos

Un servidor MCP para interactuar con la API del visualizador de conjuntos de datos de Hugging Face , que proporciona capacidades para explorar y analizar conjuntos de datos alojados en Hugging Face Hub.

Características

Recursos

  • Utiliza el esquema URI dataset:// para acceder a los conjuntos de datos de Hugging Face
  • Admite configuraciones y divisiones de conjuntos de datos
  • Proporciona acceso paginado al contenido del conjunto de datos
  • Maneja la autenticación para conjuntos de datos privados
  • Admite la búsqueda y el filtrado de contenidos de conjuntos de datos.
  • Proporciona estadísticas y análisis de conjuntos de datos.

Herramientas

El servidor proporciona las siguientes herramientas:

  1. validar
    • Comprobar si un conjunto de datos existe y es accesible
    • Parámetros:
      • dataset : identificador del conjunto de datos (por ejemplo, 'stanfordnlp/imdb')
      • auth_token (opcional): para conjuntos de datos privados
  2. obtener_información
    • Obtenga información detallada sobre un conjunto de datos
    • Parámetros:
      • dataset : identificador del conjunto de datos
      • auth_token (opcional): para conjuntos de datos privados
  3. obtener_filas
    • Obtener el contenido paginado de un conjunto de datos
    • Parámetros:
      • dataset : identificador del conjunto de datos
      • config : Nombre de la configuración
      • split : Dividir nombre
      • page (opcional): Número de página (basado en 0)
      • auth_token (opcional): para conjuntos de datos privados
  4. obtener_primeras_filas
    • Obtener las primeras filas de una división del conjunto de datos
    • Parámetros:
      • dataset : identificador del conjunto de datos
      • config : Nombre de la configuración
      • split : Dividir nombre
      • auth_token (opcional): para conjuntos de datos privados
  5. obtener_estadísticas
    • Obtener estadísticas sobre una división del conjunto de datos
    • Parámetros:
      • dataset : identificador del conjunto de datos
      • config : Nombre de la configuración
      • split : Dividir nombre
      • auth_token (opcional): para conjuntos de datos privados
  6. conjunto de datos de búsqueda
    • Buscar texto dentro de un conjunto de datos
    • Parámetros:
      • dataset : identificador del conjunto de datos
      • config : Nombre de la configuración
      • split : Nombre dividido
      • query : Texto a buscar
      • auth_token (opcional): para conjuntos de datos privados
  7. filtrar
    • Filtrar filas usando condiciones similares a SQL
    • Parámetros:
      • dataset : identificador del conjunto de datos
      • config : Nombre de la configuración
      • split : Nombre dividido
      • where : cláusula WHERE de SQL (por ejemplo, "puntuación > 0,5")
      • orderby (opcional): cláusula ORDER BY de SQL
      • page (opcional): Número de página (basado en 0)
      • auth_token (opcional): para conjuntos de datos privados
  8. obtener_parquet
    • Descargar el conjunto de datos completo en formato Parquet
    • Parámetros:
      • dataset : identificador del conjunto de datos
      • auth_token (opcional): para conjuntos de datos privados

Instalación

Prerrequisitos

  • Python 3.12 o superior
  • uv - Instalador y solucionador rápido de paquetes de Python

Configuración

  1. Clonar el repositorio:
git clone https://github.com/privetin/dataset-viewer.git cd dataset-viewer
  1. Cree un entorno virtual e instale:
# Create virtual environment uv venv # Activate virtual environment # On Unix: source .venv/bin/activate # On Windows: .venv\Scripts\activate # Install in development mode uv add -e .

Configuración

Variables de entorno

  • HUGGINGFACE_TOKEN : Su token de API de Hugging Face para acceder a conjuntos de datos privados

Integración de escritorio de Claude

Agregue lo siguiente a su archivo de configuración de Claude Desktop:

En Windows: %APPDATA%\Claude\claude_desktop_config.json

En MacOS: ~/Library/Application Support/Claude/claude_desktop_config.json

{ "mcpServers": { "dataset-viewer": { "command": "uv", "args": [ "run", "dataset-viewer" ] } } }

Ejemplos de uso

  1. Validar un conjunto de datos:
{ "dataset": "stanfordnlp/imdb" }
  1. Obtener información del conjunto de datos:
{ "dataset": "stanfordnlp/imdb" }
  1. Buscar contenidos del conjunto de datos:
{ "dataset": "stanfordnlp/imdb", "config": "plain_text", "split": "train", "query": "great movie" }
  1. Filtrar y ordenar filas:
{ "dataset": "stanfordnlp/imdb", "config": "plain_text", "split": "train", "where": "label = 'positive'", "orderby": "text DESC", "page": 0 }
  1. Obtener estadísticas del conjunto de datos:
{ "dataset": "stanfordnlp/imdb", "config": "plain_text", "split": "train" }

Licencia

Licencia MIT: consulte LICENCIA para obtener más detalles

You must be authenticated.

A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

Permite la interacción con la API del visor de conjuntos de datos de Hugging Face, lo que permite a los usuarios explorar, buscar, filtrar y analizar conjuntos de datos alojados en Hugging Face Hub.

  1. Features
    1. Resources
    2. Tools
  2. Installation
    1. Prerequisites
    2. Setup
  3. Configuration
    1. Environment Variables
    2. Claude Desktop Integration
  4. Usage Examples
    1. License
      ID: b5mmrmnn6b