Skip to main content
Glama

parquet mcp server

by DeepSpringAI

servidor parquet_mcp

Un potente servidor MCP (Protocolo de Control de Modelos) que proporciona herramientas para realizar búsquedas web y encontrar contenido similar. Este servidor está diseñado para funcionar con Claude Desktop y ofrece dos funcionalidades principales:

  1. Búsqueda web : realice una búsqueda web y extraiga resultados
  2. Búsqueda de similitud : extrae información relevante de búsquedas anteriores

Este servidor es particularmente útil para:

  • Aplicaciones que requieren capacidades de búsqueda web
  • Proyectos que necesitan encontrar contenido similar según consultas de búsqueda

Instalación

Instalación mediante herrería

Para instalar Parquet MCP Server para Claude Desktop automáticamente a través de Smithery :

npx -y @smithery/cli install @DeepSpringAI/parquet_mcp_server --client claude

Clonar este repositorio

git clone ... cd parquet_mcp_server

Crear y activar entorno virtual

uv venv .venv\Scripts\activate # On Windows source .venv/bin/activate # On macOS/Linux

Instalar el paquete

uv pip install -e .

Ambiente

Crea un archivo .env con las siguientes variables:

EMBEDDING_URL=http://sample-url.com/api/embed # URL for the embedding service OLLAMA_URL=http://sample-url.com/ # URL for Ollama server EMBEDDING_MODEL=sample-model # Model to use for generating embeddings SEARCHAPI_API_KEY=your_searchapi_api_key FIRECRAWL_API_KEY=your_firecrawl_api_key VOYAGE_API_KEY=your_voyage_api_key AZURE_OPENAI_ENDPOINT=http://sample-url.com/azure_openai AZURE_OPENAI_API_KEY=your_azure_openai_api_key

Uso con Claude Desktop

Agregue esto a su archivo de configuración de Claude Desktop ( claude_desktop_config.json ):

{ "mcpServers": { "parquet-mcp-server": { "command": "uv", "args": [ "--directory", "/home/${USER}/workspace/parquet_mcp_server/src/parquet_mcp_server", "run", "main.py" ] } } }

Herramientas disponibles

El servidor proporciona dos herramientas principales:

  1. Buscar en la Web : Realizar una búsqueda web y extraer resultados
    • Parámetros requeridos:
      • queries : Lista de consultas de búsqueda
    • Parámetros opcionales:
      • page_number : Número de página para los resultados de la búsqueda (predeterminado en 1)
  2. Extraer información de la búsqueda : extrae información relevante de búsquedas anteriores
    • Parámetros requeridos:
      • queries : Lista de consultas de búsqueda para fusionar

Ejemplos de indicaciones

A continuación se muestran algunos ejemplos de indicaciones que puede utilizar con el agente:

Para búsqueda web:

"Please perform a web search for 'macbook' and 'laptop' and scrape the results from page 1"

Para extraer información de la búsqueda:

"Please extract relevant information from the previous searches for 'macbook'"

Prueba del servidor MCP

El proyecto incluye un conjunto completo de pruebas en el directorio src/tests . Puede ejecutar todas las pruebas usando:

python src/tests/run_tests.py

O ejecutar pruebas individuales:

# Test Web Search python src/tests/test_search_web.py # Test Extract Info from Search python src/tests/test_extract_info_from_search.py

También puedes probar el servidor utilizando el cliente directamente:

from parquet_mcp_server.client import ( perform_search_and_scrape, # New web search function find_similar_chunks # New extract info function ) # Perform a web search perform_search_and_scrape(["macbook", "laptop"], page_number=1) # Extract information from the search results find_similar_chunks(["macbook"])

Solución de problemas

  1. Si recibe errores de verificación de SSL, asegúrese de que la configuración de SSL en su archivo .env sea correcta
  2. Si no se generan incrustaciones, verifique:
    • El servidor Ollama está funcionando y es accesible
    • El modelo especificado está disponible en su servidor Ollama
    • La columna de texto existe en su archivo de entrada Parquet
  3. Si falla la conversión de DuckDB, verifique:
    • El archivo Parquet de entrada existe y es legible
    • Tiene permisos de escritura en el directorio de salida
    • El archivo Parquet no está dañado
  4. Si falla la conversión de PostgreSQL, verifique:
    • La configuración de conexión de PostgreSQL en su archivo .env es correcta
    • El servidor PostgreSQL está en ejecución y es accesible
    • Tienes los permisos necesarios para crear/modificar tablas
    • La extensión pgvector está instalada en su base de datos

Función PostgreSQL para búsqueda de similitud vectorial

Para realizar búsquedas de similitud vectorial en PostgreSQL, puede utilizar la siguiente función:

-- Create the function for vector similarity search CREATE OR REPLACE FUNCTION match_web_search( query_embedding vector(1024), -- Adjusted vector size match_threshold float, match_count int -- User-defined limit for number of results ) RETURNS TABLE ( id bigint, metadata jsonb, text TEXT, -- Added text column to the result date TIMESTAMP, -- Using the date column instead of created_at similarity float ) LANGUAGE plpgsql AS $$ BEGIN RETURN QUERY SELECT web_search.id, web_search.metadata, web_search.text, -- Returning the full text of the chunk web_search.date, -- Returning the date timestamp 1 - (web_search.embedding <=> query_embedding) as similarity FROM web_search WHERE 1 - (web_search.embedding <=> query_embedding) > match_threshold ORDER BY web_search.date DESC, -- Sort by date in descending order (newest first) web_search.embedding <=> query_embedding -- Sort by similarity LIMIT match_count; -- Limit the results to the match_count specified by the user END; $$;

Esta función permite realizar búsquedas de similitud en incrustaciones vectoriales almacenadas en una base de datos PostgreSQL. Devuelve resultados que cumplen un umbral de similitud especificado y limita el número de resultados según la información proporcionada por el usuario. Los resultados se ordenan por fecha y similitud.

Creación de tablas de Postgres

CREATE TABLE web_search ( id SERIAL PRIMARY KEY, text TEXT, metadata JSONB, embedding VECTOR(1024), -- This will be auto-updated date TIMESTAMP DEFAULT NOW() );

You must be authenticated.

A
security – no known vulnerabilities
F
license - not found
A
quality - confirmed to work

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Un potente servidor MCP (Protocolo de Control de Modelos) que proporciona herramientas para manipular y analizar archivos Parquet. Este servidor está diseñado para funcionar con Claude Desktop y ofrece cuatro funcionalidades principales:

  1. Instalación
    1. Instalación mediante herrería
    2. Clonar este repositorio
    3. Crear y activar entorno virtual
    4. Instalar el paquete
    5. Ambiente
  2. Uso con Claude Desktop
    1. Herramientas disponibles
      1. Ejemplos de indicaciones
        1. Para búsqueda web:
        2. Para extraer información de la búsqueda:
      2. Prueba del servidor MCP
        1. Solución de problemas
      3. Función PostgreSQL para búsqueda de similitud vectorial
        1. Creación de tablas de Postgres

          Related MCP Servers

          • -
            security
            F
            license
            -
            quality
            A Model Context Protocol server built with mcp-framework that allows users to create and manage custom tools for processing data, integrating with the Claude Desktop via CLI.
            Last updated -
            48
            4
            TypeScript
            • Apple
          • A
            security
            A
            license
            A
            quality
            A Model Context Protocol (MCP) server that provides tools for reading Excel (xlsx) files, enabling extraction of data from entire workbooks or specific sheets with results returned in structured JSON format.
            Last updated -
            3
            5
            Python
            Apache 2.0
            • Linux
            • Apple
          • A
            security
            A
            license
            A
            quality
            An MCP server that provides a comprehensive interface to Semgrep, enabling users to scan code for security vulnerabilities, create custom rules, and analyze scan results through the Model Context Protocol.
            Last updated -
            6
            172
            Python
            MIT License
            • Linux
            • Apple
          • -
            security
            F
            license
            -
            quality
            A Model Context Protocol server that provides tools for interacting with databases, including PostgreSQL, DuckDB, and Google Cloud Storage Parquet files.
            Last updated -
            2
            TypeScript
            • Linux
            • Apple

          View all related MCP servers

          MCP directory API

          We provide all the information about MCP servers via our MCP API.

          curl -X GET 'https://glama.ai/api/mcp/v1/servers/DeepSpringAI/parquet_mcp_server'

          If you have feedback or need assistance with the MCP directory API, please join our Discord server