WebSearch: herramienta avanzada de búsqueda web y extracción de contenido
Una potente herramienta de búsqueda web y extracción de contenido creada con Python, que aprovecha la API Firecrawl para obtener capacidades avanzadas de análisis de contenido, búsqueda y raspado web.
🚀 Características
Búsqueda web avanzada : realice búsquedas web inteligentes con parámetros personalizables
Extracción de contenido : extraiga información específica de páginas web mediante indicaciones en lenguaje natural
Rastreo web : rastreo de sitios web con profundidad y límites configurables
Web Scraping : Extraiga páginas web con soporte para varios formatos de salida
Integración MCP : Construido como un servidor de Protocolo de Contexto Modelo (MCP) para una integración perfecta
📋 Requisitos previos
Python 3.8 o superior
administrador de paquetes uv
Clave API de Firecrawl
Clave API de OpenAI (opcional, para funciones mejoradas)
Clave API de Tavily (opcional, para capacidades de búsqueda adicionales)
🛠️ Instalación
Instalar uv:
Clonar el repositorio:
Crear y activar un entorno virtual con uv:
Instalar dependencias con uv:
Configurar variables de entorno:
🎯 Uso
Configuración con Claude para escritorio
En lugar de ejecutar el servidor directamente, puede configurar Claude for Desktop para acceder a las herramientas de búsqueda web:
Localice o cree su archivo de configuración de Claude for Desktop:
Ventanas:
%env:AppData%\Claude\claude_desktop_config.jsonmacOS:
~/Library/Application Support/Claude/claude_desktop_config.json
Agregue la configuración del servidor WebSearch a la sección
mcpServers:
Asegúrese de reemplazar la ruta del directorio con la ruta absoluta a la carpeta del proyecto WebSearch.
Guarde el archivo de configuración y reinicie Claude for Desktop.
Una vez configuradas, las herramientas de WebSearch aparecerán en el menú de herramientas (icono de martillo) en Claude for Desktop.
Herramientas disponibles
Buscar
Extraer información
Rastrear sitios web
Extraer contenido
Referencia de API
Buscar
query(str): La consulta de búsquedaDevuelve: Resultados de búsqueda en formato JSON
Extracto
urls(List[str]): Lista de URL de las que extraer informaciónprompt(str): Instrucciones para la extracciónenableWebSearch(bool): Habilitar búsqueda web complementariashowSources(bool): incluye referencias de origenDevuelve: información extraída en el formato especificado
Gatear
url(str): URL de iniciomaxDepth(int): profundidad máxima de rastreolimit(int): Máximo de páginas a rastrearDevoluciones: contenido rastreado en formato Markdown/HTML
Raspar
url(str): URL de destinoDevoluciones: contenido extraído con capturas de pantalla opcionales
🔧 Configuración
Variables de entorno
La herramienta requiere ciertas claves API para funcionar. Proporcionamos un archivo .env.example que puede usar como plantilla:
Copia el archivo de ejemplo:
Edite el archivo
.envcon sus claves API:
Obtener las claves API
Clave API de OpenAI :
Visita la plataforma de OpenAI
Regístrate o inicia sesión
Navegar a la sección de claves API
Crear una nueva clave secreta
Clave API de Firecrawl :
Visita el sitio web de Firecrawl
Crear una cuenta
Navega a tu panel de control
Generar una nueva clave API
Si todo está configurado correctamente, debería recibir una respuesta JSON con los resultados de la búsqueda.
Solución de problemas
Si encuentra errores:
Asegúrese de que todas las claves API necesarias estén configuradas en su archivo
.envVerifique que las claves API sean válidas y no hayan expirado
Verifique que el archivo
.envesté en el directorio raíz del proyectoAsegúrese de que las variables de entorno se estén cargando correctamente
🤝 Contribuyendo
Bifurcar el repositorio
Crea tu rama de funciones (
git checkout -b feature/AmazingFeature)Confirme sus cambios (
git commit -m 'Add some AmazingFeature')Empujar a la rama (
git push origin feature/AmazingFeature)Abrir una solicitud de extracción
📝 Licencia
Este proyecto está licenciado bajo la licencia MIT: consulte el archivo de LICENCIA para obtener más detalles.
🙏 Agradecimientos
Firecrawl por su potente API de raspado web
OpenAI para capacidades de IA
MCP La comunidad MCP para la especificación del protocolo
📬 Contacto
José Martín Rodríguez Mortaloni - @m4s1t425 - jmrodriguezm13@gmail.com
Hecho con ❤️ usando Python y Firecrawl
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Creado como un servidor de Protocolo de Contexto de Modelo (MCP) que proporciona búsqueda web avanzada, extracción de contenido, rastreo web y capacidades de raspado mediante la API Firecrawl.
- 🚀 Características
- 📋 Requisitos previos
- 🛠️ Instalación
- 🎯 Uso
- Referencia de API
- 🔧 Configuración
- 🤝 Contribuyendo
- 📝 Licencia
- 🙏 Agradecimientos
- 📬 Contacto
Related Resources
Related MCP Servers
- Asecurity-licenseAqualityA Model Context Protocol (MCP) server that provides search and crawl functionality using Search1API.Last updated -91157MIT License
- Asecurity-licenseAqualityA Model Context Protocol (MCP) server implementation that integrates with FireCrawl for advanced web scraping capabilities.Last updated -39,2394,746MIT License
- Asecurity-licenseAqualityA Model Context Protocol server that enables web search, scraping, crawling, and content extraction through multiple engines including SearXNG, Firecrawl, and Tavily.Last updated -42857MIT License
- -security-license-qualityA Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.Last updated -39,239MIT License
Appeared in Searches
- Web search tools and methods that don't require API keys
- A server for searching research papers, Kaggle datasets, and websites for ML/AI model training data
- iPhone 16e camera review summary and table creation in Italian
- Web scraping and content extraction
- Web scraping tool for extracting content from SearXNG search results