content-core
Content Core
Extraiga, procese y resuma contenido de URLs, archivos y texto a través de una API de Python asíncrona unificada, CLI o servidor MCP.
Formatos admitidos
Categoría | Formatos |
Web | URLs, páginas HTML, vídeos de YouTube, publicaciones de Reddit |
Documentos | PDF, DOCX, PPTX, XLSX, EPUB, Markdown, texto plano |
Multimedia | MP3, WAV, M4A, FLAC, OGG (audio); MP4, AVI, MOV, MKV (vídeo) |
Related MCP server: Fetch MCP Server
Inicio rápido
pip install content-coreimport content_core
result = await content_core.extract_content(url="https://example.com")
print(result.content)O sin instalación:
uvx content-core extract "https://example.com"Uso de la CLI
Content Core proporciona un comando unificado content-core con subcomandos para extracción, resumen y servidor MCP.
Extracción
# From a URL
content-core extract "https://example.com"
# From a file
content-core extract document.pdf
# With JSON output
content-core extract document.pdf --format json
# With a specific engine
content-core extract "https://example.com" --engine firecrawl
# From stdin
echo "some text" | content-core extractResumen
# Summarize text
content-core summarize "Long article text here..."
# With context
content-core summarize "Long text" --context "bullet points"
# From stdin
cat article.txt | content-core summarize --context "explain to a child"Servidor MCP
content-core mcpConfiguración
# Set persistent config
content-core config set llm_provider anthropic
content-core config set llm_model claude-sonnet-4-20250514
# List current config
content-core config list
# Delete a config value
content-core config delete llm_providerLa configuración se almacena en ~/.content-core/config.toml. Prioridad: flags de comando > variables de entorno > archivo de configuración > valores predeterminados.
Instalación cero con uvx
Todos los comandos funcionan sin instalación usando uvx:
uvx content-core extract "https://example.com"
uvx content-core summarize "text" --context "one sentence"
uvx content-core mcpAPI de Python
Extracción
import content_core
# From a URL
result = await content_core.extract_content(url="https://example.com")
# From a file
result = await content_core.extract_content(file_path="document.pdf")
# From text
result = await content_core.extract_content(content="some text")
# With engine override
from content_core import ContentCoreConfig
config = ContentCoreConfig(url_engine="firecrawl")
result = await content_core.extract_content(url="https://example.com", config=config)Resumen
import content_core
summary = await content_core.summarize("long article text", context="bullet points")Configuración
from content_core import ContentCoreConfig
config = ContentCoreConfig(
url_engine="firecrawl",
document_engine="docling",
audio_concurrency=5,
)
result = await content_core.extract_content(url="https://example.com", config=config)Integración MCP
Content Core incluye un servidor del Protocolo de Contexto de Modelo (MCP) para su uso con Claude Desktop y otras aplicaciones compatibles con MCP.
Añada a su claude_desktop_config.json:
{
"mcpServers": {
"content-core": {
"command": "uvx",
"args": ["content-core", "mcp"],
"env": {
"OPENAI_API_KEY": "sk-..."
}
}
}
}El servidor MCP expone dos herramientas: extract_content y summarize_content. Ambas devuelven texto plano.
Para una configuración detallada, consulte la documentación de MCP.
Habilidad de Claude Code
Content Core incluye un SKILL.md que enseña a los agentes de IA cómo usarlo para extraer contenido de fuentes externas. Para que esté disponible en su proyecto de Claude Code, cópielo en su directorio de habilidades:
# Download the skill
curl -o .claude/skills/content-core/SKILL.md --create-dirs \
https://raw.githubusercontent.com/lfnovo/content-core/main/SKILL.mdUna vez instalado, Claude Code puede usar content-core para extraer contenido de URLs, documentos y archivos multimedia, ya sea a través de la CLI (uvx content-core) o MCP si está configurado.
Proveedores de IA
Content Core utiliza Esperanto para admitir múltiples proveedores de LLM y STT. Cambie de proveedor modificando la configuración; no se requieren cambios en el código:
# Use Anthropic for summarization
content-core config set llm_provider anthropic
content-core config set llm_model claude-sonnet-4-20250514
# Use Groq for transcription
content-core config set stt_provider groq
content-core config set stt_model whisper-large-v3Los proveedores admitidos incluyen OpenAI, Anthropic, Google, Groq, DeepSeek, Ollama y más. Consulte la documentación de Esperanto para ver la lista completa.
Configuración
Content Core utiliza ContentCoreConfig impulsado por pydantic-settings. Los ajustes se resuelven en orden de prioridad: argumentos del constructor > variables de entorno (CCORE_*) > archivo de configuración (~/.content-core/config.toml) > valores predeterminados.
Variables de entorno
Variable | Descripción | Predeterminado |
| Motor de extracción de URL ( |
|
| Motor de extracción de documentos ( |
|
| Transcripciones de audio simultáneas (1-10) |
|
| URL de la API de Docker de Crawl4AI (omitir para modo de navegador local) | - |
| URL de la API personalizada de Firecrawl para instancias autohospedadas | - |
| Modo proxy de Firecrawl ( |
|
| Tiempo de espera en ms antes de la extracción |
|
| Proveedor de LLM para resumen | - |
| Modelo de LLM para resumen | - |
| Proveedor de voz a texto | - |
| Modelo de voz a texto | - |
| Tiempo de espera de voz a texto en segundos | - |
| Idiomas preferidos de transcripción de YouTube | - |
Las claves de API para servicios externos se establecen a través de sus variables de entorno estándar (p. ej., OPENAI_API_KEY, FIRECRAWL_API_KEY, JINA_API_KEY).
Configuración de proxy
Content Core lee automáticamente las variables de entorno estándar HTTP_PROXY / HTTPS_PROXY / NO_PROXY. No se requiere configuración adicional.
Dependencias opcionales
# Docling for advanced document parsing (PDF, DOCX, PPTX, XLSX)
pip install content-core[docling]
# Crawl4AI for local browser-based URL extraction
pip install content-core[crawl4ai]
python -m playwright install --with-deps
# LangChain tool wrappers
pip install content-core[langchain]
# All optional features
pip install content-core[docling,crawl4ai,langchain]Uso con LangChain
Cuando se instala con el extra langchain, Content Core proporciona envoltorios de herramientas compatibles con LangChain:
from content_core.tools import extract_content_tool, summarize_content_tool
tools = [extract_content_tool, summarize_content_tool]Documentación
Guía de uso -- Detalles de la API de Python, configuración y ejemplos
Procesadores -- Cómo funciona la extracción de contenido para cada formato
Servidor MCP -- Integración con Claude Desktop y MCP
Desarrollo
git clone https://github.com/lfnovo/content-core
cd content-core
uv sync --group dev
# Run tests
make test
# Lint
make ruffLicencia
Este proyecto está bajo la Licencia MIT.
Contribución
¡Las contribuciones son bienvenidas! Consulte nuestra Guía de contribución para obtener más detalles.
Appeared in Searches
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/lfnovo/content-core'
If you have feedback or need assistance with the MCP directory API, please join our Discord server