Content Core

License: MIT PyPI version Downloads GitHub stars GitHub forks GitHub issues Ruff

Extraiga, procese y resuma contenido de URLs, archivos y texto a través de una API de Python asíncrona unificada, CLI o servidor MCP.

Formatos admitidos

Categoría	Formatos
Web	URLs, páginas HTML, vídeos de YouTube, publicaciones de Reddit
Documentos	PDF, DOCX, PPTX, XLSX, EPUB, Markdown, texto plano
Multimedia	MP3, WAV, M4A, FLAC, OGG (audio); MP4, AVI, MOV, MKV (vídeo)

Related MCP server: Fetch MCP Server

Inicio rápido

pip install content-core

import content_core

result = await content_core.extract_content(url="https://example.com")
print(result.content)

O sin instalación:

uvx content-core extract "https://example.com"

Uso de la CLI

Content Core proporciona un comando unificado content-core con subcomandos para extracción, resumen y servidor MCP.

Extracción

# From a URL
content-core extract "https://example.com"

# From a file
content-core extract document.pdf

# With JSON output
content-core extract document.pdf --format json

# With a specific engine
content-core extract "https://example.com" --engine firecrawl

# From stdin
echo "some text" | content-core extract

Resumen

# Summarize text
content-core summarize "Long article text here..."

# With context
content-core summarize "Long text" --context "bullet points"

# From stdin
cat article.txt | content-core summarize --context "explain to a child"

Servidor MCP

content-core mcp

Configuración

# Set persistent config
content-core config set llm_provider anthropic
content-core config set llm_model claude-sonnet-4-20250514

# List current config
content-core config list

# Delete a config value
content-core config delete llm_provider

La configuración se almacena en ~/.content-core/config.toml. Prioridad: flags de comando > variables de entorno > archivo de configuración > valores predeterminados.

Instalación cero con uvx

Todos los comandos funcionan sin instalación usando uvx:

uvx content-core extract "https://example.com"
uvx content-core summarize "text" --context "one sentence"
uvx content-core mcp

API de Python

Extracción

import content_core

# From a URL
result = await content_core.extract_content(url="https://example.com")

# From a file
result = await content_core.extract_content(file_path="document.pdf")

# From text
result = await content_core.extract_content(content="some text")

# With engine override
from content_core import ContentCoreConfig
config = ContentCoreConfig(url_engine="firecrawl")
result = await content_core.extract_content(url="https://example.com", config=config)

Resumen

import content_core

summary = await content_core.summarize("long article text", context="bullet points")

Configuración

from content_core import ContentCoreConfig

config = ContentCoreConfig(
    url_engine="firecrawl",
    document_engine="docling",
    audio_concurrency=5,
)
result = await content_core.extract_content(url="https://example.com", config=config)

Integración MCP

Content Core incluye un servidor del Protocolo de Contexto de Modelo (MCP) para su uso con Claude Desktop y otras aplicaciones compatibles con MCP.

Añada a su claude_desktop_config.json:

{
  "mcpServers": {
    "content-core": {
      "command": "uvx",
      "args": ["content-core", "mcp"],
      "env": {
        "OPENAI_API_KEY": "sk-..."
      }
    }
  }
}

El servidor MCP expone dos herramientas: extract_content y summarize_content. Ambas devuelven texto plano.

Para una configuración detallada, consulte la documentación de MCP.

Habilidad de Claude Code

Content Core incluye un SKILL.md que enseña a los agentes de IA cómo usarlo para extraer contenido de fuentes externas. Para que esté disponible en su proyecto de Claude Code, cópielo en su directorio de habilidades:

# Download the skill
curl -o .claude/skills/content-core/SKILL.md --create-dirs \
  https://raw.githubusercontent.com/lfnovo/content-core/main/SKILL.md

Una vez instalado, Claude Code puede usar content-core para extraer contenido de URLs, documentos y archivos multimedia, ya sea a través de la CLI (uvx content-core) o MCP si está configurado.

Proveedores de IA

Content Core utiliza Esperanto para admitir múltiples proveedores de LLM y STT. Cambie de proveedor modificando la configuración; no se requieren cambios en el código:

# Use Anthropic for summarization
content-core config set llm_provider anthropic
content-core config set llm_model claude-sonnet-4-20250514

# Use Groq for transcription
content-core config set stt_provider groq
content-core config set stt_model whisper-large-v3

Los proveedores admitidos incluyen OpenAI, Anthropic, Google, Groq, DeepSeek, Ollama y más. Consulte la documentación de Esperanto para ver la lista completa.

Configuración

Content Core utiliza ContentCoreConfig impulsado por pydantic-settings. Los ajustes se resuelven en orden de prioridad: argumentos del constructor > variables de entorno (CCORE_*) > archivo de configuración (~/.content-core/config.toml) > valores predeterminados.

Variables de entorno

Variable	Descripción	Predeterminado
`CCORE_URL_ENGINE`	Motor de extracción de URL (`auto`, `simple`, `firecrawl`, `jina`, `crawl4ai`)	`auto`
`CCORE_DOCUMENT_ENGINE`	Motor de extracción de documentos (`auto`, `simple`, `docling`)	`auto`
`CCORE_AUDIO_CONCURRENCY`	Transcripciones de audio simultáneas (1-10)	`3`
`CRAWL4AI_API_URL`	URL de la API de Docker de Crawl4AI (omitir para modo de navegador local)	-
`FIRECRAWL_API_URL`	URL de la API personalizada de Firecrawl para instancias autohospedadas	-
`CCORE_FIRECRAWL_PROXY`	Modo proxy de Firecrawl (`auto`, `basic`, `stealth`)	`auto`
`CCORE_FIRECRAWL_WAIT_FOR`	Tiempo de espera en ms antes de la extracción	`3000`
`CCORE_LLM_PROVIDER`	Proveedor de LLM para resumen	-
`CCORE_LLM_MODEL`	Modelo de LLM para resumen	-
`CCORE_STT_PROVIDER`	Proveedor de voz a texto	-
`CCORE_STT_MODEL`	Modelo de voz a texto	-
`CCORE_STT_TIMEOUT`	Tiempo de espera de voz a texto en segundos	-
`CCORE_YOUTUBE_LANGUAGES`	Idiomas preferidos de transcripción de YouTube	-

Las claves de API para servicios externos se establecen a través de sus variables de entorno estándar (p. ej., OPENAI_API_KEY, FIRECRAWL_API_KEY, JINA_API_KEY).

Configuración de proxy

Content Core lee automáticamente las variables de entorno estándar HTTP_PROXY / HTTPS_PROXY / NO_PROXY. No se requiere configuración adicional.

Dependencias opcionales

# Docling for advanced document parsing (PDF, DOCX, PPTX, XLSX)
pip install content-core[docling]

# Crawl4AI for local browser-based URL extraction
pip install content-core[crawl4ai]
python -m playwright install --with-deps

# LangChain tool wrappers
pip install content-core[langchain]

# All optional features
pip install content-core[docling,crawl4ai,langchain]

Uso con LangChain

Cuando se instala con el extra langchain, Content Core proporciona envoltorios de herramientas compatibles con LangChain:

from content_core.tools import extract_content_tool, summarize_content_tool

tools = [extract_content_tool, summarize_content_tool]

Documentación

Guía de uso -- Detalles de la API de Python, configuración y ejemplos
Procesadores -- Cómo funciona la extracción de contenido para cada formato
Servidor MCP -- Integración con Claude Desktop y MCP

Desarrollo

git clone https://github.com/lfnovo/content-core
cd content-core

uv sync --group dev

# Run tests
make test

# Lint
make ruff

Licencia

Este proyecto está bajo la Licencia MIT.

Contribución

¡Las contribuciones son bienvenidas! Consulte nuestra Guía de contribución para obtener más detalles.

content-core

Content Core

Formatos admitidos

Inicio rápido

Uso de la CLI

Extracción

Resumen

Servidor MCP

Configuración

Instalación cero con uvx

API de Python

Extracción

Resumen

Configuración

Integración MCP

Habilidad de Claude Code

Proveedores de IA

Configuración

Variables de entorno

Configuración de proxy

Dependencias opcionales

Uso con LangChain

Documentación

Desarrollo

Licencia

Contribución

Resources

Tools

Appeared in Searches

Latest Blog Posts

MCP directory API