Skip to main content
Glama

Content Core

License: MIT PyPI version Downloads Downloads GitHub stars GitHub forks GitHub issues Ruff

Extraiga, procese y resuma contenido de URLs, archivos y texto a través de una API de Python asíncrona unificada, CLI o servidor MCP.

Formatos admitidos

Categoría

Formatos

Web

URLs, páginas HTML, vídeos de YouTube, publicaciones de Reddit

Documentos

PDF, DOCX, PPTX, XLSX, EPUB, Markdown, texto plano

Multimedia

MP3, WAV, M4A, FLAC, OGG (audio); MP4, AVI, MOV, MKV (vídeo)

Related MCP server: Fetch MCP Server

Inicio rápido

pip install content-core
import content_core

result = await content_core.extract_content(url="https://example.com")
print(result.content)

O sin instalación:

uvx content-core extract "https://example.com"

Uso de la CLI

Content Core proporciona un comando unificado content-core con subcomandos para extracción, resumen y servidor MCP.

Extracción

# From a URL
content-core extract "https://example.com"

# From a file
content-core extract document.pdf

# With JSON output
content-core extract document.pdf --format json

# With a specific engine
content-core extract "https://example.com" --engine firecrawl

# From stdin
echo "some text" | content-core extract

Resumen

# Summarize text
content-core summarize "Long article text here..."

# With context
content-core summarize "Long text" --context "bullet points"

# From stdin
cat article.txt | content-core summarize --context "explain to a child"

Servidor MCP

content-core mcp

Configuración

# Set persistent config
content-core config set llm_provider anthropic
content-core config set llm_model claude-sonnet-4-20250514

# List current config
content-core config list

# Delete a config value
content-core config delete llm_provider

La configuración se almacena en ~/.content-core/config.toml. Prioridad: flags de comando > variables de entorno > archivo de configuración > valores predeterminados.

Instalación cero con uvx

Todos los comandos funcionan sin instalación usando uvx:

uvx content-core extract "https://example.com"
uvx content-core summarize "text" --context "one sentence"
uvx content-core mcp

API de Python

Extracción

import content_core

# From a URL
result = await content_core.extract_content(url="https://example.com")

# From a file
result = await content_core.extract_content(file_path="document.pdf")

# From text
result = await content_core.extract_content(content="some text")

# With engine override
from content_core import ContentCoreConfig
config = ContentCoreConfig(url_engine="firecrawl")
result = await content_core.extract_content(url="https://example.com", config=config)

Resumen

import content_core

summary = await content_core.summarize("long article text", context="bullet points")

Configuración

from content_core import ContentCoreConfig

config = ContentCoreConfig(
    url_engine="firecrawl",
    document_engine="docling",
    audio_concurrency=5,
)
result = await content_core.extract_content(url="https://example.com", config=config)

Integración MCP

Content Core incluye un servidor del Protocolo de Contexto de Modelo (MCP) para su uso con Claude Desktop y otras aplicaciones compatibles con MCP.

Añada a su claude_desktop_config.json:

{
  "mcpServers": {
    "content-core": {
      "command": "uvx",
      "args": ["content-core", "mcp"],
      "env": {
        "OPENAI_API_KEY": "sk-..."
      }
    }
  }
}

El servidor MCP expone dos herramientas: extract_content y summarize_content. Ambas devuelven texto plano.

Para una configuración detallada, consulte la documentación de MCP.

Habilidad de Claude Code

Content Core incluye un SKILL.md que enseña a los agentes de IA cómo usarlo para extraer contenido de fuentes externas. Para que esté disponible en su proyecto de Claude Code, cópielo en su directorio de habilidades:

# Download the skill
curl -o .claude/skills/content-core/SKILL.md --create-dirs \
  https://raw.githubusercontent.com/lfnovo/content-core/main/SKILL.md

Una vez instalado, Claude Code puede usar content-core para extraer contenido de URLs, documentos y archivos multimedia, ya sea a través de la CLI (uvx content-core) o MCP si está configurado.

Proveedores de IA

Content Core utiliza Esperanto para admitir múltiples proveedores de LLM y STT. Cambie de proveedor modificando la configuración; no se requieren cambios en el código:

# Use Anthropic for summarization
content-core config set llm_provider anthropic
content-core config set llm_model claude-sonnet-4-20250514

# Use Groq for transcription
content-core config set stt_provider groq
content-core config set stt_model whisper-large-v3

Los proveedores admitidos incluyen OpenAI, Anthropic, Google, Groq, DeepSeek, Ollama y más. Consulte la documentación de Esperanto para ver la lista completa.

Configuración

Content Core utiliza ContentCoreConfig impulsado por pydantic-settings. Los ajustes se resuelven en orden de prioridad: argumentos del constructor > variables de entorno (CCORE_*) > archivo de configuración (~/.content-core/config.toml) > valores predeterminados.

Variables de entorno

Variable

Descripción

Predeterminado

CCORE_URL_ENGINE

Motor de extracción de URL (auto, simple, firecrawl, jina, crawl4ai)

auto

CCORE_DOCUMENT_ENGINE

Motor de extracción de documentos (auto, simple, docling)

auto

CCORE_AUDIO_CONCURRENCY

Transcripciones de audio simultáneas (1-10)

3

CRAWL4AI_API_URL

URL de la API de Docker de Crawl4AI (omitir para modo de navegador local)

-

FIRECRAWL_API_URL

URL de la API personalizada de Firecrawl para instancias autohospedadas

-

CCORE_FIRECRAWL_PROXY

Modo proxy de Firecrawl (auto, basic, stealth)

auto

CCORE_FIRECRAWL_WAIT_FOR

Tiempo de espera en ms antes de la extracción

3000

CCORE_LLM_PROVIDER

Proveedor de LLM para resumen

-

CCORE_LLM_MODEL

Modelo de LLM para resumen

-

CCORE_STT_PROVIDER

Proveedor de voz a texto

-

CCORE_STT_MODEL

Modelo de voz a texto

-

CCORE_STT_TIMEOUT

Tiempo de espera de voz a texto en segundos

-

CCORE_YOUTUBE_LANGUAGES

Idiomas preferidos de transcripción de YouTube

-

Las claves de API para servicios externos se establecen a través de sus variables de entorno estándar (p. ej., OPENAI_API_KEY, FIRECRAWL_API_KEY, JINA_API_KEY).

Configuración de proxy

Content Core lee automáticamente las variables de entorno estándar HTTP_PROXY / HTTPS_PROXY / NO_PROXY. No se requiere configuración adicional.

Dependencias opcionales

# Docling for advanced document parsing (PDF, DOCX, PPTX, XLSX)
pip install content-core[docling]

# Crawl4AI for local browser-based URL extraction
pip install content-core[crawl4ai]
python -m playwright install --with-deps

# LangChain tool wrappers
pip install content-core[langchain]

# All optional features
pip install content-core[docling,crawl4ai,langchain]

Uso con LangChain

Cuando se instala con el extra langchain, Content Core proporciona envoltorios de herramientas compatibles con LangChain:

from content_core.tools import extract_content_tool, summarize_content_tool

tools = [extract_content_tool, summarize_content_tool]

Documentación

  • Guía de uso -- Detalles de la API de Python, configuración y ejemplos

  • Procesadores -- Cómo funciona la extracción de contenido para cada formato

  • Servidor MCP -- Integración con Claude Desktop y MCP

Desarrollo

git clone https://github.com/lfnovo/content-core
cd content-core

uv sync --group dev

# Run tests
make test

# Lint
make ruff

Licencia

Este proyecto está bajo la Licencia MIT.

Contribución

¡Las contribuciones son bienvenidas! Consulte nuestra Guía de contribución para obtener más detalles.

Install Server
A
security – no known vulnerabilities
A
license - permissive license
B
quality - B tier

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/lfnovo/content-core'

If you have feedback or need assistance with the MCP directory API, please join our Discord server