intercept-mcp

Дайте вашему ИИ возможность читать веб-страницы. Одна команда, ключи API не требуются.

Без этого инструмента ваш ИИ при переходе по URL получает ошибку 403, «стену» или гору необработанного HTML. С intercept он почти всегда получает контент — чистый Markdown, готовый к использованию.

Обрабатывает твиты, видео с YouTube (с транскриптами, если доступны), статьи с arXiv, PDF-файлы, статьи Wikipedia и репозитории GitHub. Если первая стратегия не срабатывает, он пробует еще до 10 вариантов, прежде чем сдаться.

Работает с любым MCP-клиентом: Claude Code, Claude Desktop, Codex, Cursor, Windsurf, Cline и другими.

Установка

Claude Code

claude mcp add intercept -s user -- npx -y intercept-mcp

Codex

codex mcp add intercept -- npx -y intercept-mcp

Cursor

Settings → MCP → Add Server:

{
  "mcpServers": {
    "intercept": {
      "command": "npx",
      "args": ["-y", "intercept-mcp"]
    }
  }
}

Windsurf

Settings → MCP → Add Server → та же конфигурация JSON, что и выше.

Claude Desktop

Добавьте в ваш claude_desktop_config.json:

{
  "mcpServers": {
    "intercept": {
      "command": "npx",
      "args": ["-y", "intercept-mcp"]
    }
  }
}

Другие MCP-клиенты

Любой клиент, поддерживающий stdio MCP-серверы, может запустить npx -y intercept-mcp.

Для инструмента fetch ключи API не нужны.

Как это работает

URL-адреса обрабатываются в три этапа:

1. Специализированные обработчики

Известные шаблоны URL направляются к специализированным обработчикам перед запуском конвейера резервных стратегий:

Шаблон	Обработчик	Что вы получаете
`twitter.com//status/`, `x.com//status/`	Twitter/X	Текст твита, автор, медиа, статистика вовлеченности (через сторонние API)
`youtube.com/watch?v=`, `youtu.be/`	YouTube	Название, канал, длительность, просмотры, описание, транскрипт (если доступны субтитры)
`arxiv.org/abs/`, `arxiv.org/pdf/`	arXiv	Метаданные статьи, авторы, аннотация, категории
`*.pdf`	PDF	Извлеченный текст (только для PDF с текстовым слоем)
`.wikipedia.org/wiki/`	Wikipedia	Чистое содержимое статьи через Wikimedia REST API
`github.com/{owner}/{repo}`	GitHub	Исходное содержимое README.md

2. Конвейер резервных стратегий

Если ни один обработчик не подошел (или обработчик ничего не вернул), URL попадает в многоуровневый конвейер:

Уровень	Загрузчик	Стратегия
1	Cloudflare Browser Rendering	JS-рендеринг + извлечение Markdown (опционально, нужен API-токен)
1	Jina Reader	Сервис извлечения чистого Markdown
2	Wayback + Codetabs	Архивная версия + CORS-прокси (запуск параллельно)
3	Raw fetch	Прямой GET с заголовками браузера + преобразование в Markdown через Turndown
3	Stealth fetch	Имитация TLS-отпечатков браузера через got-scraping (опционально, см. ниже)
4	RSS, CrossRef, Semantic Scholar, HN, Reddit	Резервные варианты с метаданными / обсуждениями
5	OG Meta	Теги Open Graph (гарантированный резервный вариант)

Загрузчики уровня 2 работают параллельно. Если оба успешны, побеждает результат более высокого качества. Все остальные уровни работают последовательно.

Все загрузчики возвращают корректный Markdown (заголовки, ссылки, жирный шрифт, таблицы, блоки кода) через Turndown — не обычный текст.

3. Кэширование

Результаты кэшируются в оперативной памяти с TTL (30 минут для успешных запросов, 5 минут для ошибок). Максимум 100 записей с вытеснением LRU. Неудачные URL кэшируются, чтобы предотвратить повторные попытки обращения к заведомо нерабочим ссылкам.

Инструменты

`fetch`

Получить URL и вернуть его содержимое в виде чистого Markdown.

url (строка, обязательно) — URL для получения
maxTier (число, опционально, 1-5) — остановиться на этом уровне для случаев, чувствительных к скорости

`search`

Поиск в интернете и возврат результатов.

query (строка, обязательно) — поисковый запрос
count (число, опционально, 1-20, по умолчанию 5) — количество результатов

Использует Brave Search API, если установлен BRAVE_API_KEY, затем SearXNG, если установлен SEARXNG_URL, и в крайнем случае — DuckDuckGo.

Промпты

`research-topic`

Поиск по теме и получение результатов из нескольких источников для создания сводки.

topic (строка) — тема для исследования
depth (строка, по умолчанию "3") — количество результатов для получения

`extract-article`

Получение URL и извлечение ключевых моментов из контента.

url (строка) — URL для получения и суммаризации

Переменные окружения

Переменная	Обязательно	Описание
`BRAVE_API_KEY`	Нет	Ключ Brave Search API для поиска
`SEARXNG_URL`	Нет	URL вашего экземпляра SearXNG (рекомендуется)
`CF_API_TOKEN`	Нет	API-токен Cloudflare с разрешением "Browser Rendering - Edit"
`CF_ACCOUNT_ID`	Нет	ID аккаунта Cloudflare (обязательно, если установлен `CF_API_TOKEN`)
`USE_STEALTH_FETCH`	Нет	Установите `true` для включения скрытого загрузчика (см. предупреждение ниже)

Поиск: Есть резервный вариант DuckDuckGo, но он ограничен по частоте запросов и ненадежен. Для промышленного использования разверните свой SearXNG и установите SEARXNG_URL (см. ниже) или получите ключ Brave Search API.

Получение: Работает без ключей. Установите CF_API_TOKEN + CF_ACCOUNT_ID для включения Cloudflare Browser Rendering для страниц с активным использованием JavaScript (SPA, сайты на React).

Скрытый загрузчик (USE_STEALTH_FETCH)

Используйте на свой страх и риск. При включении добавляется загрузчик, который имитирует TLS-отпечатки реального браузера (наборы шифров Chrome/Firefox, настройки HTTP/2, порядок заголовков) с помощью got-scraping. Это может помочь обойти защиту от ботов и CAPTCHA на сайтах, которые в противном случае блокируют автоматические запросы.

Этот загрузчик работает на уровне 3 после обычного запроса. Если обычный запрос заблокирован (CAPTCHA, проверка Cloudflare, 403), скрытый загрузчик повторяет попытку с имитацией браузера.

Это может нарушать условия использования некоторых веб-сайтов. Авторы intercept-mcp не несут ответственности за то, как используется эта функция. Она отключена по умолчанию и требует явного включения.

Самостоятельный хостинг SearXNG

Для надежного поиска разверните SearXNG с помощью Docker. Конфигурация включена в репозиторий:

git clone https://github.com/bighippoman/intercept-mcp.git
cd intercept-mcp/searxng && docker compose up -d

Затем установите SEARXNG_URL=http://localhost:8888. Никаких ограничений по частоте, никаких CAPTCHA, агрегирует Google + Bing + DuckDuckGo + Wikipedia + Brave.

Или используйте любой существующий экземпляр SearXNG — просто установите SEARXNG_URL на его адрес.

Нормализация URL

Входящие URL автоматически очищаются:

Удаляются более 60 параметров отслеживания (UTM, click IDs, аналитика, A/B тесты и т.д.)
Удаляются хеш-фрагменты
Обновляются до HTTPS
Очищаются артефакты AMP
Сохраняются функциональные параметры (ref, format, page, offset, limit)

Определение качества контента

Результат каждого загрузчика оценивается по качеству. Автоматический отказ при:

CAPTCHA / проверках Cloudflare
Страницах входа
Страницах с ошибками HTTP в теле ответа
Контенте менее 200 символов

Требования

Node.js >= 18
Для базового использования ключи API не требуются

intercept-mcp

intercept-mcp

Установка

Claude Code

Codex

Cursor

Windsurf

Claude Desktop

Другие MCP-клиенты

Как это работает

1. Специализированные обработчики

2. Конвейер резервных стратегий

3. Кэширование

Инструменты

`fetch`

`search`

Промпты

`research-topic`

`extract-article`

Переменные окружения

Скрытый загрузчик (USE_STEALTH_FETCH)

Самостоятельный хостинг SearXNG

Нормализация URL

Определение качества контента

Требования

Resources

Latest Blog Posts

MCP directory API