npm version License: MIT

@robot-resources/scraper-mcp

Name: Robot Resources Scraper
Author: robot-resources

⚠️ УСТАРЕЛО — объединено с @robot-resources/scraper. Этот MCP-сервер теперь поставляется как встроенный бинарный файл scraper-mcp внутри основного пакета scraper. Установите один пакет и получите MCP. Автоматическая настройка через npx robot-resources --for=cursor или npx robot-resources --for=claude-code. Инструменты (scraper_compress_url, scraper_crawl_url) и параметры ниже остались без изменений.

MCP-сервер для Scraper — сжатие контекста для ИИ-агентов.

Что такое Robot Resources?

Human Resources (отдел кадров), но для ваших ИИ-агентов.

Robot Resources дает ИИ-агентам две суперспособности:

Маршрутизатор (Router) — направляет каждый вызов LLM к самой дешевой подходящей модели. Экономия затрат на 60-90% при использовании OpenAI, Anthropic и Google.
Скрейпер (Scraper) — сжимает веб-страницы в чистый markdown. На 70-80% меньше токенов на страницу.

Оба инструмента работают локально. Ваши API-ключи никогда не покидают ваш компьютер. Бесплатно, без ограничений, без уровней доступа.

Установка полного пакета

npx robot-resources

Одна команда настраивает всё. Узнайте больше на robotresources.ai

Об этом MCP-сервере

Этот пакет предоставляет ИИ-агентам два инструмента для сжатия веб-контента в эффективный с точки зрения токенов markdown через Model Context Protocol: сжатие одной страницы и многостраничный BFS-краулинг.

Установка

npx @robot-resources/scraper-mcp

Или установите глобально:

npm install -g @robot-resources/scraper-mcp

Настройка Claude Desktop

Добавьте в ваш claude_desktop_config.json:

{
  "mcpServers": {
    "scraper": {
      "command": "npx",
      "args": ["-y", "@robot-resources/scraper-mcp"]
    }
  }
}

Инструменты

`scraper_compress_url`

Сжатие одной веб-страницы в markdown с сокращением количества токенов на 70-90%.

Параметры:

Параметр	Тип	Обязательный	По умолчанию	Описание
`url`	string	да	—	URL для сжатия
`mode`	string	нет	`'auto'`	`'fast'`, `'stealth'`, `'render'` или `'auto'`
`timeout`	number	нет	`10000`	Тайм-аут получения данных в миллисекундах
`maxRetries`	number	нет	`3`	Максимальное количество попыток повтора (0-10)

Пример запроса: "Compress https://docs.example.com/getting-started"

`scraper_crawl_url`

Краулинг нескольких страниц, начиная с заданного URL, с использованием поиска в ширину (BFS) для обнаружения ссылок.

Параметры:

Параметр	Тип	Обязательный	По умолчанию	Описание
`url`	string	да	—	Начальный URL для краулинга
`maxPages`	number	нет	`10`	Максимальное количество страниц для краулинга (1-100)
`maxDepth`	number	нет	`2`	Максимальная глубина ссылок (0-5)
`mode`	string	нет	`'auto'`	`'fast'`, `'stealth'`, `'render'` или `'auto'`
`include`	string[]	нет	—	Шаблоны URL для включения (glob)
`exclude`	string[]	нет	—	Шаблоны URL для исключения (glob)
`timeout`	number	нет	`10000`	Тайм-аут для каждой страницы в миллисекундах

Пример запроса: "Crawl the docs at https://docs.example.com with max 20 pages"

Режимы получения данных (Fetch Modes)

Режим	Как работает	Использовать, когда
`'fast'`	Обычный HTTP	Стандартные сайты, API, документация
`'stealth'`	Имитация TLS-отпечатков	Сайты с защитой от ботов
`'render'`	Headless-браузер (Playwright)	SPA, отрисовываемые через JS
`'auto'`	Fast → переключение на stealth при 403/капче	Неизвестные сайты (по умолчанию)

Для режима stealth требуется impit, а для render — playwright в качестве peer-зависимостей @robot-resources/scraper.

Требования

Node.js 18+

См. также

@robot-resources/scraper — Основная библиотека сжатия
@robot-resources/router-mcp — MCP-сервер для оптимизации затрат на LLM
Robot Resources — Human Resources, но для ваших ИИ-агентов

Лицензия

MIT

Robot Resources Scraper