Сборщик MCP
MCP-сервер для загрузки содержимого веб-страниц с помощью браузера Playwright headless.
Преимущества
- Поддержка JavaScript : в отличие от традиционных веб-скрейперов, Fetcher MCP использует Playwright для выполнения JavaScript, что позволяет обрабатывать динамический веб-контент и современные веб-приложения.
- Интеллектуальное извлечение контента : встроенный алгоритм читабельности автоматически извлекает основной контент с веб-страниц, удаляя рекламу, навигацию и другие несущественные элементы.
- Гибкий формат вывода : поддерживает форматы вывода HTML и Markdown, что упрощает интеграцию с различными нисходящими приложениями.
- Параллельная обработка : инструмент
fetch_urls
обеспечивает одновременную загрузку нескольких URL-адресов, что значительно повышает эффективность пакетных операций. - Оптимизация ресурсов : автоматически блокирует ненужные ресурсы (изображения, таблицы стилей, шрифты, мультимедиа) для снижения использования полосы пропускания и повышения производительности.
- Надежная обработка ошибок : комплексная обработка ошибок и ведение журнала обеспечивают надежную работу даже при работе с проблемными веб-страницами.
- Настраиваемые параметры : детальный контроль тайм-аутов, извлечения контента и форматирования вывода для различных вариантов использования.
Быстрый старт
Запустить напрямую с помощью npx:
Первоначальная настройка — установите нужный браузер, выполнив следующую команду в терминале:
HTTP и SSE транспорт
Используйте параметр --transport=http
для одновременного запуска служб конечной точки потокового HTTP и конечной точки SSE:
После запуска сервер предоставляет следующие конечные точки:
/mcp
— потоковая конечная точка HTTP (современный протокол MCP)/sse
— конечная точка SSE (устаревший протокол MCP)
Клиенты могут выбрать способ подключения в зависимости от своих потребностей.
Режим отладки
Запустите с параметром --debug
, чтобы отобразить окно браузера для отладки:
Конфигурация МКП
Настройте этот MCP-сервер в Claude Desktop:
На MacOS: ~/Library/Application Support/Claude/claude_desktop_config.json
В Windows: %APPDATA%/Claude/claude_desktop_config.json
Развертывание Docker
Работа с Docker
Развертывание с помощью Docker Compose
Создайте файл docker-compose.yml
:
Затем выполните:
Функции
fetch_url
— Извлечение содержимого веб-страницы с указанного URL-адреса- Использует браузер Playwright headless для анализа JavaScript
- Поддерживает интеллектуальное извлечение основного контента и преобразование в Markdown
- Поддерживает следующие параметры:
url
: URL-адрес веб-страницы для загрузки (обязательный параметр)timeout
: время ожидания загрузки страницы в миллисекундах, по умолчанию 30000 (30 секунд)waitUntil
: указывает, когда навигация считается завершенной, параметры: «load», «domcontentloaded», «networkidle», «commit», по умолчанию «load»extractContent
: следует ли интеллектуально извлекать основное содержимое, по умолчанию truemaxLength
: максимальная длина возвращаемого содержимого (в символах), по умолчанию ограничений нет.returnHtml
: Возвращать ли HTML-контент вместо Markdown, по умолчанию falsewaitForNavigation
: следует ли ждать дополнительной навигации после первоначальной загрузки страницы (полезно для сайтов с проверкой на наличие ботов), по умолчанию — falsenavigationTimeout
: максимальное время ожидания дополнительной навигации в миллисекундах, по умолчанию 10000 (10 секунд)disableMedia
: Отключать ли медиаресурсы (изображения, таблицы стилей, шрифты, медиа), по умолчанию truedebug
: Включать ли режим отладки (отображение окна браузера), переопределяет флаг командной строки --debug, если он указан
fetch_urls
— пакетное извлечение содержимого веб-страницы из нескольких URL-адресов параллельно- Использует параллельную выборку из нескольких вкладок для повышения производительности
- Возвращает объединенные результаты с четким р��зделением веб-страниц
- Поддерживает следующие параметры:
urls
: Массив URL-адресов для извлечения (обязательный параметр)- Остальные параметры такие же, как у
fetch_url
Советы
Обработка особых сценариев веб-сайта
Работа с механизмами противодействия обходу
- Дождитесь полной загрузки : для веб-сайтов, использующих CAPTCHA, перенаправления или другие механизмы проверки, включите в запрос:При этом будет использоваться параметр
waitForNavigation: true
. - Увеличьте длительность тайм-аута : для веб-сайтов, которые загружаются медленно:Это соответствующим образом настраивает параметры
timeout
иnavigationTimeout
.
Корректировки поиска контента
- Сохранение исходной структуры HTML : когда извлечение контента может завершиться неудачей:Устанавливает
extractContent: false
иreturnHtml: true
. - Извлечь полное содержимое страницы : если извлеченное содержимое слишком ограничено:Устанавливает
extractContent: false
. - Вернуть содержимое как HTML : когда требуется формат HTML вместо Markdown по умолчанию:Устанавливает
returnHtml: true
.
Отладка и аутентификация
Включение режима отладки
- Активация динамической отладки : для отображения окна браузера во время определенной операции выборки:Это устанавливает
debug: true
даже если сервер был запущен без флага--debug
.
Использование пользовательских файлов cookie для аутентификации
- Ручной вход : Чтобы войти, используя свои учетные данные:Устанавливает
debug: true
или использует флаг--debug
, оставляя окно браузера открытым для ручного входа. - Взаимодействие с отладочным браузером : Когда включен режим отладки:
- Окно браузера остается открытым
- Вы можете вручную войти на сайт, используя свои учетные данные.
- После завершения входа в систему содержимое будет извлечено с помощью вашего аутентифицированного сеанса.
- Включить отладку для определенных запросов : даже если сервер уже запущен, вы можете включить режим отладки для определенного запроса:Устанавливает
debug: true
только для этого конкретного запроса, открывая окно браузера для ручного входа.
Разработка
Установить зависимости
Установить браузер Playwright
Установите браузеры, необходимые для Playwright:
Построить сервер
Отладка
Используйте MCP Inspector для отладки:
Вы также можете включить видимый режим браузера для отладки:
Связанные проекты
- g-search-mcp : Мощный сервер MCP для поиска Google, который позволяет выполнять параллельный поиск по нескольким ключевым словам одновременно. Идеально подходит для пакетных операций поиска и сбора данных.
Лицензия
Лицензировано в соответствии с лицензией MIT
local-only server
The server can only run on the client's local machine because it depends on local resources.
Tools
MCP-сервер, который извлекает содержимое веб-страниц с помощью браузера Playwright Headless, способного извлекать основное содержимое и конвертировать его в формат Markdown.
- Преимущества
- Быстрый старт
- Конфигурация МКП
- Развертывание Docker
- Функции
- Советы
- Разработка
- Отладка
- Связанные проекты
- Лицензия
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityA powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.Last updated -414612TypeScriptMIT License
- AsecurityAlicenseAqualityAn MCP server for fetching and transforming web content into various formats.Last updated -44PythonMIT License
- -securityAlicense-qualityA MCP server that provides browser automation tools, allowing users to navigate websites, take screenshots, click elements, fill forms, and execute JavaScript through Playwright.Last updated -PythonApache 2.0
- -securityFlicense-qualityAn MCP server that extracts meaningful content from websites and converts HTML to high-quality Markdown, using Mozilla's Readability engine.Last updated -11,9932JavaScript