Mozilla Readability Parser MCP Server

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Integrations

  • Converts clean HTML from web pages into well-formatted Markdown, optimizing content for LLM processing with consistent formatting.

  • Leverages Mozilla's Readability algorithm to extract and transform webpage content into clean, LLM-optimized Markdown by removing ads, navigation, footers and other non-essential content.

MCP 서버 가독성 파서(Python/FastMCP)

크레딧/참고문헌

이 프로젝트는 emzimmer 의 원래 server-moz-readability 구현을 기반으로 합니다. (원래 README 문서는 README.md 를 참조하세요.)

이 Python 구현은 FastMCP를 사용하여 Python 기반 MCP로 실행되도록 원래 개념을 조정합니다.

Mozilla 가독성 파서 MCP 서버

웹페이지 콘텐츠를 추출하여 깔끔하고 LLM 최적화된 마크다운으로 변환하는 Model Context Protocol(MCP) 서버의 Python 구현입니다.

목차

특징

  • 광고, 탐색, 바닥글 및 기타 필수적이지 않은 콘텐츠를 제거합니다.
  • 깔끔한 HTML을 잘 포맷된 마크다운으로 변환합니다.
  • 오류를 우아하게 처리합니다
  • LLM 처리에 최적화됨
  • 가볍고 빠름

그냥 가져오면 되지 않을까?

간단한 가져오기 요청과 달리 이 서버는 다음을 수행합니다.

  • 가독성 알고리즘을 사용하여 관련 콘텐츠만 추출합니다.
  • 광고, 팝업, 탐색 메뉴 등의 노이즈를 제거합니다.
  • 불필요한 HTML/CSS를 제거하여 토큰 사용량을 줄입니다.
  • 더 나은 LLM 처리를 위해 일관된 Markdown 형식을 제공합니다.
  • 동적 콘텐츠가 있는 복잡한 웹 페이지를 처리합니다.

설치

  1. 저장소를 복제합니다.

지엑스피1

  1. 가상 환경을 만들고 활성화하세요.
python -m venv venv source venv/bin/activate # On Windows use: venv\Scripts\activate
  1. 종속성 설치:
pip install -r requirements.txt

빠른 시작

  1. 서버를 시작합니다:
fastmcp run server.py
  1. 요청 예시:
curl -X POST http://localhost:8000/tools/extract_content \ -H "Content-Type: application/json" \ -d '{"url": "https://example.com/article"}'

도구 참조

extract_content

웹페이지 콘텐츠를 가져와서 깔끔한 마크다운으로 변환합니다.

인수:

{ "url": { "type": "string", "description": "The website URL to parse", "required": true } }

보고:

{ "content": "Markdown content..." }

MCP 서버 구성

MCP 서버를 구성하려면 MCP 설정 파일에 다음을 추가하세요.

{ "mcpServers": { "readability": { "command": "fastmcp", "args": ["run", "server.py"], "env": {} } } }

그런 다음 MCP 프로토콜을 사용하여 서버를 시작하고 parse 도구를 통해 액세스할 수 있습니다.

종속성

특허

MIT 라이센스 - 자세한 내용은 라이센스를 참조하세요.

-
security - not tested
A
license - permissive license
-
quality - not tested

웹 페이지 콘텐츠를 추출하고, 광고와 불필요한 요소를 제거하여 깔끔하고 LLM 최적화된 마크다운으로 변환하는 MCP 서버의 Python 구현입니다.

  1. Credits/Reference
    1. Mozilla Readability Parser MCP Server
      1. Table of Contents
      2. Features
      3. Why Not Just Fetch?
      4. Installation
      5. Quick Start
      6. Tool Reference
      7. MCP Server Configuration
      8. Dependencies
      9. License
    ID: tx69i8e0nq