MCP PDF Server

by DeepSeekMine

Integrations

  • Enables reading and processing PDF files with tools for text extraction, OCR recognition, and image extraction from PDF documents.

  • Based on FastMCP framework which is hosted on GitHub, allowing users to leverage the MCP protocol implementation for PDF processing.

  • Requires Python 3.9+ environment to run the server, utilizing Python libraries like PyMuPDF for PDF processing functionality.

📄 MCP PDF 서버

FastMCP 기반의 PDF 파일 읽기 서버입니다.

MCP 프로토콜을 통해 PDF 텍스트 추출, OCR 인식 및 이미지 추출을 지원하며, 간편한 테스트를 위한 내장 웹 디버거가 포함되어 있습니다.


🚀 특징

  • PDF 텍스트 읽기
    PDF에서 일반 텍스트를 추출합니다(페이지별로).
  • OCR로 읽기
    OCR을 사용하여 스캔한 PDF나 이미지 기반 PDF에서 텍스트를 인식합니다.
  • PDF 이미지 읽기
    지정된 PDF 페이지에서 모든 이미지를 추출합니다(Base64로 인코딩된 출력).

📂 프로젝트 구조

지엑스피1


⚙️ 설치

권장 Python 버전: 3.9+

pip install pymupdf mcp

참고: OCR 기능을 사용하려면 OCR 지원이 있는 MuPDF 빌드나 외부 OCR 라이브러리가 필요할 수 있습니다.


🔦 서버 시작

다음 명령을 실행하세요.

python txt_server.py

다음과 같은 로그가 표시되어야 합니다.

Serving on http://127.0.0.1:6231

🌐 웹 디버깅 인터페이스

브라우저를 열고 방문하세요.

http://127.0.0.1:6231
  • 왼쪽 패널에서 도구를 선택하세요
  • 오른쪽 패널에 매개변수를 입력하세요
  • 도구를 테스트하려면 "실행"을 클릭하세요.

코딩이 필요 없습니다. 웹 UI를 통해 쉽게 디버깅하고 테스트할 수 있습니다.


🛠️ API 도구 목록

도구설명입력 매개변수보고
read_pdf_textPDF 페이지에서 일반 텍스트를 추출합니다.file_path , start_page , end_page페이지 텍스트 목록
read_by_ocrOCR을 통해 텍스트를 인식합니다file_path , start_page , end_page , language , dpiOCR 추출된 텍스트
read_pdf_imagesPDF 페이지에서 이미지를 추출합니다file_path , page_number이미지 목록(Base64 인코딩)

📝 사용 예시

1~5페이지에서 텍스트 추출:

mcp run read_pdf_text --args '{"file_path": "pdf_resources/example.pdf", "start_page": 1, "end_page": 5}'

1페이지에서 OCR 인식을 수행합니다.

mcp run read_by_ocr --args '{"file_path": "pdf_resources/example.pdf", "start_page": 1, "end_page": 1, "language": "eng"}'

3페이지에서 모든 이미지를 추출합니다.

mcp run read_pdf_images --args '{"file_path": "pdf_resources/example.pdf", "page_number": 3}'

📢 참고사항

  • 파일은 pdf_resources/ 디렉토리에 넣어야 하며, 그렇지 않으면 절대 경로를 제공해야 합니다.
  • OCR 기능을 사용하려면 해당 환경에서 적절한 OCR 지원이 필요합니다.
  • 대용량 파일을 처리할 때는 필요에 따라 메모리 및 시간 초과 설정을 조정하세요.

📜 라이센스

이 프로젝트는 MIT 라이선스에 따라 라이선스가 부여되었습니다.
상업적으로 사용하는 경우, 원본 출처를 명시해 주시기 바랍니다.


-
security - not tested
F
license - not found
-
quality - not tested

일반 구문 분석이나 OCR을 통해 텍스트를 추출하고, 내장된 웹 디버거가 있는 MCP 프로토콜을 통해 PDF 파일에서 이미지를 검색하는 PDF 처리 서버입니다.

  1. 🚀 특징
    1. 📂 프로젝트 구조
      1. ⚙️ 설치
        1. 🔦 서버 시작
          1. 🌐 웹 디버깅 인터페이스
            1. 🛠️ API 도구 목록
              1. 📝 사용 예시
                1. 📢 참고사항
                  1. 📜 라이센스

                    Related MCP Servers

                    • A
                      security
                      F
                      license
                      A
                      quality
                      An MCP server for converting Markdown documents to PDF files.
                      Last updated -
                      1
                      1
                      JavaScript
                    • -
                      security
                      F
                      license
                      -
                      quality
                      Provides tools for reading and extracting text from PDF files, supporting both local files and URLs.
                      Last updated -
                      3
                      Python
                    • -
                      security
                      F
                      license
                      -
                      quality
                      A server providing PDF form manipulation tools via MCP's API, allowing users to find PDFs across directories, extract form field information, and visualize form fields in documents.
                      Last updated -
                      Python
                    • A
                      security
                      F
                      license
                      A
                      quality
                      A Model Context Protocol server that converts PDF documents into PNG images through a simple MCP tool call.
                      Last updated -
                      1
                      2
                      Python
                      • Apple
                      • Linux

                    View all related MCP servers

                    ID: i94bnr2e9s