Integrations
Used for API communication between the frontend and backend, enabling efficient HTTP requests for document processing workflows.
Integrates with the UI for data visualization of document statistics, providing graphical representation of document processing metrics.
Powers the REST interface for the document processing system, enabling API-based interactions with the document processing capabilities.
MCP 문서 프로세서
모델 컨텍스트 프로토콜(MCP)을 사용하여 비즈니스 문서를 자동으로 추출, 분석, 라우팅하는 지능형 문서 처리 시스템입니다.
프로젝트 개요
이 프로젝트는 MCP를 사용하여 실제 비즈니스 과제인 문서 처리 워크플로 자동화를 해결하는 방법을 보여줍니다. 이 시스템은 다음과 같은 기능을 제공합니다.
- 수신 문서(송장, 계약서, 이메일)를 분류합니다.
- ML 모델을 사용하여 관련 정보 추출
- 문서 유형에 따라 처리 처리 파이프라인 전체에서 컨텍스트 유지 REST API를 통해 기능 노출
주요 MCP 구성 요소
- 컨텍스트 개체 : MCP의 핵심인 이 개체(
MCPContext
에 구현됨)는 처리 단계 간에 정보를 전달하고 문서의 상태를 유지합니다. - 메모리 시스템 : 플러그 가능한 백엔드를 사용하여 처리 단계 사이의 컨텍스트 객체를 저장합니다.
- 프로토콜 : 프로세서와 모델에 대한 명확한 인터페이스를 정의하여 모듈성을 보장합니다.
- 라우터 : 콘텐츠에 따라 문서를 전문 프로세서로 지능적으로 라우팅합니다.
사업적 가치
이 솔루션은 다음과 같은 여러 가지 비즈니스 과제를 해결합니다.
- 수동 처리 감소: 문서에서 데이터 추출을 자동화합니다.
- 일관성: 문서 유형 전반에 걸쳐 일관된 처리를 보장합니다.
- 감사 가능성: 처리 내역 및 신뢰도 점수를 유지합니다.
- 확장성: 모듈식 디자인으로 새로운 문서 유형을 쉽게 추가할 수 있습니다.
기술적 하이라이트
- 분류 및 엔터티 추출을 위해 BERT 기반 모델을 사용합니다.
- 문서 요약을 위한 T5 모델
- REST 인터페이스를 위한 FastAPI
- 간편한 확장을 위한 플러그형 아키텍처
- 포괄적인 로깅 및 오류 처리
- 더 나은 사용자 경험을 위한 React 기반 UI
개요
MCP 문서 처리기는 다양한 유형의 문서(송장, 계약서, 이메일 등)를 일관되고 자동화된 방식으로 처리하는 일반적인 비즈니스 과제를 해결하도록 설계되었습니다. MCP는 모델 컨텍스트 프로토콜(Model Context Protocol) 프레임워크를 활용하여 시스템의 여러 구성 요소 간의 정보 흐름을 관리합니다.
주요 특징
- 문서 분류 : 문서 유형을 자동으로 식별합니다.
- 정보 추출 : 문서에서 핵심 정보를 추출합니다.
- 문서 라우팅 : 문서를 적절한 프로세서로 라우팅합니다.
- 컨텍스트 관리 : 처리 파이프라인 전체에서 컨텍스트를 유지합니다.
- API 인터페이스 : 다른 시스템과의 통합을 위한 RESTful API를 제공합니다.
건축학
이 시스템은 다음을 제공하는 모델 컨텍스트 프로토콜(MCP)을 중심으로 구축되었습니다.
- 컨텍스트 객체 : 처리 단계 전반에 걸쳐 정보를 전달합니다.지엑스피1
- 메모리 시스템 : API 호출 간 컨텍스트 객체를 저장합니다.Copy
- 프로토콜 : 프로세서 및 모델에 대한 인터페이스 정의Copy
- 라우터 : 문서를 적절한 전문 프로세서로 라우팅합니다.Copy
MCP 흐름도
MCP 구현 세부 정보
이 프로젝트의 모델 컨텍스트 프로토콜 구현은 여러 가지 주요 이점을 제공합니다.
1. 컨텍스트 지속성을 갖춘 상태 저장 처리
MCPContext
클래스는 문서 처리 라이프사이클 전체에 걸쳐 상태를 유지합니다.
2. 플러그형 메모리 시스템
메모리 시스템은 플러그형으로 설계되어 다양한 스토리지 백엔드를 사용할 수 있습니다.
3. 신뢰도 추적
MCP는 추출된 모든 데이터에 대한 신뢰도 점수를 추적하여 더 나은 의사 결정을 내릴 수 있도록 합니다.
4. 처리 내역
각 처리 단계는 컨텍스트의 기록에 기록되어 감사가 가능합니다.
5. 지능형 문서 라우팅
ProcessorRouter
각 문서에 적합한 프로세서를 결정합니다.
6. 확장성
Processor
프로토콜을 구현하면 새로운 문서 유형을 간단하게 추가할 수 있습니다.
문서 처리기
이 시스템에는 다양한 문서 유형에 대한 전문 프로세서가 포함되어 있습니다.
- 송장 처리기 : 공급업체, 고객, 품목, 총액 등을 추출합니다.
- 계약 처리기 : 당사자, 주요 날짜, 조건 등을 추출합니다.
- 이메일 프로세서 : 발신자, 수신자, 제목, 본문 등을 추출합니다.
머신 러닝 모델
다양한 작업에 여러 ML 모델이 사용됩니다.
- 문서 분류기 : 문서 유형 분류를 위한 BERT 기반 모델
- 엔티티 추출기 : 주요 정보를 추출하기 위한 명명된 엔티티 인식 모델
- 요약기 : 문서 요약을 생성하기 위한 T5 기반 모델
사용자 인터페이스
MCP 문서 처리기는 문서 처리 시스템과 직관적으로 상호작용할 수 있는 현대적인 React 기반 사용자 인터페이스를 제공합니다. UI는 Material-UI로 구축되었으며 다음과 같은 기능을 제공합니다.
UI 기능
- 대시보드 : 통계를 포함한 처리된 문서 개요 및 문서 세부 정보에 대한 빠른 액세스
- 문서 업로드 : 새 문서 업로드를 위한 드래그 앤 드롭 인터페이스
- 문서 처리 : 문서 처리를 위한 단계별 워크플로
- 문서 뷰어 : 추출된 정보가 포함된 처리된 문서의 자세한 보기
- 처리 내역 : 감사를 위한 모든 처리 단계의 타임라인 보기
UI 아키텍처
프런트엔드는 다음으로 구성됩니다.
- React : 사용자 인터페이스 구성 요소를 구축하기 위해
- Material-UI : 일관되고 반응성 있는 디자인을 위해
- React Router : 다양한 뷰 간 탐색을 위해
- Axios : 백엔드와의 API 통신을 위해
- Chart.js : 문서 통계의 데이터 시각화를 위한 도구
UI 백엔드 통합
프런트엔드는 RESTful API를 통해 백엔드와 통신하며, 주요 엔드포인트는 다음과 같습니다.
GET /api/documents
: 모든 문서 검색POST /api/documents/upload
: 새 문서 업로드POST /api/documents/{document_id}/process
: 문서 처리GET /api/documents/{document_id}
: 문서 세부 정보 가져오기DELETE /api/documents/{document_id}
: 문서 삭제
완전한 시스템 아키텍처
MCP 문서 프로세서는 프런트엔드, API 계층, 처리 구성 요소 및 머신 러닝 모델을 통합하는 계층형 아키텍처를 따릅니다.
전체 워크플로
문서 처리 워크플로는 시스템 구성 요소 전반에 걸쳐 여러 단계로 구성됩니다.
- 문서 업로드 :
- 사용자는 UI를 통해 문서를 업로드합니다.
- 프런트엔드가 문서를 백엔드 API로 보냅니다.
- 백엔드는 문서 메타데이터를 사용하여 MCPContext 객체를 생성합니다.
- 컨텍스트는 메모리 시스템에 저장됩니다.
- 문서 분류 :
- 사용자는 UI를 통해 처리를 시작합니다.
- 백엔드는 메모리에서 문서 컨텍스트를 검색합니다.
- 문서 분류기 모델은 문서 유형을 결정합니다.
- 컨텍스트는 문서 유형 정보로 업데이트됩니다.
- 문서 처리 :
- 프로세서 라우터는 문서 유형에 따라 적절한 프로세서를 선택합니다.
- 선택된 프로세서(송장, 계약서 또는 이메일)가 문서를 처리합니다.
- 프로세서는 엔티티 추출기를 사용하여 주요 정보를 식별합니다.
- 추출된 데이터는 신뢰도 점수와 함께 컨텍스트에 추가됩니다.
- 결과 검색 :
- 업데이트된 컨텍스트는 메모리에 다시 저장됩니다.
- UI는 처리된 문서 정보를 검색하여 표시합니다.
- 사용자는 추출된 데이터, 신뢰도 점수 및 처리 기록을 볼 수 있습니다.
- 감사 및 검토 :
- 모든 처리 단계는 컨텍스트의 처리 기록에 기록됩니다.
- UI는 추출된 데이터에 대한 신뢰도 점수를 시각화합니다.
- 사용자는 추출된 정보와 함께 문서 텍스트를 검토할 수 있습니다.
시작하기
필수 조건
- 파이썬 3.8 이상
- Node.js 14+ 및 npm(프런트엔드용)
- requirements.txt에 나열된 종속성
설치 및 설정
백엔드 설정
- 저장소를 복제합니다Copy
- 가상 환경을 생성하고 활성화합니다Copy
- 백엔드 종속성 설치Copy
- 문서 저장을 위한 데이터 디렉토리를 생성합니다(존재하지 않는 경우)Copy
프런트엔드 설정
- 프런트엔드 디렉토리로 이동합니다Copy
- 프런트엔드 종속성 설치Copy
애플리케이션 실행
백엔드 서버 시작
- 프로젝트의 루트 디렉토리에서(가상 환경이 활성화된 상태에서):이렇게 하면 http://localhost:8000 에서 FastAPI 서버가 시작됩니다.Copy
- http://localhost:8000/docs 에서 API 문서에 액세스할 수 있습니다.
프런트엔드 개발 서버 시작
- 새 터미널 창/탭을 엽니다
- 프런트엔드 디렉토리로 이동합니다.Copy
- React 개발 서버를 시작합니다.이렇게 하면 http://localhost:3000 에서 프런트엔드가 시작됩니다.Copy
애플리케이션 사용
- 브라우저를 열고 http://localhost:3000 으로 이동하세요.
- 사이드바 탐색을 사용하여 다음을 수행하세요.
- 대시보드 보기
- 새 문서 업로드
- 문서 세부 정보 처리 및 보기
워크플로 예시
- 문서 업로드 :
- 사이드바에서 "문서 업로드"를 클릭하세요
- 문서(PDF, 이미지 또는 텍스트 파일)를 끌어서 놓으세요
- "문서 업로드" 버튼을 클릭하세요
- 문서 처리 :
- 업로드가 성공적으로 완료되면 "문서 처리"를 클릭하세요.
- 처리가 완료될 때까지 기다리세요
- 결과보기 :
- 추출된 데이터, 신뢰도 점수 및 처리 내역 보기
- 대시보드로 이동하여 처리된 모든 문서를 확인하세요.
API 사용
API와 직접 상호 작용할 수도 있습니다.
GET /api/documents
: 모든 문서 검색POST /api/documents/upload
: 새 문서 업로드POST /api/documents/{document_id}/process
: 문서 처리GET /api/documents/{document_id}
: 문서 세부 정보 가져오기DELETE /api/documents/{document_id}
: 문서 삭제
시스템 확장
새 문서 프로세서 추가
BaseProcessor
에서 상속되는 새로운 프로세서 클래스를 만듭니다.can_handle
및process
메서드를 구현합니다.api/routes.py
에서 라우터에 프로세서를 추가합니다.
새 모델 추가
- 적절한 프로토콜을 구현하는 새로운 모델 클래스를 만듭니다.
config/config.yaml
에 구성을 추가합니다.- 모델을 관련 프로세서와 통합합니다.
특허
This server cannot be installed
모델 컨텍스트 프로토콜(MCP)을 사용하여 비즈니스 문서를 자동으로 분류하고, 정보를 추출하고, 라우팅하는 지능형 문서 처리 시스템입니다.
Related MCP Servers
- -securityAlicense-qualityA Model Context Protocol (MCP) server that enables semantic search and retrieval of documentation using a vector database (Qdrant). This server allows you to add documentation from URLs or local files and then search through them using natural language queries.Last updated -1474JavaScriptApache 2.0
- -securityAlicense-qualityA tool for Model Context Protocol (MCP) that allows you to analyze web content and add it to your knowledge base, storing content as Markdown files for easy viewing with tools like Obsidian.Last updated -6PythonMIT License
- -securityAlicense-qualityA server that provides document processing capabilities using the Model Context Protocol, allowing conversion of documents to markdown, extraction of tables, and processing of document images.Last updated -6PythonMIT License
- AsecurityAlicenseAqualityA Model Context Protocol (MCP) server that provides tools for reading Excel (xlsx) files, enabling extraction of data from entire workbooks or specific sheets with results returned in structured JSON format.Last updated -32PythonApache 2.0