Open Search MCP

MIT License

Overview InspectNew Endpoints Schema Related Servers Reviews Score

open-search-mcp
docs

DEEP_RESEARCH_GUIDE.md•9.67 kB

# Open Search MCP - 深度研究功能指南本指南详细介绍Open Search MCP的深度研究功能，包括类似Claude 4和Gemini 2.5 Pro的高级研究能力。 ## 📋 目录 - [功能概述](#功能概述) - [深度研究工具](#深度研究工具) - [AI驱动的搜索优化](#ai驱动的搜索优化) - [PDF处理系统](#pdf处理系统) - [配置和优化](#配置和优化) - [使用示例](#使用示例) ## 🎯 功能概述 ### 核心特性 #### 1. **范围广** - 大规模搜索 - **多引擎并发**: 同时搜索50-200个不同源 - **智能源选择**: 根据主题自动选择最相关的数据源 - **全网覆盖**: 网页、学术论文、PDF文档、社交媒体 - **深度挖掘**: 多轮搜索，基于初步结果进行深度探索 #### 2. **准确度高** - AI精准搜索 - **查询优化**: 使用本地AI模型优化搜索关键词 - **语义理解**: 理解用户意图，生成相关查询 - **智能过滤**: AI驱动的结果质量评估 - **Token优化**: 智能摘要，减少不必要的内容 #### 3. **内容全面** - 深度内容分析 - **全文提取**: 完整获取网页和文档内容 - **结构化解析**: 提取标题、段落、列表、表格 - **多媒体处理**: 图片OCR、视频字幕提取 - **跨语言支持**: 自动翻译和多语言内容处理 #### 4. **PDF支持** - 专业文档处理 - **PDF搜索**: 专门的PDF搜索引擎 - **智能解析**: 结构化提取PDF内容 - **OCR识别**: 扫描文档的文字识别 - **学术优化**: 针对学术论文的特殊处理 ## 🔍 深度研究工具 ### 1. deep_research - 深度研究工具 #### 功能描述类似Claude 4的深度研究功能，进行全面的主题研究。 #### 使用方法 ```javascript // 基础使用 const result = await client.call_tool("deep_research", { topic: "人工智能在医疗诊断中的应用", depth: "deep", maxSources: 150, includeAcademic: true, includePDF: true, language: "zh-CN" }); // 高级配置 const advancedResult = await client.call_tool("deep_research", { topic: "Climate change impact on agriculture", depth: "deep", maxSources: 200, includeAcademic: true, includePDF: true, language: "auto", aiModel: "llama3.2", confidenceThreshold: 0.8, searchStrategy: "comprehensive", qualityFilters: ["peer-reviewed", "recent", "authoritative"] }); ``` #### 输出结果 ```json { "research": { "topic": "人工智能在医疗诊断中的应用", "summary": "AI生成的综合研究摘要...", "keyFindings": [ "AI在影像诊断中的准确率已达到95%以上", "深度学习模型在早期癌症检测中表现突出", "AI辅助诊断可减少医生工作负担30-40%" ], "sources": [ { "title": "Deep Learning in Medical Imaging", "url": "https://example.com/paper1.pdf", "type": "academic", "relevanceScore": 0.95, "qualityScore": 0.92, "summary": "该论文详细介绍了深度学习在医学影像中的应用...", "keyPoints": ["CNN架构优化", "数据增强技术", "临床验证结果"], "credibilityScore": 0.94 } ], "relatedTopics": [ "医学影像AI", "临床决策支持系统", "AI伦理在医疗中的应用" ], "confidence": 0.92, "searchStats": { "totalSources": 150, "processedSources": 89, "pdfDocuments": 23, "academicPapers": 34, "searchTime": 45.2, "aiProcessingTime": 12.8 } } } ``` ### 2. pdf_search - PDF搜索分析工具 #### 功能描述专门搜索、下载、解析PDF文档，支持OCR和结构化内容提取。 #### 使用方法 ```javascript const pdfResult = await client.call_tool("pdf_search", { query: "machine learning algorithms comparison", documentType: "academic", maxDocuments: 20, includeOCR: true, extractImages: true, extractTables: true, languages: ["en", "zh"], dateRange: { start: "2020-01-01", end: "2024-12-31" } }); ``` ### 3. intelligent_search - 智能搜索工具 #### 功能描述 AI驱动的智能搜索，自动优化查询和结果评估。 #### 使用方法 ```javascript const intelligentResult = await client.call_tool("intelligent_search", { query: "最新的量子计算突破", aiModel: "qwen2.5", useSemanticSearch: true, enableQueryExpansion: true, qualityThreshold: 0.8, diversityBoost: true }); ``` ## 🤖 AI驱动的搜索优化 ### 查询优化流程 #### 1. 查询分析 ``` 用户查询 → 意图识别 → 实体提取 → 关键词扩展 → 同义词生成 ``` #### 2. 搜索策略生成 - **广度优先**: 覆盖更多相关主题 - **深度优先**: 专注特定领域深入研究 - **平衡策略**: 兼顾广度和深度 - **专业策略**: 针对学术、商业、技术等特定领域 #### 3. 结果质量评估 ```python # 质量评分算法 quality_score = ( relevance_score * 0.4 + # 相关性 authority_score * 0.3 + # 权威性 freshness_score * 0.2 + # 时效性 completeness_score * 0.1 # 完整性 ) ``` ### 本地AI模型配置 #### 支持的模型 - **Llama 3.2**: 通用语言理解和生成 - **Qwen 2.5**: 多语言支持，中文优化 - **Mistral 7B**: 高效推理，适合资源受限环境 - **CodeLlama**: 代码和技术文档理解 #### 配置示例 ```json { "ai": { "defaultModel": "llama3.2", "models": { "llama3.2": { "endpoint": "http://localhost:11434", "temperature": 0.7, "maxTokens": 4096, "contextWindow": 8192 }, "qwen2.5": { "endpoint": "http://localhost:11434", "temperature": 0.6, "maxTokens": 2048, "specialization": "multilingual" } }, "fallback": { "enabled": true, "provider": "huggingface", "model": "microsoft/DialoGPT-medium" } } } ``` ## 📄 PDF处理系统 ### PDF搜索源 #### 1. 学术数据库 - **arXiv**: 物理、数学、计算机科学 - **PubMed**: 生物医学和生命科学 - **Google Scholar**: 跨学科学术搜索 - **SSRN**: 社会科学研究网络 - **ResearchGate**: 研究人员网络 #### 2. 专业文档库 - **Internet Archive**: 历史文档和书籍 - **Government Publications**: 政府报告和政策文档 - **Corporate Reports**: 企业年报和研究报告 - **Technical Standards**: 技术标准和规范 ### PDF处理管道 #### 1. 文档获取 ``` PDF搜索 → URL验证 → 下载管理 → 格式检测 → 元数据提取 ``` #### 2. 内容提取 ``` PDF解析 → 文本提取 → 结构识别 → 图表处理 → OCR处理 ``` #### 3. 智能分析 ``` 内容分析 → 摘要生成 → 关键词提取 → 实体识别 → 质量评估 ``` ### OCR配置 #### Tesseract.js配置 ```javascript const ocrOptions = { language: 'eng+chi_sim+chi_tra', engineMode: 1, // LSTM neural net mode pageSegMode: 1, // Automatic page segmentation preserveInterwordSpaces: true, enableConfidenceScores: true, whitelist: '0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz一二三四五六七八九十' }; ``` ## ⚙️ 配置和优化 ### 环境变量配置 ```bash # AI模型配置 OLLAMA_HOST=http://localhost:11434 DEFAULT_AI_MODEL=llama3.2 AI_TEMPERATURE=0.7 AI_MAX_TOKENS=4096 # 搜索配置 MAX_CONCURRENT_SEARCHES=50 SEARCH_TIMEOUT=30000 MAX_SOURCES_PER_SEARCH=200 ENABLE_SEMANTIC_SEARCH=true # PDF处理配置 MAX_PDF_SIZE_MB=50 ENABLE_OCR=true OCR_LANGUAGES=eng,chi_sim PDF_CACHE_TTL=86400 # 缓存配置 ENABLE_VECTOR_CACHE=true VECTOR_CACHE_SIZE=1000 CONTENT_CACHE_TTL=3600 ENABLE_PERSISTENT_CACHE=true # 性能优化 ENABLE_STREAMING_RESULTS=true BATCH_SIZE=10 RATE_LIMIT_PER_MINUTE=100 MEMORY_LIMIT_MB=2048 ``` ### 性能优化建议 #### 1. 硬件要求 - **CPU**: 8核以上，支持AVX指令集 - **内存**: 16GB以上（AI模型需要4-8GB） - **存储**: SSD，至少100GB可用空间 - **网络**: 稳定的高速网络连接 #### 2. 软件优化 - **并发控制**: 合理设置并发数量 - **缓存策略**: 启用多层缓存 - **模型选择**: 根据硬件选择合适的AI模型 - **资源监控**: 实时监控CPU、内存、网络使用 ## 📚 使用示例 ### 示例1: 学术研究 ```javascript // 深度研究某个学术主题 const academicResearch = await client.call_tool("deep_research", { topic: "Transformer architecture improvements in 2024", depth: "deep", maxSources: 100, includeAcademic: true, includePDF: true, language: "en", searchStrategy: "academic-focused", qualityFilters: ["peer-reviewed", "recent", "high-impact"] }); console.log("研究摘要:", academicResearch.research.summary); console.log("关键发现:", academicResearch.research.keyFindings); console.log("学术论文数量:", academicResearch.research.searchStats.academicPapers); ``` ### 示例2: 商业分析 ```javascript // 公司和市场研究 const businessResearch = await client.call_tool("deep_research", { topic: "Electric vehicle market trends 2024", depth: "medium", maxSources: 80, includeAcademic: false, includePDF: true, language: "en", searchStrategy: "business-focused", qualityFilters: ["authoritative", "recent", "data-rich"] }); ``` ### 示例3: 技术调研 ```javascript // 技术文档和最佳实践研究 const techResearch = await client.call_tool("intelligent_search", { query: "Kubernetes security best practices 2024", aiModel: "codellama", useSemanticSearch: true, enableQueryExpansion: true, includeCodeExamples: true, techFocus: true }); ``` --- **最后更新**: 2025-07-03 **文档版本**: v1.0 **维护者**: Open Search MCP Team

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/flyanima/open-search-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server