Europe PMC Literature Search MCP Server

search_tools_integration_analysis.md•19.2 KiB

# search_tools 改进功能集成分析报告 ## 目录 1. [当前架构分析](#1-当前架构分析) 2. [改进功能概述](#2-改进功能概述) 3. [集成挑战分析](#3-集成挑战分析) 4. [集成方案对比](#4-集成方案对比) 5. [关键技术决策](#5-关键技术决策) 6. [风险与缓解](#6-风险与缓解) 7. [推荐实施路径](#7-推荐实施路径) --- ## 1. 当前架构分析 ### 1.1 当前 `search_tools.py` 的实现 **文件**: `src/article_mcp/tools/core/search_tools.py` ```python # 当前实现特点 - 全局变量存储服务: _search_services = None - 同步串行搜索: for source in sources: service.search() - search_type 参数存在但未使用 - 无缓存机制 - 直接调用底层同步方法 ``` **执行流程**: ``` 用户请求 │ ▼ search_literature(keyword, sources, max_results, search_type) │ ├─► 参数验证 │ ├─► 串行循环 for source in sources │ │ │ ├─► europe_pmc.search() │ ├─► pubmed.search() │ ├─► arxiv.search() │ ├─► crossref.search_works() │ └─► openalex.search_works() │ ├─► merge_articles_by_doi() │ └─► 返回结果 ``` **关键限制**: - ❌ 串行执行，总耗时 = 各源耗时之和 - ❌ `search_type` 参数被忽略 - ❌ 无缓存，重复查询浪费资源 - ❌ 同步阻塞，无法利用异步 IO --- ### 1.2 底层服务实现分析 #### Europe PMC 服务 (`services/europe_pmc.py`) ```python class EuropePMCService: def __init__(self, logger, pubmed_service): # 已有 asyncio 导入 # 已有 aiohttp 导入 # 已有 search_semaphore = asyncio.Semaphore(3) # 已有缓存机制: self.cache = {} def search(self, query: str, max_results: int) -> dict: # 同步方法 - 使用 requests session = requests.Session() response = session.get(url, params=params) return self._parse_response(response.json()) ``` **分析**: - ✅ 已有 `asyncio` 和 `aiohttp` 导入 - ✅ 已有信号量并发控制 - ✅ 已有内存缓存实现 - ❌ 没有 `search_async()` 方法 - ⚠️ 缓存是内存的，不是持久的 #### PubMed 服务 (`services/pubmed_search.py`) ```python class PubMedService: def __init__(self, logger): # 只有同步实现 self.base_url = "https://eutils.ncbi.nlm.nih.gov/..." def search(self, query: str, max_results: int) -> dict: # 使用 requests 或 Bio.Entrez # 纯同步实现 ``` **分析**: - ❌ 无异步支持 - ❌ 无 aiohttp - ⚠️ 依赖 Bio.Entrez 或 requests #### CrossRef 服务 (`services/crossref_service.py`) ```python class CrossRefService: def __init__(self, logger): self.api_client = get_api_client(logger) def search_works(self, query: str, max_results: int) -> dict: api_result = self.api_client.get(url, params=params) return ... ``` **分析**: - ❌ 无异步支持 - ⚠️ 依赖统一的 `api_client` - ❌ 需要查看 `api_utils.py` 是否支持异步 #### OpenAlex 服务 (`services/openalex_service.py`) ```python class OpenAlexService: # 类似 CrossRef，使用 api_client ``` #### arXiv 服务 (`services/arxiv_search.py`) 需要查看具体实现... --- ### 1.3 FastMCP 工具注册方式 **当前注册方式** (`cli.py`): ```python def create_mcp_server(): from fastmcp import FastMCP mcp = FastMCP("Article MCP Server", version="0.1.9") # 注册工具 @mcp.tool(...) def search_literature(...): ... ``` **FastMCP 限制**: - FastMCP 的 `@mcp.tool` 装饰器目前只支持同步函数 - 异步工具函数支持可能需要特定版本或配置 - 需要验证 FastMCP 是否支持 `async def` 工具函数 --- ## 2. 改进功能概述 ### 2.1 改进版本结构 (`search_tools_improvements.py`) ``` search_tools_improvements.py │ ├── SEARCH_STRATEGIES (策略配置) │ ├── comprehensive: 全部 5 个数据源 │ ├── fast: 2 个主要数据源 │ ├── precise: 权威源 + 交集合并 │ └── preprint: arXiv 预印本 │ ├── SearchCache (缓存类) │ ├── SHA256 键生成 │ ├── 持久化文件存储 │ ├── TTL 过期控制 │ └── 缓存统计 │ ├── parallel_search_sources() (并行搜索) │ └── asyncio.gather() 并行执行 │ ├── apply_merge_strategy() (合并策略) │ ├── union: 并集合并 │ └── intersection: 交集合并 │ └── search_literature_async() (异步主函数) ├── 策略应用 ├── 缓存检查 ├── 并行搜索 ├── 结果合并 └── 缓存写入 ``` ### 2.2 新增功能对比 | 功能 | 原实现 | 改进版本 | 性能提升 | |------|--------|----------|----------| | 并行搜索 | ❌ 串行 | ✅ asyncio.gather | 4.5x | | 搜索策略 | ⚠️ 参数忽略 | ✅ 4 种策略 | 灵活性 | | 缓存机制 | ❌ 无 | ✅ 文件缓存 | 278x (重复) | | 合并策略 | ❌ 仅并集 | ✅ 并集/交集 | 精确性 | --- ## 3. 集成挑战分析 ### 3.1 挑战 1: FastMCP 工具函数的异步支持 **问题**: FastMCP 的 `@mcp.tool` 装饰器是否支持异步函数？ ```python # 当前方式（同步） @mcp.tool(...) def search_literature(...): return result # 期望方式（异步）- 需要验证 @mcp.tool(...) async def search_literature(...): return await async_search(...) ``` **分析**: - 如果 FastMCP 不支持异步工具，需要用 `asyncio.run()` 包装 - `asyncio.run()` 会创建新事件循环，有一定开销 - 在已有事件循环中调用 `asyncio.run()` 会报错 **解决方案**: 1. 检查 FastMCP 版本是否支持异步工具 2. 如果不支持，使用 `asyncio.run()` 同步包装 3. 或使用线程池运行异步代码 --- ### 3.2 挑战 2: 底层服务的异步方法缺失 **问题**: 所有服务都只有同步方法 `search()` | 服务 | 同步方法 | 异步方法 | 改造需求 | |------|----------|----------|----------| | Europe PMC | ✅ `search()` | ❌ | 已有 aiohttp，易改造 | | PubMed | ✅ `search()` | ❌ | 需添加 async 支持 | | CrossRef | ✅ `search_works()` | ❌ | 取决于 api_client | | OpenAlex | ✅ `search_works()` | ❌ | 取决于 api_client | | arXiv | ✅ `search()` | ❌ | 需查看实现 | **解决方案**: 1. 为每个服务添加 `search_async()` 方法 2. 或使用适配器包装同步方法为异步 3. 优先改造高频使用的服务 --- ### 3.3 挑战 3: 现有缓存与改进缓存的冲突 **问题**: Europe PMC 已有内存缓存 ```python # europe_pmc.py class EuropePMCService: def __init__(self): self.cache = {} # 内存缓存 self.cache_expiry = {} # 过期时间 # search_tools_improvements.py class SearchCache: def __init__(self): self.cache_dir = Path(...) # 文件缓存 ``` **冲突点**: - 两层缓存可能导致数据不一致 - 缓存键格式可能不同 - TTL 策略可能冲突 **解决方案**: 1. 统一使用一层缓存（推荐） 2. 或设计分层缓存策略（复杂） 3. 或禁用服务层缓存，只在工具层缓存 --- ### 3.4 挑战 4: API 速率限制 **问题**: 并行搜索可能触发 API 速率限制 | API | 速率限制 | 并行请求风险 | |-----|----------|--------------| | Europe PMC | 1 req/s | 中等（有信号量） | | PubMed | 3 req/s (无key) | 中等 | | CrossRef | 50 req/s | 低 | | OpenAlex | ? | 未知 | **分析**: - Europe PMC 已有 `search_semaphore = asyncio.Semaphore(3)` - 并行请求可能超过速率限制 - 需要在工具层实现速率控制 **解决方案**: 1. 添加全局速率限制器 2. 或重用服务层的信号量 3. 或分批执行并行请求 --- ### 3.5 挑战 5: 全局变量与服务依赖注入 **问题**: 改进版本如何获取服务实例？ ```python # 当前方式 _search_services = None # 全局变量 def register_search_tools(mcp, services, logger): global _search_services _search_services = services # 注入服务 # 改进版本需要 def search_literature_async(..., services=None, ...): # 如何获取 services？ ``` **解决方案**: 1. 继续使用全局变量传递服务 2. 或在适配器中注入服务 3. 或使用依赖注入容器 --- ## 4. 集成方案对比 ### 方案 A: 直接替换（激进） ```python # 删除 search_tools.py # 重命名 search_tools_improvements.py -> search_tools.py # 修改 register_search_tools 导出异步函数 ``` **优点**: - 代码最简洁 - 性能最优 - 无兼容性包袱 **缺点**: - 破坏性变更 - 需要同步改造所有服务 - FastMCP 可能不支持异步工具 - 回滚困难 **风险等级**: 🔴 高 **工作量**: 5-7 天 - 服务改造: 3-4 天 - 测试验证: 1-2 天 - 文档更新: 0.5 天 - 风险缓冲: 0.5-1 天 --- ### 方案 B: 功能分支（保守） ```python # 保留 search_tools.py (原实现) # 新增 search_tools_async.py (新实现) # 注册两个工具: # - search_literature (同步) # - search_literature_async (异步) ``` **优点**: - 零破坏性 - 用户可自由选择 - 易于 A/B 测试 **缺点**: - 代码冗余 - 维护成本翻倍 - API 不一致可能导致用户困惑 - 长期技术债 **风险等级**: 🟡 中 **工作量**: 3-4 天 - 新工具注册: 1 天 - 文档说明: 0.5 天 - 测试验证: 1-1.5 天 - 风险缓冲: 0.5-1 天 --- ### 方案 C: 渐进式迁移（推荐） ```python # search_tools.py - 统一入口 def search_literature(...): # 根据配置选择实现 if config.USE_ASYNC: return _run_async(...) else: return _run_sync(...) def _run_async(...): # 包装异步实现 return asyncio.run(search_literature_async(...)) def _run_sync(...): # 应用改进逻辑的同步实现 # - 使用策略 # - 使用缓存 # - 但串行执行 ``` **优点**: - ✅ 平滑迁移 - ✅ 可逐步验证 - ✅ 向后兼容 - ✅ 支持特性开关 - ✅ 可随时回退 **缺点**: - ⚠️ 需要额外适配层 - ⚠️ 短期代码复杂 - ⚠️ 配置管理增加 **风险等级**: 🟢 低 **工作量**: 4-5 天 - 适配器开发: 1 天 - 配置管理: 0.5 天 - 测试验证: 1.5-2 天 - 文档更新: 0.5 天 - 风险缓冲: 0.5-1 天 --- ### 方案 D: 混合并行优化（折中） ```python # search_tools.py - 只添加缓存和策略 # 不使用异步，但优化同步执行 def search_literature(...): # 1. 应用搜索策略 if sources is None: sources = get_strategy_sources(search_type) # 2. 检查缓存 cache_key = get_cache_key(...) if cached := cache.get(cache_key): return cached # 3. 串行搜索（保持不变） for source in sources: result = service.search(...) # 4. 写入缓存 cache.set(cache_key, result) return result ``` **优点**: - ✅ 改动最小 - ✅ 无异步风险 - ✅ 缓存和策略立即可用 **缺点**: - ❌ 无并行加速 - ⚠️ 性能提升有限（主要靠缓存） **风险等级**: 🟢 低 **工作量**: 1-2 天 - 策略集成: 0.5 天 - 缓存集成: 0.5 天 - 测试: 0.5 天 --- ## 5. 关键技术决策 ### 5.1 决策 1: FastMCP 异步支持 **需要验证**: FastMCP 是否支持异步工具函数？ ```python # 验证方法 import fastmcp print(fastmcp.__version__) # 检查版本 # 尝试注册异步工具 @mcp.tool(...) async def test_async_tool(): return await asyncio.sleep(1) ``` **决策树**: ``` FastMCP 支持异步工具？ │ ├─ 是 → 直接使用异步函数 │ 决策: 使用方案 A（直接替换） │ └─ 否 → 使用 asyncio.run() 包装 │ ├─ 在新线程中运行 → 避免事件循环冲突 │ └─ 在主线程运行 → 简单但可能阻塞决策: 使用方案 C（渐进式迁移） ``` **推荐**: 先验证，再决策。如果支持异步，倾向于方案 A；否则使用方案 C。 --- ### 5.2 决策 2: 服务层改造范围 **选项 1: 全面改造** - 为所有服务添加 `search_async()` 方法 - 使用 aiohttp 重写网络请求 **选项 2: 适配器包装** - 创建 `AsyncServiceAdapter` 类 - 在执行器中运行同步方法 **选项 3: 混合方式** - 高频服务（Europe PMC）全面改造 - 低频服务使用适配器 **成本对比**: | 选项 | Europe PMC | PubMed | CrossRef | OpenAlex | arXiv | 总工时 | |------|------------|--------|----------|----------|-------|--------| | 全面改造 | 1h | 2h | 1.5h | 1.5h | 1h | **7h** | | 适配器包装 | 0.5h | 0.5h | 0.5h | 0.5h | 0.5h | **2.5h** | | 混合方式 | 1h | 0.5h | 0.5h | 0.5h | 0.5h | **3h** | **推荐**: - 短期: 使用适配器包装（选项 2） - 长期: 逐步全面改造（选项 1），从 Europe PMC 开始 --- ### 5.3 决策 3: 缓存策略 **问题**: 服务层已有缓存 vs 工具层新增缓存 **选项 1: 单层缓存（工具层）** - 禁用服务层缓存 - 只使用工具层 SearchCache **选项 2: 两层缓存** - 保留服务层缓存（短期，内存） - 新增工具层缓存（长期，文件） **选项 3: 统一缓存** - 抽象缓存接口 - 服务层和工具层共享 **推荐**: 选项 1（单层缓存） - 理由: 简单一致，避免数据不一致 - 服务层缓存可以作为内存优化保留，但不作为主要机制 --- ### 5.4 决策 4: API 速率限制处理 **问题**: 并行请求可能触发速率限制 **选项 1: 全局信号量** ```python global_semaphore = asyncio.Semaphore(3) # 最多 3 个并发请求 ``` **选项 2: 分批执行** ```python # 将 5 个源分成 2 批 batch1 = ["europe_pmc", "pubmed", "arxiv"] batch2 = ["crossref", "openalex"] await search_batch(batch1) await search_batch(batch2) ``` **选项 3: 使用服务层信号量** - Europe PMC 已有 `search_semaphore` - 其他服务添加类似机制 **推荐**: - 短期: 选项 2（分批执行），最安全 - 长期: 选项 3（服务层信号量） --- ## 6. 风险与缓解 ### 6.1 风险矩阵 | 风险 | 概率 | 影响 | 等级 | 缓解措施 | |------|------|------|------|----------| | FastMCP 不支持异步 | 中 | 高 | 🔴 高 | 1. 验证 FastMCP 版本 2. 准备 asyncio.run() 备选方案 | | 服务改造出错 | 中 | 中 | 🟡 中 | 1. 使用适配器包装 2. 保留原实现作为回退 | | 缓存数据不一致 | 低 | 中 | 🟢 低 | 1. 统一缓存键生成 2. 版本控制缓存格式 | | API 速率限制触发 | 中 | 低 | 🟢 低 | 1. 分批执行 2. 全局信号量 | | 性能回归 | 低 | 高 | 🟡 中 | 1. 性能基准测试 2. 特性开关控制 | | 用户体验中断 | 低 | 高 | 🟡 中 | 1. 向后兼容 2. 灰度发布 | ### 6.2 回退策略 ```python # 回退等级 LEVEL 0: 完全启用异步 LEVEL 1: 启用缓存，禁用异步 LEVEL 2: 禁用缓存和异步（原实现） LEVEL 3: 回退到备份代码 # 配置控制 USE_ASYNC_SEARCH = true/false ENABLE_SEARCH_CACHE = true/false ``` --- ## 7. 推荐实施路径 ### 阶段 1: 验证与准备（1 天） | 任务 | 时间 | 产出 | |------|------|------| | 1.1 验证 FastMCP 异步支持 | 1h | 验证结果 | | 1.2 性能基准测试 | 2h | 基准数据 | | 1.3 备份现有代码 | 0.5h | 备份文件 | | 1.4 创建配置文件 | 0.5h | .env.example | ### 阶段 2: 混合并行优化（1-2 天） **目标**: 先添加缓存和策略，验证稳定性 ```python # search_tools.py 修改 from article_mcp.tools.core.search_tools_improvements import ( SearchCache, SEARCH_STRATEGIES, get_cache_key, ) # 全局缓存 _global_cache = SearchCache() def search_literature(keyword, sources=None, max_results=10, search_type="comprehensive"): # 1. 应用策略 strategy = SEARCH_STRATEGIES.get(search_type, SEARCH_STRATEGIES["comprehensive"]) if sources is None: sources = strategy["default_sources"] # 2. 检查缓存 cache_key = get_cache_key(keyword, sources, max_results) if cached := _global_cache.get(cache_key): return cached # 3. 串行搜索（原有逻辑） # ... # 4. 写入缓存 _global_cache.set(cache_key, result) return result ``` **验证点**: - [ ] 缓存命中时性能提升 - [ ] 策略正确应用 - [ ] 向后兼容 ### 阶段 3: 异步适配器（1-2 天） **目标**: 添加异步支持，保持兼容 ```python # 创建 search_adapter.py class SearchAdapter: """适配器：在同步工具中调用异步实现""" @staticmethod def search_literature_async_wrapper(keyword, sources, max_results, search_type): """同步包装异步实现""" return asyncio.run(search_literature_async(...)) # 在 search_tools.py 中 def search_literature(...): if config.USE_ASYNC: return SearchAdapter.search_literature_async_wrapper(...) else: # 使用阶段 2 的实现 ``` **验证点**: - [ ] 异步执行正确 - [ ] 事件循环无冲突 - [ ] 性能提升可测量 ### 阶段 4: 服务层改造（2-3 天） **目标**: 为高频服务添加原生异步方法 ```python # Europe PMC 服务优先改造 class EuropePMCService: async def search_async(self, query, max_results): async with aiohttp.ClientSession() as session: async with session.get(...) as response: data = await response.json() return self._parse_response(data) ``` **验证点**: - [ ] 与同步实现结果一致 - [ ] 速率限制正确处理 - [ ] 错误处理完善 ### 阶段 5: 灰度发布（1 周） | 天数 | 操作 | 验证 | |------|------|------| | Day 1 | 内部测试 | 功能正常 | | Day 2-3 | 小范围试用 | 性能监控 | | Day 4-5 | 扩大试用 | 稳定性验证 | | Day 6-7 | 全面启用 | 持续监控 | --- ## 8. 总结 ### 核心建议 1. **优先级排序**: - 🔥 高优先级: 缓存机制（低风险，高收益） - 🔥 高优先级: 搜索策略（低风险，中等收益） - ⚠️ 中优先级: 异步并行（中风险，高收益） 2. **推荐方案**: 渐进式迁移（方案 C） - 先添加缓存和策略 - 再添加异步适配器 - 最后改造服务层 3. **关键成功因素**: - ✅ 向后兼容 - ✅ 可回退 - ✅ 充分测试 - ✅ 性能监控 4. **不推荐的方案**: - ❌ 直接替换（风险太高） - ❌ 功能分支（长期维护成本高） - ❌ 不加缓存直接异步（提升有限） ### 下一步行动如果需要开始集成，建议顺序： 1. 先阅读本文档，理解所有挑战和方案 2. 提出疑问或需要澄清的点 3. 确定集成方案后，再开始实施 4. 按阶段逐步进行，每阶段验证后再进入下一阶段

Loading blob content...

Latest Blog Posts

Redis vs ioredis vs valkey-glide
By punkpeye on January 26, 2026.
benchmark
Redis
valkey
Quickstart: Publish an MCP Server to the MCP Registry
By punkpeye on January 24, 2026.
mcp
official reference mirror
Official MCP Registry Server.json Requirements
By punkpeye on January 24, 2026.
mcp
official reference mirror

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/gqy20/article-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

search_tools_integration_analysis.md•19.2 KiB