Utilizes FFmpeg for audio file format conversion and processing between various formats including WAV, MP3, M4A, FLAC, OGG, and AAC
Integrates with Google Speech Recognition for accurate speech-to-text conversion across multiple languages
Supports OpenAI Whisper as a remote API option for high-accuracy audio transcription
Integrates with CMU Sphinx for lightweight, offline speech recognition capabilities
语音转文字 MCP 服务器
一个功能强大的语音转文字 MCP 服务器,支持多种音频格式和识别引擎。
功能特性
🎯 核心功能
- 多引擎支持: 远程API调用(阿里云百炼、OpenAI Whisper、讯飞等)、Google Speech Recognition、CMU Sphinx
- 多格式支持: WAV、MP3、M4A、FLAC、OGG、AAC
- 多语言支持: 中文、英文、日文、韩文、法文、德文、西班牙文、俄文
- 批量处理: 支持批量转写多个音频文件
- 实时进度: 提供详细的转写进度信息
- 无本地模型: 全部通过远程API调用,无需下载大模型
🛠️ 工具功能
transcribe_audio_file
: 转写音频文件transcribe_audio_data
: 转写音频数据transcribe_with_remote_api
: 通过远程API转写音频batch_transcribe
: 批量转写多个文件analyze_audio_file
: 分析音频文件信息convert_audio_file_format
: 转换音频格式get_supported_formats
: 获取支持的格式
📚 资源功能
audio://info/{file_path}
: 获取音频文件信息audio://formats
: 获取支持的音频格式
💡 提示模板
- 语音转文字助手
- 音频格式转换助手
安装
使用 uv (推荐)
使用 pip
使用方法
1. 启动服务器
2. 在 Claude Desktop 中安装
3. 使用示例
转写单个音频文件
批量转写
分析音频文件
转换音频格式
支持的格式
输入格式
- WAV
- MP3
- M4A
- FLAC
- OGG
- AAC
输出格式
- WAV
- MP3
- TXT (转写文本)
- SRT (字幕文件)
- VTT (WebVTT 字幕)
支持的语言
- 中文 (zh-CN)
- 英文 (en-US)
- 日文 (ja-JP)
- 韩文 (ko-KR)
- 法文 (fr-FR)
- 德文 (de-DE)
- 西班牙文 (es-ES)
- 俄文 (ru-RU)
识别引擎对比
引擎 | 优点 | 缺点 | 适用场景 |
---|---|---|---|
远程API(百炼/OpenAI/讯飞) | 准确率高,支持多种语言,无需本地模型 | 需要网络连接和API密钥 | 在线应用 |
Google Speech Recognition | 准确率高,支持多种语言 | 需要网络连接 | 在线应用 |
CMU Sphinx | 完全离线,轻量级 | 准确率相对较低 | 嵌入式设备 |
配置选项
环境变量
服务器配置
开发
安装开发依赖
运行测试
代码格式化
类型检查
故障排除
常见问题
- API密钥配置错误
- 音频格式不支持
- 网络连接错误
- 检查网络连接
- 检查API地址是否正确
- 考虑使用本地引擎(Google Speech Recognition)
日志调试
贡献
欢迎提交 Issue 和 Pull Request!
开发指南
- Fork 项目
- 创建功能分支
- 提交更改
- 推送到分支
- 创建 Pull Request
许可证
MIT License
更新日志
v0.1.0
- 初始版本
- 支持 Google Speech Recognition、Whisper、CMU Sphinx
- 支持多种音频格式
- 支持批量处理
- 提供进度反馈
联系方式
如有问题或建议,请通过以下方式联系:
- 提交 Issue
- 发送邮件
- 加入讨论群
注意: 使用远程API需要配置API密钥和地址,请在使用前设置相应的环境变量或在调用时传入参数。推荐使用阿里云百炼、OpenAI Whisper、讯飞等主流语音识别API。
This server cannot be installed
A powerful speech-to-text MCP server that supports multiple audio formats and recognition engines including remote APIs (Bailian, OpenAI Whisper, iFLYTEK), Google Speech Recognition, and CMU Sphinx.
Related MCP Servers
- -securityFlicense-qualityA custom MCP server that allows storage, retrieval, and management of text-based information with natural language commands and keyword detection.Last updated -TypeScript
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -147JavaScriptMIT License
- -securityAlicense-qualityAn MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.Last updated -01JavaScriptMIT License
- -securityFlicense-qualityAn MCP server that downloads videos/extracts audio from various platforms like YouTube, Bilibili, and TikTok, then transcribes them to text using OpenAI's Whisper model.Last updated -5Python