Utilizes FFmpeg for audio file format conversion and processing between various formats including WAV, MP3, M4A, FLAC, OGG, and AAC
Integrates with Google Speech Recognition for accurate speech-to-text conversion across multiple languages
Supports OpenAI Whisper as a remote API option for high-accuracy audio transcription
Integrates with CMU Sphinx for lightweight, offline speech recognition capabilities
Click on "Install Server".
Wait a few minutes for the server to deploy. Once ready, it will show a "Started" state.
In the chat, type
@followed by the MCP server name and your instructions, e.g., "@Voice to Text MCP Servertranscribe this meeting recording in English"
That's it! The server will respond to your query, and you can continue using it as needed.
Here is a step-by-step guide with screenshots.
语音转文字 MCP 服务器
一个功能强大的语音转文字 MCP 服务器,支持多种音频格式和识别引擎。
功能特性
🎯 核心功能
多引擎支持: 远程API调用(阿里云百炼、OpenAI Whisper、讯飞等)、Google Speech Recognition、CMU Sphinx
多格式支持: WAV、MP3、M4A、FLAC、OGG、AAC
多语言支持: 中文、英文、日文、韩文、法文、德文、西班牙文、俄文
批量处理: 支持批量转写多个音频文件
实时进度: 提供详细的转写进度信息
无本地模型: 全部通过远程API调用,无需下载大模型
🛠️ 工具功能
transcribe_audio_file: 转写音频文件transcribe_audio_data: 转写音频数据transcribe_with_remote_api: 通过远程API转写音频batch_transcribe: 批量转写多个文件analyze_audio_file: 分析音频文件信息convert_audio_file_format: 转换音频格式get_supported_formats: 获取支持的格式
📚 资源功能
audio://info/{file_path}: 获取音频文件信息audio://formats: 获取支持的音频格式
💡 提示模板
语音转文字助手
音频格式转换助手
Related MCP server: Audio Transcriber MCP Server
安装
使用 uv (推荐)
使用 pip
使用方法
1. 启动服务器
2. 在 Claude Desktop 中安装
3. 使用示例
转写单个音频文件
批量转写
分析音频文件
转换音频格式
支持的格式
输入格式
WAV
MP3
M4A
FLAC
OGG
AAC
输出格式
WAV
MP3
TXT (转写文本)
SRT (字幕文件)
VTT (WebVTT 字幕)
支持的语言
中文 (zh-CN)
英文 (en-US)
日文 (ja-JP)
韩文 (ko-KR)
法文 (fr-FR)
德文 (de-DE)
西班牙文 (es-ES)
俄文 (ru-RU)
识别引擎对比
引擎 | 优点 | 缺点 | 适用场景 |
远程API(百炼/OpenAI/讯飞) | 准确率高,支持多种语言,无需本地模型 | 需要网络连接和API密钥 | 在线应用 |
Google Speech Recognition | 准确率高,支持多种语言 | 需要网络连接 | 在线应用 |
CMU Sphinx | 完全离线,轻量级 | 准确率相对较低 | 嵌入式设备 |
配置选项
环境变量
服务器配置
开发
安装开发依赖
运行测试
代码格式化
类型检查
故障排除
常见问题
API密钥配置错误
# 检查环境变量 echo $BAILIAN_API_KEY echo $BAILIAN_API_URL # 或在代码中直接传入 result = await transcribe_with_remote_api( file_path="audio.wav", api_key="your_api_key", api_url="your_api_url" )音频格式不支持
# 安装 ffmpeg # Windows: 下载 ffmpeg 并添加到 PATH # macOS: brew install ffmpeg # Linux: sudo apt install ffmpeg网络连接错误
检查网络连接
检查API地址是否正确
考虑使用本地引擎(Google Speech Recognition)
日志调试
贡献
欢迎提交 Issue 和 Pull Request!
开发指南
Fork 项目
创建功能分支
提交更改
推送到分支
创建 Pull Request
许可证
MIT License
更新日志
v0.1.0
初始版本
支持 Google Speech Recognition、Whisper、CMU Sphinx
支持多种音频格式
支持批量处理
提供进度反馈
联系方式
如有问题或建议,请通过以下方式联系:
提交 Issue
发送邮件
加入讨论群
注意: 使用远程API需要配置API密钥和地址,请在使用前设置相应的环境变量或在调用时传入参数。推荐使用阿里云百炼、OpenAI Whisper、讯飞等主流语音识别API。