Flyworks MCP:免费且快速的 Zeroshot Lipsync 工具
概述
Flyworks MCP 是一个模型上下文协议 (MCP) 服务器,它提供了与 Flyworks API 交互的便捷接口。它支持快速、免费地为各种数字化身(包括写实风格和卡通风格)创建口型同步视频。
演示
输入头像视频(素材):
一段带有 TTS 的音频片段,上面写着我是一个飞影数字人。Welcome to Flyworks MCP server demo. This tool enables fast and free lipsync video creation for a wide range of digital avatars, including realistic and cartoon styles.
生成的口型同步视频:
特征
使用数字化身视频和音频作为输入,创建唇形同步视频
通过文本创建唇形同步视频(使用文本转语音)
通过图像或视频创建数字人类头像
支持异步和同步操作模式
更多功能即将推出...
要求
Python 3.8+
依赖项:
httpx、mcp[cli]
用法
与 Claude 或其他 MCP 客户端集成
在 Claude Desktop 中使用
转到Claude > Settings > Developer > Edit Config > claude_desktop_config.json以包含以下内容:
���游标中使用
转到Cursor -> Preferences -> Cursor Settings -> MCP -> Add new global MCP Server以添加上述配置。
确保用您的实际 API 令牌替换your_api_token_here ,并将FLYWORKS_MCP_BASE_PATH更新为系统上将保存输出文件的有效目录。
**注意:**我们提供使用令牌
2aeda3bcefac46a3的免费试用版工具。但请注意,此免费访问权限的每日配额有限。此外,生成的视频将带有水印,且时长限制为 45 秒。如需完整访问权限,请联系bd@flyworks.ai获取您的令牌。
通过 Smithery 安装
要通过Smithery自动为 Claude Desktop 安装 flyworks-mcp:
本地安装
克隆此存储库:
git clone https://github.com/yourusername/flyworks-mcp.git cd flyworks-mcp安装依赖项:
pip install httpx "mcp[cli]>=1.6.0"或者使用
uv:uv pip install httpx "mcp[cli]>=1.6.0"为了避免服务器启动时出现超时问题,我们建议预先安装所有依赖项:
pip install pygments pydantic-core httpx "mcp[cli]>=1.6.0"配置
将您的 Flyworks API 令牌设置为环境变量:
或者,您可以创建一个.env文件。
运行服务器
直接运行server.py文件:
spawn uvx ENOENT 问题:
请在终端中运行以下命令来确认其绝对路径:
一旦获得绝对路径(例如,/usr/local/bin/uvx),请更新配置以使用该路径(例如,“command”:“/usr/local/bin/uvx”)。
工具描述
1. 通过音频创建唇形同步视频( create_lipsync_video_by_audio )
创建带有音频输入的口型同步视频。让数字人形动画与提供的音频同步说话。
参数:
avatar:数字人头像 ID。此参数或头像创建参数必须提供其中之一。avatar_video_url:用于创建头像的视频的 URL。avatar_image_url:用于创建头像的图像的 URL。avatar_video_file:用于创建头像的视频文件的本地路径。avatar_image_file:用于创建头像的图像文件的本地路径。audio_url:音频文件的远程 URL。必须提供 audio_url 或 audio_file 之一。audio_file:音频文件的本地路径。必须提供 audio_url 或 audio_file 之一。title:所创建视频的可选标题。async_mode:如果为 true,则立即返回 task_id。如果为 false,则等待完成并下载视频。默认为 true。output_path:如果 async_mode 为 false,则指定下载视频的保存位置。默认为“output.mp4”。
注意:
对于头像创建,请提供 avatar_video_url、avatar_image_url、avatar_video_file 或 avatar_image_file 中的一个。
如果直接提供头像ID,这些参数将被忽略。
返回:
如果 async_mode 为真:task_id 用于稍后检查状态,created_avatar(如果创建了新的头像)
如果 async_mode 为 false:下载的视频路径、任务结果和 created_avatar(如果适用)
2. 通过文本创建唇形同步视频( create_lipsync_video_by_text )
创建带有文本输入的口型同步视频。根据文本生成音频,并让数字人形动画朗读该音频。
参数:
avatar:数字人头像 ID。此参数或头像创建参数必须提供其中之一。avatar_video_url:用于创建头像的视频的 URL。avatar_image_url:用于创建头像的图像的 URL。avatar_video_file:用于创建头像的视频文件的本地路径。avatar_image_file:用于创建头像的图像文件的本地路径。text:虚拟角色朗读的文本内容。必填。voice:用于文本转语音的语音 ID。若未提供,则系统将自动选择随机语音。title:所创建视频的可选标题。async_mode:如果为 true,则立即返回 task_id。如果为 false,则等待完成并下载视频。默认为 true。output_path:如果 async_mode 为 false,则指定下载视频的保存位置。默认为“output.mp4”。
注意:
对于头像创建,请提供 avatar_video_url、avatar_image_url、avatar_video_file 或 avatar_image_file 中的一个。
如果直接提供头像ID,这些参数将被忽略。
返回:
如果 async_mode 为真:task_id 用于稍后检查状态、选定的语音 ID 和 created_avatar(如果适用)
如果 async_mode 为 false:下载的视频路径、任务结果、所选语音 ID 和 created_avatar(如果适用)
检查任务状态
对于以异步模式运行的任务,您可以使用 Flyworks API 的/creation/task端点以及该工具返回的 task_id 检查其状态。
笔记
作业处理可能需要一些时间,请耐心等待
视频文件URL为临时,请及时下载保存
使用本地文件时,服务器会自动上传到Flyworks服务器
在同步模式下,该工具将等待任务完成并自动下载视频
同步模式允许的最大等待时间为 10 分钟(600 秒)
通过视频创建头像通常质量更好,但需要更长的时间
为了快速测试,通过图像创建头像速度更快,但质量可能较低
相关链接
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
模型上下文协议服务器可为各种数字化身提供快速、免费的口型同步视频创建,支持音频和文本输入以生成同步的唇部动作。
Related MCP Servers
- Asecurity-licenseAqualityModel Context Protocol server that enables generating videos from text prompts and/or images using AI models (Luma Ray2 Flash and Kling v1.6 Pro) with configurable parameters like aspect ratio, resolution, and duration.Last updated -23MIT License
- -security-license-qualityA Model Context Protocol server that provides a convenient interface for creating lipsynced videos by matching digital avatar videos with audio inputs.
- -security-license-qualityA Model Context Protocol server that enables developers to integrate advanced text-to-speech and video translation capabilities into their applications through simple API calls.
- Asecurity-licenseAqualityA Model Context Protocol server that integrates with VOICEVOX engine to provide text-to-speech synthesis and speaker information retrieval, allowing users to generate and play voice audio from text.Last updated -2MIT License