Baidu Digital Human MCP Server
OfficialServer Configuration
Describes the environment variables required to run the server.
| Name | Required | Description | Default |
|---|---|---|---|
No arguments | |||
Capabilities
Server capabilities have not been inspected yet.
Tools
Functions exposed to the LLM to take actions
| Name | Description |
|---|---|
| getVoicesC | #工具说明:查询可用的发音人ID。 样例1:用户输入:我之前克隆过哪些声音? 思考过程: 1.用户想要查询可用的发音人ID,需要使用“getVoices”工具。 2.工具需要参数,isSystem,一个参数。 3.从“克隆过的”可以推测希望查询克隆发音人ID,因此参数的值为“false” 样例2:用户输入:我想用一个二十岁左右温柔小姐姐的声音。 思考过程: 1.用户想要查询可用的发音人ID,需要使用“getVoices”工具。 2.工具需要参数,isSystem,一个参数。 3.用户未明确指出发音人ID的来源,因此不传任何值。 4.从接口返回的内容中寻找describe中“二十岁”左右,gender中为“female”的音色,优先推荐给用户 |
| getFiguresC | #工具说明:查询可用的人像ID |
| uploadFilesC | #工具说明:根据业务类型上传所需要的文件。 样例:用户输入:上传test.mp3这个文件用于声音克隆,文件在C:/Users/username/Desktop/test.mp3。 思考过程: 1.用户想要上传文件,需要使用“uploadFiles”工具。 2.工具需要参数,file,providerType,sourceFileName三个参数。 3.file:在C:/Users/username/Desktop/test.mp3路径下,名称为test.mp3的文件;providerType:声音克隆对应的值OPEN_TTS_CLONE_LITE;sourceFileName:test.mp3 |
| generateDh123VideoC | #工具说明:简单便捷的生成数字人视频,根据真人录制的视频及选定音色,对视频分辨率等没有要求,无需人像生成,直接生产对应的数字人视频。 样例1:用户输入:用fileid为xxx的视频文件,发音人ID为yyy的音色,视频的内容是“大家好,我是数字人播报的内容”,生成一个数字人视频。 思考过程: 1.用户想要用视频文件来直接生成一个视频,用户只提供了视频文件ID,发音人ID,以及内容,是一个简单的视频合成需求,需要使用“generateDh123Video”工具。 2.工具需要templateVideoId,driveType,text,person,inputAudioUrl这几个参数。 3.templateVideoId是需要使用的视频文件的ID,所以值为xxx。给的播报内容是文本,所以driveType是文本驱动,text为“大家好,我是数字人播报的内容”。发音人已经提供了ID,所以person的值是yyy 样例2:用户输入:视频的地址是https://open-api-test.bj.bcebos.com/ae870923-2a3b-4d5e-b6a2-e44b4025647220250417_163529_trim.mp4,用发音人ID为yyy的音色,视频的内容是“大家好,我是数字人播报的内容”,生成一个数字人视频。 思考过程: 1.用户想要用视频地址的文件来直接生成一个视频,用户只提供了视频文件链接URL,发音人ID,以及内容,是一个简单的视频合成需求用户没有提到,需要使用“generateDh123Video”工具。 2.工具需要templateVideoId,driveType,text,person,inputAudioUrl这几个参数。 3.templateVideoId是需要使用的视频文件的ID,所以值为xxx。给的播报内容是文本,所以driveType是文本驱动,text为“大家好,我是数字人播报的内容”。发音人已经提供了ID,所以person的值是yyy |
| getDh123VideoStatusC | #工具说明:查询123数字人视频合成进度。 样例1:用户输入:查一下taskid为xxx的123数字人视频好了没有 思考过程: 1.用户想要查询taskid为xxx的123数字人视频,需要使用“getDh123VideoStatus”工具。 2.工具需要task ID这些参数。 3.task ID的值为xxx |
| generateDhVideoC | #工具说明:根据所选数字人像ID及发音人ID,生成数字人视频。 样例1:用户输入:用数字人像ID为xxx,发音人ID为yyy的音色,视频的内容是“大家好,我是数字人播报的内容”,使用横屏全身的机位,视频背景用“https://digital-human-material.bj.bcebos.com/-%5BLjava.lang.String%3B%4046f6cc1e.png”,开启自动添加动作,开启字幕,生成一个1080P的数字人视频。 思考过程: 1.用户想要用人像ID生成一个数字人视频,对声音,背景,字幕,分辨率等有要求,不是一个简单的数字人视频,需要使用“generateDhVideo”工具。 2.工具需要FigureId,driveType,text,person,inputAudioUrl,width,hight,cameraID,enable,backgroundimageUrl,autoAnimoji这些参数。 3.FigureId是需要使用的人像ID,所以值为xxx。给的播报内容是文本,所以driveType是文本驱动,text为“大家好,我是数字人播报的内容”。发音人已经提供了ID,所以person的值是yyy,开启自动动作,所以autoAnimoji的值为true,开启字幕,所以enabled的值为true,分辨率为1080P,拆分为width的值为1920,hight的值为1080,backgroundimageUrl的值是“https://digital-human-material.bj.bcebos.com/-%5BLjava.lang.String%3B%4046f6cc1e.png” |
| getDhVideoStatusC | #工具说明:查询基础数字人视频合成进度。 样例1:用户输入:查一下taskid为xxx的数字人视频好了没有 思考过程: 1.用户想要查询taskid为xxx的数字人视频好了没有,需要根据context来做判断,最近调用了“generateDhVideo”工具,需要使用“getDhVideoStatus”工具,如果没有查询到,则需要使用“getDh123VideoStatus”工具继续查询。 2.工具需要task ID这些参数。 3.task ID的值为xxx |
| generateText2AudioC | #工具说明:根据提供的文本内容及选定音色,无需生成视频,生产对应的音频。 样例1:用户输入:用发音人ID为xxx的音色,内容是“大家好,我是数字人播报的内容”,生成音频。 思考过程: 1.用户想生成一个音频,需要使用“generateText2Audio”工具。 2.工具需要text,person这几个参数。 3.text为“大家好,我是数字人播报的内容”。发音人已经提供了ID,所以person的值是yyy |
| getText2AudioStatusC | #工具说明:查询音频合成进度。 样例1:用户输入:查一下taskid为xxx的语音合成好了没有。 思考过程: 1.用户想要查询taskid为xxx的音频好了没有,需要使用“getText2AudioStatus”工具查询。 2.工具需要task ID这些参数。 3.task ID的值为xxx |
| generateLite2dGeneralVideoC | #工具说明:根据上传真人录制的视频生成数字人像,仅可用于基础视频制作,数字人使用通用口型驱动。 样例1:用户输入:用fileid为xxx的视频文件,生成数字人,命名为“zhangsan”,是个男生的形象。 思考过程: 1.用户想要生成数字人像,需要使用“generateLite2dGeneralVideo”工具。 2.工具需要参数,name,gender,keepBackground,templateVideoId四个参数。 3.用户提到了fileID为xxx,所以templateVideoid的值为xxx,name为zhangsan,男生的形象,gender的值为male,未提到是否保留背景所以keepBackground默认为false。 |
| getLite2dGeneralStatusB | #工具说明:根据2D小样本数字人对应的人像ID,查询该任务目前的状态,也可以用于查询有哪些可用的2D人像。 样例1:用户输入:查一下id为xxx的数字人好了没有。 思考过程: 1.用户想要查询人像生成任务的状态,需要使用“getLite2dGeneralStatus”工具。 2.工具需要,figureId,systemFigure,trainSuccess,pageNo,ppageSize这些参数。 3.用户提到了ID为xxx,所以figureId的值为xxx,现在不清楚这个任务的状态,所以trainSuccess的值不需要填,系统人像不需要生成过程,所以systemFigure值为false,其他为默认值。 样例2:用户输入:我可以用哪些人像 思考过程: 1.用户想要查询哪些人像ID可以使用,需要使用“getLite2dGeneralStatus”工具。 2.工具需要,figureId,systemFigure,trainSuccess,pageNo,ppageSize这些参数。 3.查询可用人像,所以figureId为空,syste Figure为空,trainSuccess为ture,pageNo默认为1,避免漏查pageSize为最大值100。 |
| generateVoiceCloneLiteC | #工具说明:根据上传音频生成音色,可用于语音合成及视频制作. 样例1:用户输入:用文件id为xxx的音频文件克隆声音。命名为“zhangsan”,是一个三十岁左右中年男性的音色,用“这个是我克隆的声音”这段文本试听一下 思考过程: 1.用户想要克隆一个声音,需要使用“generateVoiceCloneLite”工具。 2.工具需要参数,name,gender,describe,uploadAudioId,example,五个参数。 3.uploadAudioId的值为文件ID,name的值为zhangsan,describe的值为“一个三十岁左右中年男性的音色”,gender的值为male,example为“这个是我克隆的声音” |
| getVoiceCloneStatusC | #工具说明:根据声音克隆任务的发音人ID,查询该任务目前的状态。 样例1:用户输入:查一下id为xxx的声音克隆好了没有。 思考过程: 1.用户想要查询声音克隆任务的状态,需要使用“getVoiceCloneStatus”工具。 2.工具需要参数,isSuccess,perId两个参数。 3.用户提到了ID为xxx,所以perid的值为xxx,现在不清楚这个任务的状态,所以isSuccess的值为false。 |
Prompts
Interactive templates invoked by user choice
| Name | Description |
|---|---|
No prompts | |
Resources
Contextual data attached and managed by the client
| Name | Description |
|---|---|
No resources | |
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/baidu-xiling/mcp'
If you have feedback or need assistance with the MCP directory API, please join our Discord server