Skip to main content
Glama
baidu-xiling

Baidu Digital Human MCP Server

Official
by baidu-xiling

Server Configuration

Describes the environment variables required to run the server.

NameRequiredDescriptionDefault

No arguments

Capabilities

Server capabilities have not been inspected yet.

Tools

Functions exposed to the LLM to take actions

NameDescription
getVoicesC

#工具说明:查询可用的发音人ID。

样例1:

用户输入:我之前克隆过哪些声音? 思考过程: 1.用户想要查询可用的发音人ID,需要使用“getVoices”工具。 2.工具需要参数,isSystem,一个参数。 3.从“克隆过的”可以推测希望查询克隆发音人ID,因此参数的值为“false”

样例2:

用户输入:我想用一个二十岁左右温柔小姐姐的声音。 思考过程: 1.用户想要查询可用的发音人ID,需要使用“getVoices”工具。 2.工具需要参数,isSystem,一个参数。 3.用户未明确指出发音人ID的来源,因此不传任何值。 4.从接口返回的内容中寻找describe中“二十岁”左右,gender中为“female”的音色,优先推荐给用户

getFiguresC

#工具说明:查询可用的人像ID

uploadFilesC

#工具说明:根据业务类型上传所需要的文件。

样例:

用户输入:上传test.mp3这个文件用于声音克隆,文件在C:/Users/username/Desktop/test.mp3。 思考过程: 1.用户想要上传文件,需要使用“uploadFiles”工具。 2.工具需要参数,file,providerType,sourceFileName三个参数。 3.file:在C:/Users/username/Desktop/test.mp3路径下,名称为test.mp3的文件;providerType:声音克隆对应的值OPEN_TTS_CLONE_LITE;sourceFileName:test.mp3

generateDh123VideoC

#工具说明:简单便捷的生成数字人视频,根据真人录制的视频及选定音色,对视频分辨率等没有要求,无需人像生成,直接生产对应的数字人视频。

样例1:

用户输入:用fileid为xxx的视频文件,发音人ID为yyy的音色,视频的内容是“大家好,我是数字人播报的内容”,生成一个数字人视频。 思考过程: 1.用户想要用视频文件来直接生成一个视频,用户只提供了视频文件ID,发音人ID,以及内容,是一个简单的视频合成需求,需要使用“generateDh123Video”工具。 2.工具需要templateVideoId,driveType,text,person,inputAudioUrl这几个参数。 3.templateVideoId是需要使用的视频文件的ID,所以值为xxx。给的播报内容是文本,所以driveType是文本驱动,text为“大家好,我是数字人播报的内容”。发音人已经提供了ID,所以person的值是yyy

样例2:

用户输入:视频的地址是https://open-api-test.bj.bcebos.com/ae870923-2a3b-4d5e-b6a2-e44b4025647220250417_163529_trim.mp4,用发音人ID为yyy的音色,视频的内容是“大家好,我是数字人播报的内容”,生成一个数字人视频。 思考过程: 1.用户想要用视频地址的文件来直接生成一个视频,用户只提供了视频文件链接URL,发音人ID,以及内容,是一个简单的视频合成需求用户没有提到,需要使用“generateDh123Video”工具。 2.工具需要templateVideoId,driveType,text,person,inputAudioUrl这几个参数。 3.templateVideoId是需要使用的视频文件的ID,所以值为xxx。给的播报内容是文本,所以driveType是文本驱动,text为“大家好,我是数字人播报的内容”。发音人已经提供了ID,所以person的值是yyy

getDh123VideoStatusC

#工具说明:查询123数字人视频合成进度。

样例1:

用户输入:查一下taskid为xxx的123数字人视频好了没有 思考过程: 1.用户想要查询taskid为xxx的123数字人视频,需要使用“getDh123VideoStatus”工具。 2.工具需要task ID这些参数。 3.task ID的值为xxx

generateDhVideoC

#工具说明:根据所选数字人像ID及发音人ID,生成数字人视频。

样例1:

用户输入:用数字人像ID为xxx,发音人ID为yyy的音色,视频的内容是“大家好,我是数字人播报的内容”,使用横屏全身的机位,视频背景用“https://digital-human-material.bj.bcebos.com/-%5BLjava.lang.String%3B%4046f6cc1e.png”,开启自动添加动作,开启字幕,生成一个1080P的数字人视频。 思考过程: 1.用户想要用人像ID生成一个数字人视频,对声音,背景,字幕,分辨率等有要求,不是一个简单的数字人视频,需要使用“generateDhVideo”工具。 2.工具需要FigureId,driveType,text,person,inputAudioUrl,width,hight,cameraID,enable,backgroundimageUrl,autoAnimoji这些参数。 3.FigureId是需要使用的人像ID,所以值为xxx。给的播报内容是文本,所以driveType是文本驱动,text为“大家好,我是数字人播报的内容”。发音人已经提供了ID,所以person的值是yyy,开启自动动作,所以autoAnimoji的值为true,开启字幕,所以enabled的值为true,分辨率为1080P,拆分为width的值为1920,hight的值为1080,backgroundimageUrl的值是“https://digital-human-material.bj.bcebos.com/-%5BLjava.lang.String%3B%4046f6cc1e.png”

getDhVideoStatusC

#工具说明:查询基础数字人视频合成进度。

样例1:

用户输入:查一下taskid为xxx的数字人视频好了没有 思考过程: 1.用户想要查询taskid为xxx的数字人视频好了没有,需要根据context来做判断,最近调用了“generateDhVideo”工具,需要使用“getDhVideoStatus”工具,如果没有查询到,则需要使用“getDh123VideoStatus”工具继续查询。 2.工具需要task ID这些参数。 3.task ID的值为xxx

generateText2AudioC

#工具说明:根据提供的文本内容及选定音色,无需生成视频,生产对应的音频。

样例1:

用户输入:用发音人ID为xxx的音色,内容是“大家好,我是数字人播报的内容”,生成音频。 思考过程: 1.用户想生成一个音频,需要使用“generateText2Audio”工具。 2.工具需要text,person这几个参数。 3.text为“大家好,我是数字人播报的内容”。发音人已经提供了ID,所以person的值是yyy

getText2AudioStatusC

#工具说明:查询音频合成进度。

样例1:

用户输入:查一下taskid为xxx的语音合成好了没有。 思考过程: 1.用户想要查询taskid为xxx的音频好了没有,需要使用“getText2AudioStatus”工具查询。 2.工具需要task ID这些参数。 3.task ID的值为xxx

generateLite2dGeneralVideoC

#工具说明:根据上传真人录制的视频生成数字人像,仅可用于基础视频制作,数字人使用通用口型驱动。

样例1:

用户输入:用fileid为xxx的视频文件,生成数字人,命名为“zhangsan”,是个男生的形象。 思考过程: 1.用户想要生成数字人像,需要使用“generateLite2dGeneralVideo”工具。 2.工具需要参数,name,gender,keepBackground,templateVideoId四个参数。 3.用户提到了fileID为xxx,所以templateVideoid的值为xxx,name为zhangsan,男生的形象,gender的值为male,未提到是否保留背景所以keepBackground默认为false。

getLite2dGeneralStatusB

#工具说明:根据2D小样本数字人对应的人像ID,查询该任务目前的状态,也可以用于查询有哪些可用的2D人像。

样例1:

用户输入:查一下id为xxx的数字人好了没有。 思考过程: 1.用户想要查询人像生成任务的状态,需要使用“getLite2dGeneralStatus”工具。 2.工具需要,figureId,systemFigure,trainSuccess,pageNo,ppageSize这些参数。 3.用户提到了ID为xxx,所以figureId的值为xxx,现在不清楚这个任务的状态,所以trainSuccess的值不需要填,系统人像不需要生成过程,所以systemFigure值为false,其他为默认值。

样例2:

用户输入:我可以用哪些人像 思考过程: 1.用户想要查询哪些人像ID可以使用,需要使用“getLite2dGeneralStatus”工具。 2.工具需要,figureId,systemFigure,trainSuccess,pageNo,ppageSize这些参数。 3.查询可用人像,所以figureId为空,syste Figure为空,trainSuccess为ture,pageNo默认为1,避免漏查pageSize为最大值100。

generateVoiceCloneLiteC

#工具说明:根据上传音频生成音色,可用于语音合成及视频制作.

样例1:

用户输入:用文件id为xxx的音频文件克隆声音。命名为“zhangsan”,是一个三十岁左右中年男性的音色,用“这个是我克隆的声音”这段文本试听一下 思考过程: 1.用户想要克隆一个声音,需要使用“generateVoiceCloneLite”工具。 2.工具需要参数,name,gender,describe,uploadAudioId,example,五个参数。 3.uploadAudioId的值为文件ID,name的值为zhangsan,describe的值为“一个三十岁左右中年男性的音色”,gender的值为male,example为“这个是我克隆的声音”

getVoiceCloneStatusC

#工具说明:根据声音克隆任务的发音人ID,查询该任务目前的状态。

样例1:

用户输入:查一下id为xxx的声音克隆好了没有。 思考过程: 1.用户想要查询声音克隆任务的状态,需要使用“getVoiceCloneStatus”工具。 2.工具需要参数,isSuccess,perId两个参数。 3.用户提到了ID为xxx,所以perid的值为xxx,现在不清楚这个任务的状态,所以isSuccess的值为false。

Prompts

Interactive templates invoked by user choice

NameDescription

No prompts

Resources

Contextual data attached and managed by the client

NameDescription

No resources

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/baidu-xiling/mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server