GLM-4.5V MCP Server
GLM-4.5V 多模态能力的 MCP 服务器,提供图像处理、视觉查询和文件处理功能。
功能
read_image: 读取本地/URL图片并返回 dataURL 与尺寸信息
vision_query: 调用 GLM-4.5V 对图片进行 OCR/问答/检测
process_file: 使用 GLM-4.5V 处理文件(上传并提取内容)
安装
配置
复制环境变量文件:
编辑 .env 文件,填入你的 GLM API Key:
构建
运行
或使用启动脚本:
开发模式
测试功能
创建测试文件并验证功能:
工具说明
read_image
读取图片并返回 base64 编码的 dataURL。
参数:
path(必需): 图片路径或URLmaxSide(可选): 最大边长,用于缩放
vision_query
使用 GLM-4.5V 分析图片。
参数:
path(必需): 图片路径或URLprompt(必需): 查询提示词mode(可选): 查询模式 ("describe", "ocr", "qa", "detect")returnJson(可选): 是否返回JSON格式结果
process_file
使用 GLM-4.5V 处理文件,支持多种格式的文件上传和内容提取。
支持的文件格式:
文档:PDF、DOCX、DOC、XLS、XLSX、PPT、PPTX、CSV、TXT
图片:PNG、JPG、JPEG
文件大小限制:
图片文件:最大 5MB
其他文件:最大 50MB
参数:
filePath(必需): 本地文件路径extractPrompt(可选): 内容提取提示词,用于指导如何提取文件内容
返回结果:
使用示例
处理 PDF 文档
处理 Excel 表格
Related MCP Servers
- AsecurityAlicenseAqualityProvides image recognition capabilities using Anthropic Claude Vision and OpenAI GPT-4 Vision APIs, supporting multiple image formats and offering optional text extraction via Tesseract OCR.Last updated -332MIT License
- -securityAlicense-qualityA server that provides AI-powered image generation, modification, and processing capabilities through the Model Context Protocol, leveraging Google Gemini models and other image services.Last updated -15MIT License
- AsecurityAlicenseAqualityProvides tools for image, audio, and video recognition using Google's Gemini AI through the Model Context Protocol.Last updated -39MIT License
- AsecurityAlicenseAqualityA multi-provider AI image generation server that allows users to create and transform images using Google (Imagen & Gemini), ZHIPU AI CogView-4, or Alibaba Bailian through any MCP-compatible application.Last updated -42MIT License