take_screenshot
Capture browser screenshots to visually confirm page elements before operations, provide visual context for AI analysis, and assist in debugging web automation tasks.
Instructions
截取页面截图(标准化工作流程第1步)
⚠️ 核心预处理工具:这是标准化工作流程的第1步!
🎯 主要用途:
1. 🔍 视觉确认:在任何元素操作前,先确认目标元素存在
2. 📋 为多模态LLM提供视觉上下文信息
3. 🐛 调试辅助:操作失败时用于问题诊断
4. 📝 文档记录:保存操作过程的视觉证据
💡 与其他工具的配合:
- 多模态LLM:截图 → 视觉分析 → 精确操作
- 非多模态LLM:截图 → get_page_text() → get_dom_tree() → 操作
Args:
filename: 截图文件名(可选,自动生成时间戳命名)
full_page: 是否截取完整页面(True)还是可视区域(False)
element_selector: 仅截取特定元素(可选)
Returns:
str: 截图保存路径和操作结果
🚀 推荐使用场景:
- 每次页面导航后立即截图确认加载状态
- 点击、输入等操作前截图确认目标元素
- 操作失败时截图辅助问题诊断
Input Schema
TableJSON Schema
| Name | Required | Description | Default |
|---|---|---|---|
| filename | No | ||
| full_page | No | ||
| element_selector | No |