Midscene:视觉驱动的 UI 自动化
核心要点
- 多端支持:Web(Playwright/Puppeteer)、PC(macOS/Windows/Linux)、Mobile(Android/iOS/HarmonyOS)统一 API
- 视觉模型 + 多模型组合:豆包 Seed、Qwen-VL、Gemini-3-Pro 可选,通过多模型协同提升任务完成率
- 自然语言控制:无需写代码,用自然语言描述即可操作任意界面,降低自动化门槛
- MCP Server 支持:可作为 MCP Server 暴露设备操作,与多种模型协作使用
- 任意界面视觉建模:突破传统 DOM 限制,支持无结构界面的自动化控制
- 报告与 Playground:可视化回溯自动化流程,方便调试和结果分析