Midscene：视觉驱动的 UI 自动化

来源：https://midscenejs.com/zh/

核心要点

多端支持：Web（Playwright/Puppeteer）、PC（macOS/Windows/Linux）、Mobile（Android/iOS/HarmonyOS）统一 API
视觉模型 + 多模型组合：豆包 Seed、Qwen-VL、Gemini-3-Pro 可选，通过多模型协同提升任务完成率
自然语言控制：无需写代码，用自然语言描述即可操作任意界面，降低自动化门槛
MCP Server 支持：可作为 MCP Server 暴露设备操作，与多种模型协作使用
任意界面视觉建模：突破传统 DOM 限制，支持无结构界面的自动化控制
报告与 Playground：可视化回溯自动化流程，方便调试和结果分析

开源项目：https://github.com/web-infra-dev/midscene