Skip to content

Claude Code Auto Mode & Claude Vision

学习日期: 2026-04-12


Claude Code Auto Mode

来源: Anthropic Engineering Blog

三种权限模式对比

模式自主性安全性维护成本
沙箱高(隔离)高(每新能力需配置)
手动确认中(93% 通过率)
--dangerously-skip-permissions最高
Auto Mode(新增)

Auto Mode 架构:两层防御

输入层:Prompt Injection 探测
  - 扫描工具输出(文件读取/网页抓取/Shell输出)
  - 发现劫持尝试 → 注入警告上下文

输出层:Transcript Classifier
  - Sonnet 4.6 驱动
  - 快速单 Token 过滤(yes/no)
  - 复杂情况 → Chain-of-Thought 推理

威胁模型(4 类危险行为)

类型示例防御策略
Scope Escalation用户说"清理旧分支"→ 删除所有远程分支模糊请求+破坏性操作→拦截
Credential Exploration遇到认证错误→系统性搜索环境变量凭证访问→拦截
Agent-Inferred Parameters用户说"取消我的任务"→按名称相似度匹配并删除模糊目标+不可逆操作→拦截
Sharing via External Service想分享调试脚本→构造 GitHub Gist数据外泄→拦截
Safety-Check Bypass部署命令失败→带 skip-verification 重试安全检查绕过→拦截

权限决策流程

Tier 1: 内置安全工具白名单(只读操作)
  ↓ 不匹配
Tier 2: 用户配置的 always-allow 规则
  ↓ 不匹配(Auto Mode 下丢弃任意代码执行规则)
Tier 3: Transcript Classifier
  - Fast filter: 单 Token 判断拦截/允许
  - CoT reasoning: 仅在 fast filter 触发时执行

Claude Vision

来源: Claude Vision 官方文档

基本限制

限制数值
单请求图片数(API)最多 600 张
单请求图片数(claude.ai)最多 20 张
最大图片尺寸8000x8000 px
超过 20 张图片时最大尺寸2000x2000 px

Token 消耗估算

公式: tokens ≈ (width × height) / 750

图片尺寸Token 数单张成本1K 张成本
200x200 px~54~$0.00016~$0.16
1000x1000 px~1334~$0.004~$4.00
1092x1092 px~1590~$0.0048~$4.80

最佳实践

  1. 图片放前面: 图片在文字前效果更好
  2. 尺寸控制: 长边不超过 1568px,最佳 ~1.15 megapixels
  3. 格式: JPEG/PNG/GIF/WebP 均可
  4. 文本可读性: 文本图片确保文字清晰不小于 200px
  5. Files API: 多图场景用 file_id 引用,减少请求体大小

TestHub Platform

来源: testhub_platform by 陈继刚

核心特性

模块能力
AI 需求分析PDF/Word/TXT 解析,智能提取业务需求
智能测试用例生成基于需求自动生成多类型测试用例
API 测试HTTP/WebSocket,环境变量,Allure 报告
UI 自动化Selenium/Playwright 双引擎,POM 模式
AI 智能模式Browser-use 框架,DOM/视觉双模式
移动测试Airtest,图像识别,多设备管理

技术栈

  • 后端: Django 4.2 + DRF + Celery
  • 前端: Vue 3.3 + Element Plus + Monaco Editor
  • AI: LangChain + 多模型支持(OpenAI/Anthropic/DeepSeek)
  • 测试: Selenium + Playwright + Airtest + Allure

AI 智能模式

javascript
// Browser-use 双模式
{
  mode: "dom",    // 基于 DOM 解析
  // 或
  mode: "vision"  // 基于截图识别
}

相关资源

为前端工程师打造 · 基于 VitePress 构建