Skip to content
Learn AI
Search
K
Main Navigation
Home
Paths
Docs
Cookbook
AI Tools
PPTs
1. Vibe Coding
2. Prompt + Context
3. MCP + SKILL
4. AGENT
English
简体中文
English
简体中文
Appearance
Menu
Return to top
On this page
Generative Benchmarking
来源:
https://research.trychroma.com/generative-benchmarking
核心要点
公开基准的局限性
:MTEB/BEIR 等公开基准过于通用、数据过于干净、且模型训练时已见过,无法真实反映生产环境效果
生成式基准方法
:
文档过滤:使用 LLM Judge 筛选与目标场景最相关的文档
Query 生成:基于上下文和示例 query 引导生成,而非随意生成
核心价值
:为特定用户的实际数据和使用场景定制基准,使评估结果真正代表生产表现
避免基准通胀
:公开基准的强表现≠生产环境强表现,需用真实数据做真实评估
实践建议
:先用自有数据构建评估集,再逐步引入公开基准作为辅助参照
Chroma 提出的生成式基准方法论