Skip to content

Generative Benchmarking

来源:https://research.trychroma.com/generative-benchmarking

核心要点

  1. 公开基准的局限性:MTEB/BEIR 等公开基准过于通用、数据过于干净、且模型训练时已见过,无法真实反映生产环境效果
  2. 生成式基准方法
    • 文档过滤:使用 LLM Judge 筛选与目标场景最相关的文档
    • Query 生成:基于上下文和示例 query 引导生成,而非随意生成
  3. 核心价值:为特定用户的实际数据和使用场景定制基准,使评估结果真正代表生产表现
  4. 避免基准通胀:公开基准的强表现≠生产环境强表现,需用真实数据做真实评估
  5. 实践建议:先用自有数据构建评估集,再逐步引入公开基准作为辅助参照

Chroma 提出的生成式基准方法论

Built for frontend engineers · Powered by VitePress