Generative Benchmarking

来源：https://research.trychroma.com/generative-benchmarking

核心要点

公开基准的局限性：MTEB/BEIR 等公开基准过于通用、数据过于干净、且模型训练时已见过，无法真实反映生产环境效果
生成式基准方法：
- 文档过滤：使用 LLM Judge 筛选与目标场景最相关的文档
- Query 生成：基于上下文和示例 query 引导生成，而非随意生成
核心价值：为特定用户的实际数据和使用场景定制基准，使评估结果真正代表生产表现
避免基准通胀：公开基准的强表现≠生产环境强表现，需用真实数据做真实评估
实践建议：先用自有数据构建评估集，再逐步引入公开基准作为辅助参照

Chroma 提出的生成式基准方法论