Skip to content
Learn AI
Search
K
Main Navigation
Home
Paths
Docs
Cookbook
AI Tools
PPTs
1. Vibe Coding
2. Prompt + Context
3. MCP + SKILL
4. AGENT
English
简体中文
English
简体中文
Appearance
Menu
Return to top
On this page
黄金数据集生成方法
核心要点
黄金数据集的核心特征
:覆盖真实场景的高频 case、包含边界和异常 case、质量高于数量
LLM 生成 + 人工验证
:用 LLM 批量生成候选数据集,人工标注或 Review 筛选高质量样本
对抗性挖掘
:主动构造模型容易出错的 case(如:歧义词、复杂逻辑、罕见边界条件)补充数据集
数据增强
:对已有高质量样本做同义词替换、结构变换等扩增,以少量人工标注获得大量训练数据
质量评估
:用黄金数据集评估模型,通过错例分析反向指导 Prompt 优化和模型选择
整理自任务"整理黄金数据集生成方法"