种评估模型结果的方法

ujjal22 · Post by **ujjal22** » Tue Jan 07, 2025 6:43 am

1. 提供结构化且带标签的数据集，为模型配备您希望其学习的知识。与典型的机器学习任务一样，该数据集必须分为训练集和验证集。

数据集的单个实例的示例

数据集的单个实例的示例。来源：OpenAI

2. RFT 的下一个关键组成部分是建立一。在典型的微调厄瓜多尔电话数据过程中，模型只是尝试重现标记的目标响应。然而，在 RFT 中，模型必须开发一个推理过程来得出这些答案。对模型输出进行分级可以指导您进行微调，并使用完成。分数的范围可以从 0 到 1 或之间的任何值，并且有多种方法可以为模型的输出集分配分数。 OpenAI 已宣布计划部署更多限定符，并可能为用户引入一种部署自己的自定义限定符的方法。

3. 一旦模型响应训练集输入，评估者就会对其输出进行评分。该分数充当“奖励”信号。修改模型权重和参数以最大化未来的奖励。

4. 通过重复步骤对模型进行微调。在每个周期中，模型都会完善其策略，并定期使用验证集（与训练分开）来测试这些改进对新示例的推广效果。当模型分数随着验证数据而提高时，这是一个好兆头，表明该模型实际上正在学习有意义的策略，而不仅仅是记住解决方案。

这种解释抓住了 RFT 的本质，但应用和技术细节可能有所不同。

下面看 RFT 评估结果，将微调后的 o1-mini 模型与标准 o1-mini 和 o1 模型进行比较，令人惊讶的是，RFT 使用仅 1,100 个示例的数据集，取得了比模型o1更好的准确性尽管后者比 o1-mini 更大、更先进。

RFT评估。（喷泉）

RFT评估。来源：OpenAI

监督与微调增压调节
监督微调 (SFT) 涉及采用预先训练的模型，并使用监督学习技术使用附加数据对其进行微调。实际上，当目标是将模型的输出或格式与特定数据集保持一致或确保模型遵循某些指令时，SFT 效果最佳。

尽管监督微调和强化微调都依赖于标记数据，但它们的使用方式不同。在SFT中，标记数据直接驱动模型更新。该模型将其视为目标输出，并调整其参数以缩小其预测输出与已知正确答案之间的差距。