女人和机器人正在执行测试

sakib60 · Post by **sakib60** » Wed Apr 23, 2025 6:00 am

构建并训练好聊天机器人后，如果您使用了高级工具，则无需使用训练集之外的数据来测试聊天机器人模型。但最终，您确实需要模拟真实世界的交互，以便更准确地衡量聊天机器人上线后的性能。这被称为交叉验证测试。

Cyara 帮助企业在整个开发生命周期内确保聊天机器人的质量。

该测试数据可能包括：

在聊天机器人建立之前就已经被搁置的一组真实用户话语；
在聊天机器人构建之前或构建期间设计的一组内部话语；
聊天机器人启动后收集真实用户的话语。
顺便提一句，对于那些自行设计交叉验证数据集的用户，需要注意的是：为了确保交柬埔寨电报号码数据叉验证数据中不存在模型偏差，建议不要由与聊天机器人构建直接相关的任何人创建此数据集。一个重要的建议是让其他同事（或家人朋友！）参与进来——只需向他们简要解释每个意图（但不要太详细），并请他们列出尽可能多的询问每个意图的方法。

然后，我们会将这些交叉验证数据与您的聊天机器人进行测试，以评估其性能。这将有助于识别训练数据中的任何盲点——可能是遗漏的新概念（关键词或短语），或者是在意图中表达现有概念的新方法。它还可以识别您的聊天机器人是否过度拟合，这意味着模型过于精细地适应现有训练数据，以至于对模型在新数据上的性能产生负面影响。

无论以何种方式创建交叉验证数据，至关重要的是数据涵盖聊天机器人模型中的每个意图，以确保所有意图都经过彻底测试。

但是需要多少数据？
我们建议每个意图的训练数据量至少为 1 倍。例如，如果您的意图包含 30 条语句，则您应该针对该意图至少有 30 条交叉验证语句。对于短尾意图（您预计返回频率最高的意图）或更复杂的意图，请尝试将交叉验证语句的数量增加到训练数据量的 2 倍甚至 3 倍，甚至更多 - 越多越好！但这可能不会一蹴而就，数据集应该随着时间的推移而扩展 - 结合从实时用户日志中收集的审核和报告。从实时用户日志中收集语句时，请始终尝试选择包含非常多样化语言且在其主题上仍然有效的语句，以确保您的聊天机器人经过极限测试。