构建并训练好聊天机器人后,如果您使用了高级工具,则无需使用训练集之外的数据来测试聊天机器人模型。但最终,您确实需要模拟真实世界的交互,以便更准确地衡量聊天机器人上线后的性能。这被称为交叉验证测试。
Cyara 帮助企业在整个开发生命周期内确保聊天机器人的质量。
该测试数据可能包括:
在聊天机器人建立之前就已经被搁置的一组真实用户话语;
在聊天机器人构建之前或构建期间设计的一组内部话语;
聊天机器人启动后收集真实用户的话语。
顺便提一句,对于那些自行设计交叉验证数据集的用户,需要注意的是:为了确保交 柬埔寨电报号码数据 叉验证数据中不存在模型偏差,建议不要由与聊天机器人构建直接相关的任何人创建此数据集。一个重要的建议是让其他同事(或家人朋友!)参与进来——只需向他们简要解释每个意图(但不要太详细),并请他们列出尽可能多的询问每个意图的方法。
然后,我们会将这些交叉验证数据与您的聊天机器人进行测试,以评估其性能。这将有助于识别训练数据中的任何盲点——可能是遗漏的新概念(关键词或短语),或者是在意图中表达现有概念的新方法。它还可以识别您的聊天机器人是否过度拟合,这意味着模型过于精细地适应现有训练数据,以至于对模型在新数据上的性能产生负面影响。
无论以何种方式创建交叉验证数据,至关重要的是数据涵盖聊天机器人模型中的每个意图,以确保所有意图都经过彻底测试。
但是需要多少数据?
我们建议每个意图的训练数据量至少为 1 倍。例如,如果您的意图包含 30 条语句,则您应该针对该意图至少有 30 条交叉验证语句。对于短尾意图(您预计返回频率最高的意图)或更复杂的意图,请尝试将交叉验证语句的数量增加到训练数据量的 2 倍甚至 3 倍,甚至更多 - 越多越好!但这可能不会一蹴而就,数据集应该随着时间的推移而扩展 - 结合从实时用户日志中收集的审核和报告。从实时用户日志中收集语句时,请始终尝试选择包含非常多样化语言且在其主题上仍然有效的语句,以确保您的聊天机器人经过极限测试。