组织创建并存储大量内容,但通常对这些内容所代表的内容知之甚少。为了理解内容,事先需要付出很大的努力。然而,手动进行内容分类既耗时又昂贵。借助人工智能 (AI) 和机器学习 (ML) 的功能,这可以以指数方式、更快且通常更准确地完成。此外,附加值还改善了内容发现和分析。
ProcessMaker IDP 利用人工智能和机器学习技术来揭示内容的真正价值。本文提供了有关 ProcessMaker IDP 独特认知功能的更多详细信息。
OCR 后校正
ProcessMaker IDP 使用光学字符识别 (OCR) 技术从文档中提取文本。因此可以搜索文档并将提取的文本用于进一步处理。
如果 OCR 服务无法正确识别文字,例如由于图像质量差或污点,我们的 OCR 后校正服务将对其进行校正。通过使用基于内容的纠正模型和字典来纠正已识别的错误,我们可以提高 OCR 数据的质量。
数据聚类
机器学习本身并不是圣杯,因为它只有在有合适的训练集可用的情况下才有效。在处理大量不同类型的文档时,创建训练集需要大量的人力。
ProcessMaker IDP 使用聚类技术自动识别相似文档。这有助于加快训练集的准备速度,并提供更好、更准确的文档之间关系的洞察。
可扩展的机器学习
正确的机器学习需要训练集和测试集,实现分类器,最后根据训练数据测试多个分类器。为了改进结果,数据科学家必须手动测试分类器并比较结果。
借助 ProcessMaker IDP 的可扩展机器学习,系统可以动态确定最佳分类器以实现最佳结果,而不是使用具有固定训练集的固定分类器。
(互动)主动学习
当机器学习器检测到结果低于预定义的阈值时,会通知业务用户。 ProcessMaker IDP 将通过自动生成的任务请求人工干预,以便可以更正预填充的数据字段。
ProcessMaker IDP(内部)主动学习返回人工修正,并让 阿根廷电报负责人 学习过程使用它们进行训练和扩展训练集。
命名实体识别
大多数文档都包含命名实体。命名实体是一个单词或短语,可以清楚地标识一组具有相似属性的其他元素中的一个元素。这些可能包括公司名称、日期、地理位置或更具体的项目,例如序列号或社会保障号。检测这些实体进一步允许 ProcessMaker IDP 发现命名实体之间的关系,以提高信息检索的性能和准确性。
ProcessMaker IDP提供命名实体的自动检测,对于特定需求,可以使用内置注释工具生成相关培训材料。