认真对待数据科学的组织需要认真对待数据目录。当今的技术使机器能够发现和分类组织中任何地方的数据。机器学习技术使 爱沙尼亚电报数据库 目录在工作时更加智能。在人类的帮助下解决问题和不一致之处,数据目录可以快速学会做出自己的决策,而无需人工干预。
阅读更多
图像
真正的数据驱动决策需要明智、诚实的数据收集策略
为所有人提供参考/主数据管理机会
停止使用搜索引擎
宝洁公司——商业分析案例研究
大数据如何影响房地产行业
一个好的经验法则是假设 80% 的努力将集中在数据集成活动上……类似地,数据集成中 80% 的努力是识别和分析数据源。
— Boris Evelson,Forrester Research,2015 年 3 月 25 日
Forrester Research:通过融合大数据和 BI 提升您的业务洞察力
数据目录不仅能帮助数据科学家发现信息,还能在其他领域提供帮助。它们是识别重复或不一致信息的最佳方式之一,可以减少繁重的人工任务。自动应用的标签或通过众包人工应用的标签可以帮助数据科学家判断给定的数据集是否有用或无关紧要,而无需他们深入研究数据本身。目录还可以指示权限和数据治理标准,以判断是否可以使用给定的一组记录。
目录如何减轻数据科学家的负担
数据沼泽给数据科学家带来了巨大的挑战。由于没有明确的数据类型、预期用途和质量评级,科学家只能尽力猜测哪些数据可用,哪些数据可以忽略。
不幸的是,数据质量差是一个普遍存在的问题。Experian 的2017 年全球数据管理基准报告发现,接受调查的组织中,只有不到一半的人相信他们的数据可以做出重要的业务决策。数据质量差的最常见原因是人为错误,例如数据输入不规范。然后是数据识别不准确。例如,一串八位数字可能是部分电话号码、社会保险号、帐号或日期。智能数据目录可以发现并标记与任务最相关的信息,从而消除猜测和错误决策的风险。