关键词无法分类

B2C Data Innovating with Forum and Technology
Post Reply
nurnobi40
Posts: 980
Joined: Thu Dec 26, 2024 5:07 am

关键词无法分类

Post by nurnobi40 »

音乐爱好者也许能够得到一些,但准确度可能仍然很低。

现在想象一下,仅用几个词来对一家公司进行分类。这同样非常困难。

在这篇博文中,我将解释数据城如何使用机器学习来绘制不同行业的公司图。

通过我们,您可以获得整首歌曲(或至少大部分内容)。这意味着我们可以以更高的准确率进行分类。

探索不同的方法
我将尝试使用两种不同的方法处理同一个扇区。

关键词

这些是选择用来捕捉网站内容的几个重要词语的特定单词或短语。

我们在网站文本中搜索关键词。理论上,你可 加拿大电报号码数据库 以将关键词方法应用于公司的会计描述或其他文本描述,但这远不如使用网站文本那么详细。

我们可以在数据资源管理器中搜索正面和负面的公司关键词。

网络文本

这是指网站上的所有书面信息,包括标题、描述等。

这是我们的完整机器学习功能,它可以分析所有公司网络文本以了解和分类公司。

测试关键词
平台的大部分功能都支持按网站关键词进行筛选。您输入关键词,系统就会自动查找网页文本中包含这些关键词的公司。

我们可以输入任何关键词——这不是一个预定义的列表。你也可以使用更高级的技术,我们稍后会讲到。

对于这次测试,我将使用 AI(人工智能)领域。

步骤 1 – 简单关键词搜索
快速但不准确;公司很多,噪音很多。

这种方法涉及使用与人工智能相关的关键词(例如“人工智能”)搜索公司。



我们收回了 39,757 家公司。

虽然这个查询的处理时间不到 2 秒(很快吧?),但并非所有人工智能公司都会在其网站上说出特定的短语“人工智能”。

许多公司提到“人工智能”,但并非专注于人工智能,这可能会导致不相关的结果。我们一直在寻找人工智能公司,但目前还没有找到。

进入第 2 步。

第 2 步 - 使用更多 AI 关键词
覆盖范围扩大。速度依然很快,但不够准确;噪音也更大。

这次,我们使用了更多关键词。这使得搜索引擎能够捕获更多在网页文本中包含人工智能相关关键词的公司。

主要问题在于,它没有明确指出我们想要的公司类型。我们只是在寻找从事人工智能的公司。



这次我们纳入的公司数量更多了——将近113,150家。但现在不相关的公司会更多。



例如 1 Audible——一个提供 AI 相关内容的有声读物和播客平台。



例如 2。全球贸易评论——一家独立的出版和活动公司,提供有关全球贸易的新闻、活动和服务,其中一些涉及人工智能。



例如 3.学者出版– 一家出版人工智能相关书籍的出版公司。

这不是我们想要的。进入第 3 步。

步骤 3 – 复杂关键词过滤器
组合多个关键词。仍然快速,但不准确;减少了噪音。

以下是一些组合关键词的示例(针对医疗领域的 AI 公司的关键词):

(“人工智能” 或 “ai” 或 “ai” 或 “神经网络” 或 “深度学习” 或 “机器学习”)和(“医疗技术” 或 “生物技术”* 或 “生物学” 或 “癌症” 或 “药物” 或 “威胁”* 或 “患者” 或 “诊断” 或 NEAR(“科学”* “发现”*, 5)或 “生物标志物”* 或 “药物”* 或 “治疗” 或 “医疗保健” 或 “健康” 或 “精准医学” 或 “生命科学”* 或 “化学” 或 “制药”)

按照我们知识库文章“使用关键字过滤器”中描述的方法,我们使用逻辑搜索组合了与人工智能相关的关键字。



这次我们找到了 89,939 家公司。虽然我们降低了噪音,但关键词限制了我们只能找到符合搜索条件的公司。

虽然这确定了一些相关公司,但仍然存在一些挑战:

有些公司网站上可能有两个或两个以上与AI相关的关键词,但实际上并不涉及AI应用。
相关公司可能根本不会提及这些。他们甚至可能不知道自己是一家人工智能公司。例如,他们可能是一家使用机器学习的生物科技公司。
您可以手动为公司分配关键字以更好地反映他们的活动,但这需要大量的手动工作,覆盖范围会更低,并且代表某个行业的关键字会随着时间的推移而发生变化,从而导致未来的不准确性。
使用机器学习
现在我们转向机器学习列表构建,这是我们RTIC背后的旗舰技术。

在行业专家的帮助下,我们的人工智能 RTIC 涵盖多个不同的垂直领域。每个垂直领域都将涵盖不同的 AI 活动领域。了解更多关于我们如何与 Innovate UK KTN 合作构建 AI RTIC 的信息。

为了训练机器学习模型,我们提供相关行业的公司作为训练集。在训练过程中,模型不仅仅关注关键词,还会检查我们数据库中超过 160 万个 URL 匹配的公司的完整网页内容。

它会将每家公司的内容与其他公司的内容进行比较,以识别共同的语言和信息模式。通过寻找相似之处,该模型在它们之间建立了有意义的联系。我们在知识库和博客中详细介绍了如何做到这一点。

亲自看看差异:



现在,我们通过关键词最初获得的 113,150 家公司中,只有 3,588 家公司获得了重点列表。

这些公司不仅仅是在博客文章中提及“AI”一词,它们在使用人工智能术语时也表现出了一致的模式。这意味着噪音极少,准确率极高。

所有这些方法如何比较?
我们可以将上面使用的各种关键字方法与使用 RTIC 获得的结果进行比较。

比较结果如下。通过关键词,我们识别出了人工智能RTIC中30%-41%的公司。

这样做有两个原因。首先,我们能够通过 11 个垂直领域来更详细地展现人工智能领域。这 11 个垂直领域涵盖了人工智能的各种应用。您也可以使用关键词来表示这些垂直领域,但您需要更多的关键词。

通过识别该行业中公司的正面和负面例子,我们的模型利用超过 7,000 个单词来准确描述该行业。

重要的是,这里面既有正面词汇,也有负面词汇。正面词汇会增加公司被纳入该行业的可能性。例如,一家谈论人工智能的公司更有可能属于人工智能行业。很简单。

附加值还在于拥有否定关键词。

从前面的例子可以看出,谈论人工智能的公司可以是博客、出版商或书店。我们的模型经过训练后,知道将这些词归类为负面词汇;提及“商店”或“购物车”的公司更有可能被排除在该领域之外。

使用否定词可以大大提高分类的准确性,并且无需验证数千家公司。



更不用说,RTIC 也会定期更新,而且由于它们基于公司网络文本,因此会随着行业内公司的发展而不断发展。大型语言模型会成为人工智能领域的热门话题吗?RTIC 将抓住这一机遇。

此外,由于它们是由行业专家构建的,因此它们是您可以信赖的分类。

概括
关键词的缺点:
理解有限:关键词只是单个单词或短语。它们无法捕捉公司网站内容的完整上下文或含义。我们的竞争对手可能过于依赖关键词。

想象一下搜索“云”——它可能与气象学有关,了解天气模式,也可能指云计算,通过互联网管理数据和应用程序。

关键词经常会忽略这些细微之处,无法捕捉到准确结果所需的特定上下文和语义信息。

全文网络文本的力量:
更丰富的语境:通过分析整个网络文本,机器学习算法可以理解更宏观的视角。它可以了解关键词在句子、段落以及整个网站中的使用情况。

这使得人们能够更细致地了解公司的行业和产品。

减少噪音:通过查看完整内容,我们的机器学习可以过滤掉不相关的匹配项。它可以区分销售跑鞋的公司和在运动博客文章中提及“跑鞋”的公司。

这可以减少噪音并实现更准确的连接。

结论
许多其他公司数据库仅仅依靠基于关键字或流行语的方法来构建行业列表;这些不是真正的分类。

在“数据城”,我们运用机器学习来比任何人都更深入地了解公司。我们不会只看几个关键词,而是会阅读整个网络文本。

不要试图仅用几秒钟来识别歌曲,要获得完整的歌曲。
Post Reply