防止人工智能聊天机器人出现偏见

B2C Data Innovating with Forum and Technology
Post Reply
aktAkterSabiha30
Posts: 24
Joined: Sun Dec 15, 2024 3:31 am

防止人工智能聊天机器人出现偏见

Post by aktAkterSabiha30 »

聊天机器人如何产生偏见
将上一节命名为“人工智能的阴暗面”可能有点不公平,因为事实上,它所做的只是从人类那里学习偏见。

在开始与互联网上的人们互动之前,BlenderBot 并不是什么问题。Tay 和它遇到的所有 Twitter 喷子也是如此。甚至连亚马逊的人工智能也不能怪罪,因为它经过训练可以观察提交给公司的简历中的模式,而且 — — 令人惊讶的是 — — 在一个男性主导的行业中,大多数简历都来自男性求职者。

但是聊天机器人的幕后到底发生了什么?

基于人工智能的聊天机器人通过 NLP(自然语言处理)学习如何处理和理解人类语言。反过来, NLP 又由机器学习支持,这使得算法能够从每次交互中学习。基本上就是边做边学。

要启动该过程,在开始与人类对话之前,需要为 AI 提供一组数据集以供其学习。AI 软件会获得大量语言数据样本,包括整个句子和短语,以及实际对话的记录,这些对话记录与它应该学习的特定主题有关。然后,AI 会利用预先获得的知识,从句子结构、上下文等因素中解码对话中的含义和意图。

用于训练算法的数据集可以是内部的,但人们普遍认为,输入的数据越多,算法的性能就越好,因为它有更多信息可供学习。因此,工程师和软件开发人员不仅会求助于内部数据,而且通常还会求助于来自不同来源的数据集集合。

问题是,无论你的训练数据来源如何,你总会将其追溯到同一个原始来源——人类。这就是偏见产生的地方。

人类天生就有偏见,即使这种偏见是隐性的或无意识的。不用担心,这并不会让你成为坏人,因为并非每种偏见都是有害的。但社会中现有的偏见确实会影响我们的说话方式,进而影响我们的写作方式,而我们所写的内容最终会进入机器学习数据集。

因此,我们最终可能会使用有偏见的数据来训练聊天机器人。如果你将它们放任到野外,让它们与其他天生有偏见的人互动,而我们知道这些人中肯定有人故意伤害别人,那么 Tay 机器人或 BlenderBot 之类的机器人将面临灾难。

如果人工智能训练数据的最终来源是人类语言,并且如果所有人类都至少在一定 纳米比亚 手机号码列表​ 程度上存在偏见,那么我们如何努力训练无偏见的算法?

首先,我们可以尝试让人类参与其中,以验证所用数据的质量。这有点牵强,尤其是考虑到较大的数据集比较小的数据集更可取,但通常情况下,人们并没有给予数据集中包含的实际文本足够的关注,而这正是问题的一部分。当机器学习失败时,人类也应该介入——就像前面提到的例子中那样——并尽可能地消除学习过程中的偏见。

例如,当谈到语言中的性别偏见时,还有其他方法可以尝试减少 NLP 中的偏见,即修改训练数据。其中一种技术称为性别交换,即以这样的方式扩充数据:对于每个有偏见的句子,都会创建一个额外的句子,将代词和其他性别词替换为相反性别的词。此外,可以用占位符替换名称。这样,数据在性别方面是平衡的,并且 AI 不会学习与女性或男性姓名相关的任何特征。

这种方法和其他方法可以有效减少人工智能中的偏见,但它们非常耗时,并且需要培训负责人具备额外的语言知识。此外,它们无法解决人工智能领域缺乏多样性的根本问题。

据《麻省理工技术评论》报道,女性仅占人工智能会议作者的 18%,人工智能教授职位的 20%,以及两家最大的科技公司研究人员的 10% 至 15%。谈到种族多样性,数字看起来更糟:黑人员工仅占这两家科技公司员工总数的 2.5% 至 4%。
Post Reply