。
5.开放模型将在质量上赶上专有模型。已经有一些开源模型的例子,以适中的成本显示出了不错的效果。因此,人工智能将继续发展,不仅要感谢企业并解决他们的需求,还要感谢 IT 社区代表的帮助。
人工智能研究所(AIRI)自适应代理研究小组负责人弗拉基米尔·库伦科夫(Vladislav Kurenkov)同意未来缺乏训练数据是人工智能科学和专业界的主流观点,但他提出了一个 挪威 whatsapp 数据 重要的警告:“下载的不是整体数据,而是来自互联网的公开文本数据。在我看来,解决‘数据终结’问题有三个主要方向。第一是生成合成数据——例如,创建模拟器。第二是更有效地利用数据的人工智能模型。第三是通过模型与世界的互动进行训练和额外数据收集。”
信息技术公司“KodTech”的技术总监基里尔·科托夫 (Kirill Kotov) 告诉 ComNews 记者,模型本身生成的数据集越来越多地用于在文本数据上训练和开发模型:“也就是说,为了训练下一代模型,数据是由当前一代模型生成的。但有大量数据要么难以生成,无法提供必要的质量,要么资源密集程度过高。例如图像、视频、语音。这种高质量数据的问题确实很突出:为了很好地训练和调整模型,需要更多的数据,尤其是需要针对特定行业和任务的专门数据集。”
有效IT解决方案集成商“First Bit”人工智能实验室负责人Vladimir Fadeev认为,解决大型语言模型缺乏数据的问题在于三个关键领域:
1. 创建合成数据。现有的模型可以生成文本来训练未来的版本。这不仅可以增加数据量,还可以控制其质量和内容。
2. 使用现有数据。通过仔细的标记、清洁和构造来提高其质量,可以更有效地利用现有资源。
3. 对多模态数据进行训练。连接来自其他格式(如音频、视频和图像)的信息。例如,音频可以转录为文本,图像或视频可以被分析和解释。这扩展了数据集并帮助模型更好地理解上下文。
另请阅读