Page 1 of 1

Obit LLC战略项目副总经理米

Posted: Mon Mar 24, 2025 10:15 am
by tanjimaju200
ANO人工智能研究所(AIRI Institute)应用NLP小组的初级研究员Nikita Sushko称DeepSeek R-1是一个很好的模型。他表示,这一消息带来的“晴天霹雳”效果是一种假象,因为这家中国公司在专业人工智能领域已经享有盛誉。他指出,早在 2024 年初就发表了一篇科学文章,简要概述了这些模型的基本原理,这些原理后来在 R-1 的开发过程中得到了发展。

“DeepSeek 模型之所以受到广泛关注,是因为该公司提供了对该模型的访问权限以及技术报告和训练权重。例如,R-1 与 o1 不同,o1 的开发人员不会发布完整的推理链,而 R-1 更透明,同时具有有趣的思维模型。同样重要的是,DeepSeek 在计算能力和资源有限的条件下开发了 R-1:根据报告,训练是在“切割”显卡上进行的。顺便说一句,这种“思维”模型的推理仍然会很昂贵 - 在模型生成答案之前,它会生成大量标记,”Nikita Sushko 指出。

哈伊尔·特列金表示同意 马来西亚 whatsapp 数据 他的看法。他认为,自由性、开放性和优于类似物的响应质量是该语言模型的主要优点。他指出,中国开发人员已经找到了一种以较低成本优化学习技术的方法,但尚未公开披露该方法。

CommunityTech 产品线总监 Igor Goryachev 表示,中国产品处理的代币数量是西方产品的四倍。因此,这使得模型能够“生成”更长的文本。不过,他指出,这家中国公司尚未披露用于训练语言模型的数据量的信息。

“有所谓的基准测试来衡量大型语言模型在执行各种任务时的效率。在其中一些测试中,DeepSeek 实际上比 ChatGPT 表现出更好的结果。然而,重要的是要考虑到 ChatGPT 不仅是一个语言模型,而且还是一个分支服务生态系统,这给它带来了许多优势。据开发人员称,DeepSeek 宣称的优势之一是该模型运行时所需的能量更少,并且可以在性能较弱的芯片上运行,与同类产品相比,这是一项重大成就,”Igor Goryachev 说。

“我们测试了该模型,并将其与俄罗斯和西方的模型进行了比较。DeepSeek 显示出良好的效果。我们在公司基础设施中使用了几种模型,对其进行训练和测试,并将它们用于内部任务和客户项目。值得注意的是,对于企业而言,人工智能不是争夺最佳版本的问题,而是其商业合理性和有效使用的问题,”米哈伊尔·特列金说。