B2C Data

Posted: **Mon Mar 24, 2025 10:15 am**

ANO人工智能研究所（AIRI Institute）应用NLP小组的初级研究员Nikita Sushko称DeepSeek R-1是一个很好的模型。他表示，这一消息带来的“晴天霹雳”效果是一种假象，因为这家中国公司在专业人工智能领域已经享有盛誉。他指出，早在 2024 年初就发表了一篇科学文章，简要概述了这些模型的基本原理，这些原理后来在 R-1 的开发过程中得到了发展。

“DeepSeek 模型之所以受到广泛关注，是因为该公司提供了对该模型的访问权限以及技术报告和训练权重。例如，R-1 与 o1 不同，o1 的开发人员不会发布完整的推理链，而 R-1 更透明，同时具有有趣的思维模型。同样重要的是，DeepSeek 在计算能力和资源有限的条件下开发了 R-1：根据报告，训练是在“切割”显卡上进行的。顺便说一句，这种“思维”模型的推理仍然会很昂贵 - 在模型生成答案之前，它会生成大量标记，”Nikita Sushko 指出。

哈伊尔·特列金表示同意马来西亚 whatsapp 数据他的看法。他认为，自由性、开放性和优于类似物的响应质量是该语言模型的主要优点。他指出，中国开发人员已经找到了一种以较低成本优化学习技术的方法，但尚未公开披露该方法。

CommunityTech 产品线总监 Igor Goryachev 表示，中国产品处理的代币数量是西方产品的四倍。因此，这使得模型能够“生成”更长的文本。不过，他指出，这家中国公司尚未披露用于训练语言模型的数据量的信息。

“有所谓的基准测试来衡量大型语言模型在执行各种任务时的效率。在其中一些测试中，DeepSeek 实际上比 ChatGPT 表现出更好的结果。然而，重要的是要考虑到 ChatGPT 不仅是一个语言模型，而且还是一个分支服务生态系统，这给它带来了许多优势。据开发人员称，DeepSeek 宣称的优势之一是该模型运行时所需的能量更少，并且可以在性能较弱的芯片上运行，与同类产品相比，这是一项重大成就，”Igor Goryachev 说。

“我们测试了该模型，并将其与俄罗斯和西方的模型进行了比较。DeepSeek 显示出良好的效果。我们在公司基础设施中使用了几种模型，对其进行训练和测试，并将它们用于内部任务和客户项目。值得注意的是，对于企业而言，人工智能不是争夺最佳版本的问题，而是其商业合理性和有效使用的问题，”米哈伊尔·特列金说。

B2C Data

Obit LLC战略项目副总经理米

Obit LLC战略项目副总经理米