1月27日,由国产大模型公司杭州深度求索开发的Deepseek使用登顶苹果我国区域和美国区域使用商铺免费APP下载排行榜,在美区下载榜上逾越了ChatGPT。
Deepseek来自国产大模型公司深度求索,系量化巨子幻方量化旗下大模型公司。1月20日,该公司正式对外发布推理大模型DeepSeek-R1。一经推出,DeepSeek-R1便凭仗其“物美价廉”的特性在海外开发者社区中引发了颤动。
作为一款开源模型,R1在数学、代码、自然语言推理等任务上的功能可以比肩OpenAI o1模型正式版,并选用MIT答应协议,支撑免费商用、恣意修正和衍生开发等。现在,在国外大模型排名榜Chatbot Arena上,DeepSeek-R1的基准测验排名现已升至全类别大模型第三,与OpenAI的ChatGPT-4o最新版并排,并在风格操控类模型(StyleCtrl)分类中与OpenAI的o1模型并排第一。
更令商场惊奇的是,据DeepSeek介绍,R1的预练习费用只要557.6万美元,在2048块英伟达H800 GPU(针对我国商场的低配版GPU)集群上运转55天完结,仅是OpenAI GPT-4o模型练习本钱的不到十分之一。DeepSeek表明,R1在后练习阶段大规模使用了强化学习技能,在仅有很少标示数据的状况下,极大提升了模型推理才能。此外,DeepSeek不只将R1练习技能悉数揭露,还蒸馏了6个小模型向社区开源,答应用户借此练习其他模型。
英伟达高档研讨科学家Jim Fan表明,DeepSeek-R1可能是“首个展现了RL(强化学习)飞轮能发挥作用且能带来持续增长的OSS(开源软件)项目”。其间,“飞轮”用来描述AI体系中自我强化、正向循环的进程。DeepSeek的论文显现,不同于曩昔AI模型往往依赖于监督微调(SFT,指AI模型经过已标示的数据来进行练习),R1完全由强化学习驱动,证明了直接强化学习是可行的。
Jim Fan写道:“咱们正处于一个独特的时刻线上,一家非美国公司正在饯别OpenAI开始的任务,即完成真实敞开的前沿研讨并让所有人获益。这种状况几乎没办法了解。最有娱乐性的成果却是可能性最大的成果。”