中国AI模型震惊硅谷 DeepSeek为何一夜火出圈？

ncnews

2025年01月28日 10:30 · 阅读 15

最后更新：2025/01/28/ 10:30:10

1月28日消息，这两天，中国AI公司深度求索（DeepSeek）发布的大模型DeepSeek-R1震动业界，该模型使用更低的成本和更小的算力规模，实现了足以匹敌美国顶尖AI模型的效果。

最新消息显示，DeepSeek已经登顶了中国和美国的苹果App Store应用商店，一举超越ChatGPT。这一现象让西方媒体都忍不住发文感叹“中国AI模型震惊硅谷”。

据报道，高盛发布报告，随着中国AI大模型DeepSeek的强势崛起，对冲基金已开始观望美国本土培育的AI模式热潮是否能持续。报告还指出，对冲基金上周已开始撤离对科技股的押注。

美股市场周一遭遇科技股抛售狂潮，纳指开盘重挫逾3.5%，芯片股集体走低。截至周一收盘，英伟达暴跌16.97%，市值蒸发近5900亿美元，相当于跌去了三个AMD的市值。博通跌17.4%，AMD跌6.37%，阿斯麦跌5.75%，台积电跌13.33%。

DeepSeek是什么？

DeepSeek成立于2023年7月17日，是一家创新型科技公司，由知名量化资管巨头幻方量化创立，专注于开发先进的大语言模型（LLM）和相关技术。

幻方量化的掌门人梁文锋是DeepSeek的创始人。他出生于广东湛江，浙江大学毕业，拥有信息与电子工程学系本科和硕士学位，2008年起开始带领团队使用机器学习等技术探索全自动量化交易，2015年幻方量化正式成立。

2021年，幻方量化的资产管理规模突破千亿大关，跻身国内量化私募领域的“四大天王”之列。2023年梁文锋宣布正式进军通用人工智能领域，创办DeepSeek，专注于做真正人类级别的人工智能。

2024年5月，DeepSeek发布混合专家语言模型DeepSeek-V2。同年12月，DeepSeek-V3问世，这款性能优越且性价比极高的大语言模型，被硅谷同行誉为“来自东方的神秘力量”。

此前，雷军千万年薪挖角的95后AI“天才少女”罗福莉便是DeepSeek-V2的关键开发者之一。

据大象新闻报道，DeepSeek团队不到140人，多来自清华、北大、北航等顶尖高校的应届博士毕业生、在读生以及硕士生。而且，团队没有“海归”，完全本土人才。

DeepSeek为何爆火？

这两天DeepSeek成为科技圈的关注焦点，主要原因在于其以极小的成本训练出了可以和OpenAI的ChatGPT一较高下的AI大模型。

今年1月20日，DeepSeek正式发布DeepSeek-R1大模型，并同步开源模型权重。DeepSeek-R1在数学、代码、自然语言推理等任务上的表现与OpenAI的O1模型正式版不相上下，并采用MIT许可协议，支持免费商用、任意修改和衍生开发。

据每日经济新闻报道，DeepSeek-R1的预训练费用只有557.6万美元，仅是OpenAI GPT-4o模型训练成本的不到十分之一。同时，DeepSeek公布了API的定价，每百万输入tokens 1元（缓存命中）/4元（缓存未命中），每百万输出tokens 16元。这个收费大约是OpenAI o1运行成本的三十分之一。

业内认为，DeepSeek正打破算力为王的行业规则。此前，OpenAI提出的Scaling Law被全球AI大模型厂商奉为圭臬，即计算规模越大，训练数据量越多，模型越智能。这也促使英伟达等不断研发拥有更强大算力的产品。而DeepSeek让业内看到通过软件架构及算法的革新，可能也是一条通往更高性能AI大模型的思路。

受此消息影响，美股周一纳指开盘重挫逾3.5%，芯片股集体走低。截至周一收盘，英伟达、台积电、博通、AMD、阿斯麦等均出现不同幅度的下跌，其中最受瞩目的是英伟达暴跌16.97%，市值蒸发近5900亿美元，相当于跌去了三个AMD的市值。

之后，英伟达发布声明称，“DeepSeek的研究成果展示了如何利用测试时计算扩展技术创建新模型，充分利用广泛可用的模型和完全符合出口管制规定的算力。”言外之意，DeepSeek并未违反美国对于英伟达芯片的出口管制规定。

同时，英伟达还在声明中表示，DeepSeek等AI公司的推理需要大量英伟达GPU（图形处理器）和高性能网络，DeepSeek的爆火表明市场对其芯片仍有需求。

据外媒报道，Meta成立了四个专门研究小组来研究国产大模型DeepSeek的工作原理，并基于此来改进旗下大模型Llama。其中两个小组正在试图了解幻方量化如何降低训练和运行DeepSeek的成本。

需求爆火，DeepSeek被挤到宕机，创始人回应

随着DeepSeek的火爆出圈，1月26日，该应用曾出现短时闪崩现象。

对此，DeepSeek回应称，当天下午确实出现了局部服务波动，但问题在数分钟内就得到了解决。此次事件可能是由于新模型发布后，用户访问量激增，服务器一时无法满足大量用户的并发需求。

1月27日晚，DeepSeek服务状态页面显示，DeepSeek网页不可用，公司正在调查这一问题。多位网友表示，DeepSeek无法回答对话问题。

1月28日凌晨，DeepSeek于服务状态页面公告称，近期DeepSeek线上服务受到大规模恶意攻击，注册可能繁忙，请稍等重试。已注册用户可以正常登录，感谢理解和支持。

日前，梁文锋曾在接受媒体采访时表示，中国AI不可能永远处在跟随的位置。“我们经常说中国AI和美国有一两年差距，但真实的gap是原创和模仿之差。如果这个不改变，中国永远只能是追随者，所以有些探索也是逃不掉的。”

他认为，英伟达的领先，不只是一个公司的努力，而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势，手里有路线图。中国AI的发展，同样需要这样的生态。

本文来源于极客网，原文链接: https://www.fromgeek.com/internet/50-670878.html

中国AI模型震惊硅谷 DeepSeek为何一夜火出圈？

评论

最新文章

目录

登录

中国AI模型震惊硅谷 DeepSeek为何一夜火出圈？

评论

相关推荐

最新文章

目录