请输入关键字:

热门搜寻:

DeepSeek改写华尔街估值规则
原創

日期:2025年1月28日 下午5:28作者:毛婷 編輯:Annie

硅谷急了,华尔街慌了。

大家都在猜测,美股的AI泡沫迟早要爆破,英伟达(NVDA.US)高高在上的市值肯定要跌一跌,没想到,刺破估值泡沫的会是来自东方的神秘力量。

名不见经传的DeepSeek(深度求索)短短几天,登顶苹果中国地区和美国地区应用商店免费App下载排行榜,快速超越ChatGPT。

DeepSeek为何能成为硅谷Killer?

DeepSeek是一家在人工智能领域具有创新性和影响力的中国公司,由中国对冲基金幻方量化于2023年5月在杭州成立,创始人为幻方量化的创始人梁文峰。

几天之前,这家AI公司发布了大语言模型DeepSeek-R1,让全球技术圈沸腾,其推理能力与OpenAI目前最好的模型o1相当,能够一步一步反思自己的分析(即所称的“思维链”方式),在几秒钟或几分钟内回答难题,并解决复杂的问题。

不仅如此,DeepSeek-R1在各种第三方基准测试(衡量AI在回答各种主题问题时的表现测试)中的得分与OpenAI的o1一样高甚至更高,但其训练成本只有OpenAI的3%-5%(据报道约为500万美元),而且使用的GPU芯片要少得多。

不同于“ClosedAI”的o1向用户收费(Plus版的收费为每月20美元,而Pro版的月费更高达200美元),DeepSeek-R1为完全开源模型,正因如此,人们能按照不同的任务目的对模型的诸多变体进行微调和训练,例如将其收缩,在移动设备上运行,或者与其他开源模型结合起来使用等等。据西方媒体报道,就算用于开发,DeepSeek的API成本也要比OpenAI的o1模型低超过90%。

更过分的是,其使用门槛极低——DeepSeek有免费的网站和移动App,还能“联网搜索”,在这方面OpenAI也只是做到半桶水而已。

不少美国用户抨击o1:太贵、太慢,需要依赖OpenAI服务器,而R1则全面解决这些痛点,其他企业用户能够自行购买英伟达的GPU来运行模型,而无需担心增加成本或过度依赖OpenAI服务器,而造成速度缓慢。

有意思的是,这不是第一款让西方震慑的AI产品,几天之前,字节跳动发布另一AI模型豆包1.5-Pro,在第三方基准测试中与OpenAI的非推理GPT-4o性能相当,但成本仅为其五十分之一。

这一切都让特朗普的5000亿美元“星际之门”以及大型科技巨头的巨额资本开支预算看起来像个笑话。

在《解构“星际之门”的财富密码》一文,我们已经提到,特朗普提出由软银出资、OpenAI出力,与甲骨文(ORCL.US)和中东科技投资公司MGX组建合营项目“星际之门”,在四年来投入5000亿美元在美国建造新的AI基础设施,可以预期,购买最尖端AI芯片的成本在这笔资本支出中将占大比重。

除此以外,微软(MSFT.US)、亚马逊(AMZN.US)、Meta(META.US)、谷歌(GOOG.US)等也已经表明会在2025年大幅增加资本开支进行AI基础设施的投入,其中AI芯片的支出会占较大比重。

没想到的是,中国的AI模型仅用有限的芯片和低得多的成本就完美超越,最主要的原因是DeepSeek采用的是非OpenAI传统的训练方式——不拼算力,而是拼算法。

当前的大模型通常采用监督微调(SFT)技术进行训练,而DeepSeek-R1几乎单纯使用强化学习技术进行“后训练”,很少使用SFT,从而减少了对大规模人工标注数据集的依赖,降低数据收集和标注的成本;R1模型通过学习思维链(CoT)的方式逐步推理而得出结果,而不是直接预测答案,极大地提升了推理能力,使模型在解决复杂问题时能更有效地利用计算资源,避免了不必要的计算开销。

在资源利用方面,R1通过Multi-Head Latent Attention(MLA)和DeepSeek MOE架构节省了大量的现存,确保每个token下少量专家网络参数被激活时,不同专家网络能以更均衡的频率被激活,更有效地使用硬件资源;设计出“对偶流水线”机制,将GPU用于数学运算和通信相关的算力进行并行隐藏,减少了GPU指令执行流水线中的“气泡”,提升了GPU的使用效率,让GPU几乎不间断地进行运算;限制了每个token发送到GPU集群节点的数量,并应用了FP8混合精度训练架构,降低了通信开销的同时加快了计算速度。

研发方面,DeepSeek团队或只有140名员工,而OpenAI有上千名员工。DeepSeek坚持开源策略,模型的代码和训练方法完全开源,吸引了不少开发者参与到模型的优化和改革中来,有效分摊了成本。

正因如此,华尔街这一年来的估值逻辑被颠覆。

估值逻辑有变

有鉴于AI发展浪潮的迅猛,英伟达成为华尔街的宠儿,更两度超越苹果(AAPL.US)成为全球市值最高的上市公司,主要因为AI的发展和演变,离不开最尖端AI芯片的支持,而英伟达的A100、GB200等等芯片,成为各大型科技企业的AI芯片首选。由于要训练其大模型需要不少的算力,所使用的芯片数量不菲,也令英伟达的芯片“一芯难求”,更大大推高了成本。

英伟达的估值也因此水涨船高。

不仅英伟达,半导体产业链也得益于这波红利而跑赢了大部分科技股,例如有能力量产英伟达最先进AI芯片的台积电(TSM.US)、全球最主要的光刻机供应商阿斯麦(ASML.US),甚至为AI算力提供能源支持的能源公司Vistra(VST.US)和Constellation Energy(CEG.US)等,在2024年都实现不俗的股价涨幅。

但是DeepSeek的这一下深度求索,扭转了依靠AI芯片才能打造出最尖端大模型的逻辑,英伟达的香饽饽变得没那么香了。

英伟达在R1发布后首个交易日的股价下探16.97%,蒸发掉接近6000亿美元,差不多相当于七个英特尔(INTC.US)的市值。台积电的股价也下挫13.33%,阿斯麦亦下跌5.75%。能源公司Vistra和Constellation Energy更分别下挫28.27%和20.85%。

值得留意的是,Meta的开源模型Llama首当其冲,同为开源模型,Llama的性能明显跑输,成本还不低,而扎克伯格已明确2025年将加大对AI的资本支出,这或引发投资者对其估值的思考,不过Meta的股价却上升1.91%。

二级市场的回落迟早将蔓延到一级市场,刚刚获得估值大幅提升的OpenAI和Anthropic,下一轮融资不知道能获得多少估值。

结语

对于DeepSeek-R1的成功也有不少不以为然的声音,甚至引发了多次攻击,我们留意到,DeepSeek网页版今日(1月28日)多次短暂出错。今早起,我们就留意到DeepSeek暂时限制了+86手机号(中国内地手机号码)以外的注册方式,已注册用户可以正常登陆。

不过,对抗敌意的最聪明办法是“以强制敌”,1月28日凌晨,DeepSeek又发布了开源多模态AI模型Janus-Pro,为之前于2024年11月发布JanusFlow大模型的升级版,能同时处理文本和图像,架构解耦多模态理解和视觉生成任务,在图像生成基准测试中超越OpenAI的“文生图”模型DALL-E 3。对比上一代模型,Janus-Pro优化了训练策略并扩展了训练数据。

幸好,中国的农历新年马上就到了,中国人都忙着过新年,应该没空再发布新模型,老黄和华尔街应该可以暂时缓一口气。

财华网所刊载内容之知识产权为财华网及相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。

如有意愿转载,请发邮件至content@finet.com.hk,获得书面确认及授权后,方可转载。

更多精彩内容,请登陆
财华香港网(https://www.finet.hk/)
财华智库网(https://www.finet.com.cn)

现代电视(http://www.fintv.hk)

相關文章

1月24日
【美股解码】经济复兴还是通胀重燃?
1月24日
【美股解码】交付量、业绩遭遇“血崩”!波音步入“黄昏”?
1月23日
估值鸿沟待弥合,中资股能否逆袭?
1月23日
【美股解码】“星际之门”:是漩涡还是奔流?
1月22日
【美股解码】解构“星际之门”的财富密码
1月22日
【美股解码】奈飞季绩好得不像话?广告立功
1月22日
【美股解码】股价大跌!市值遭英伟达反超,苹果前景不妙?
1月21日
特朗普正式就职,科技大佬马斯克、贝索斯等捧场!
1月20日
“币圈”炸了!特朗普夫妻双双发币,身价暴涨超百亿
1月17日
【美股解码】小红书大火后的受益者竟是TA

视频

快讯

17:31
时代中国控股(01233.HK)清盘呈请聆讯延期至5月19日
17:30
【盈喜】中集集团(02039.HK)料年度母公司股东及其他权益持有者净利润同比增长493%至731%
17:25
国富创新(00290.HK)成立量子创新战略委员会
17:25
【盈喜】中国财险(02328.HK)料2024年净利润同比增加约20%-40%
17:15
【盈喜】天虹国际集团(02678.HK)料2024年度扭亏为盈纯利5.8亿元
16:53
【盈喜】中国人民保险集团(01339.HK)料2024年归母净利润同比增长75%-95%
16:50
中国动向(03818.HK)第三季度Kappa品牌店舖零售流水按年录得中单位数下降
16:45
迪信通(06188.HK):刘亮获任执行总裁
16:35
【盈喜】恒投证券(01476.HK)料年度股东应占溢利增至1.71亿元
16:27
小米汽车回应召回事件:将通过OTA为召回范围内的车辆升级