請輸入關鍵字:

熱門搜尋:

深度分析DeepSeek爆火背後,對整個AI產業帶來的颠覆與衝擊

日期:2025年3月6日 上午10:40作者:頭豹 編輯:Annie

DeepSeek在春節期間刷屏朋友圈,引發了AI產業關於低訓練成本、開源與閉源模型選擇、模型蒸餾及知識產權等話題的熱烈討論。其高效的訓練機制不僅降低了研發門檻,也引發了對於技術共享與商業化路徑的廣泛思考。同時,如何在創新與保護知識產權之間找到平衡,成為行業未來發展的關鍵議題。

01 DeepSeek模型低訓練成本引發的爭議

根據DeepSeek官方發佈的數據顯示,V3模型的訓練成本僅為557.6萬美元。這一費用是通過租賃278.8萬個H800 GPU小時計算得出的,平均每小時租金為2美元折算。而與GPT-4的訓練成本相比,DeepSeek的這一數字幾乎是其1/20,引發了行業内外的高度關注。許多人對DeepSeek如何在如此低的成本下完成如此復雜的訓練任務充滿好奇,也在此過程中產生了一次性訓練成本」VS「全周期開發成本」兩種看法。

一次性訓練成本統計口徑支持方:靈活的雲計算租賃助力精益創新

支持「一次性訓練成本」統計口徑的聲音認為,DeepSeek之所以能實現低訓練成本,得益於其採用了雲計算資源的靈活租賃。與傳統的自建集群模式相比,DeepSeek通過租賃公有雲中的GPU,減少了對固定硬件的依賴,降低了初期硬件投資的壓力。這種方式,更符合精益創業的思維——以較低的成本進行快速實驗和叠代,從而最大程度地降低風險。

精益創業思維提倡,在資源有限的情況下,以最小的投入進行快速創新,快速試錯,利用彈性計算資源優化硬件使用效率,而非一開始就進行大規模的資本投入。支持者認為,這種模式不僅能在短期内實現技術突破,還能在全球AI競爭中獲得領先優勢。因此,DeepSeek所宣稱的557.6萬美元訓練成本,實則代表了其通過靈活使用雲計算資源而進行的精益開發。

全周期開發成本支持方:忽視硬件採購與試錯成本,估算過於樂觀

然而,反對者則指出,單純關注「一次性訓練成本」忽視了AI模型開發的復雜性和長周期性。在傳統的AI大模型開發過程中,必須將整個生命周期中的成本納入考量。全周期開發成本的支持者認為,硬件採購、研發人員薪酬、試錯成本以及架構調整等投資,均應視為不可忽視的沉沒成本。

例如,DeepSeek僅在硬件採購上就可能花費超過5億美元,而開發新的架構(如MLA架構和稀疏模型)通常需要數月時間進行實驗、調優和驗證,這期間的失敗嘗試也會帶來高昂的成本。因此,DeepSeek所公佈的557.6萬美元訓練成本,實際上嚴重低估了整個研發過程的總投入。支持者認為,DeepSeek這一低成本數據缺乏對全生命周期投資的全面統計,可能會誤導行業對AI研發成本的真實認知。

成本統計口徑「羅生門」現象背後的深層次問題

DeepSeek所引發的成本統計口徑爭議,實際上暴露了AI研發過程中的一項重要問題:成本的定義和統計標準尚未統一。在AI行業,尤其是大模型開發領域,不同公司和團隊的成本統計口徑、開發周期以及技術路徑差異,導致了不同公司對成本的計算方式迥異。而這一點,也正是深度學習模型訓練與硬件採購模式的巨大差異所帶來的挑戰。

與此同時,隨著雲計算資源的不斷發展與創新,雲租賃與自建集群模式之間的爭議也在進一步加劇。是否完全依賴雲計算租賃來降低初期硬件投資,還是通過長期投入在自建集群中實現穩定性和可控性?這一問題依然沒有明確的答案,且每種選擇都伴隨著不小的風險與不確定性。

02 DeepSeek引領AI行業新趨勢,從「訓練軍備競賽」到「推理效率革命」

推理效率「降維打擊」

傳統的大型AI模型如GPT-4,在推理過程中需要激活所有參數,導致計算資源和算力需求呈線性增長,推理成本不斷上升。與此不同,DeepSeek採用稀疏架構,僅激活35%-37%的參數,大幅提高了推理效率,縮短了推理時間,同時降低了長期的推理成本。

技術外溢:推進行業標準變革

如果稀疏架構成為行業標準,未來AI優化的關鍵指標將不再是「參數量」,而是「激活效率」。這一變化將推動輕量化、場景專用的模型崛起,並在邊緣計算等領域發揮重要作用,加速AI技術的普及和應用。

商業模式轉型:從「燒錢訓練」到「訂閱式服務」

DeepSeek的推理效率突破不僅減少了推理成本,也為商業模式帶來變革。企業可以通過低成本提供高效服務,降低盈利門檻,尤其是在API收費模式下。此外,推理技術的進步也為AI應用在智能客服、實時推薦等場景的普及創造了新機遇。

行業格局變化:中小廠商迎來逆襲

傳統的大型AI企業依賴龐大的硬件資源和數據優勢,但稀疏架構的開源和技術創新為中小廠商提供了逆襲的機會。中小廠商可以通過更輕量化的模型架構,利用有限的算力實現技術突破,打破大企業在「數據+算力」上的壟斷。

03 DeepSeek是否真的刺穿英偉達算力泡沫

DeepSeek近期的技術突破引發了市場的強烈反應,尤其是在英偉達高端GPU市場的影響上。短期内,英偉達股價的波動可以歸因於市場對DeepSeek創新的恐慌反應,但從長期來看,DeepSeek的突破將帶來算力成本的降低,將推動AI應用生態爆發,進一步提升對英偉達產品的需求。

短期情緒波動:DeepSeek突破對英偉達的威脅

DeepSeek通過優化PTX層和支持FP8計算,理論上減少了AI模型訓練對英偉達高端GPU的依賴。PTX(Parallel Thread Execution)作為NVIDIA CUDA架構的底層指令集,長期以來構成了英偉達技術壁壘的核心部分。DeepSeek的突破主要集中在PTX層的局部優化,提升了計算效率,但其技術的另一個潛在影響是,DeepSeek是否也具備在其他GPU平台(非最精尖)上進行優化的能力,這意味著其他廠商的GPU產品可與英偉達產品正面競爭。然而,這種局部優化並不會摧毀英偉達的技術生態,市場對DeepSeek技術的「破壞性」存在誤判。DeepSeek的突破更像是在現有架構上開發更高效的編譯器,而非從根本上改變整個操作系統。

長期需求:算力成本下降推動AI應用普及

從長期來看,DeepSeek的推理效率提升將促進AI算力的普及。隨著低精度計算(如FP8)的推廣,越來越多的AI應用能夠在中低端硬件上運行,這意味著,AI研發公司將不再局限於選擇英偉達的高端GPU。雖然這一突破為其他廠商提供了替代英偉達的可能性,但更廣泛的算力需求將推動整個AI應用生態的爆發,反而為英偉達帶來了更多市場機會。

英偉達的護城河:CUDA生態的不可替代性

儘管DeepSeek在局部優化上取得了進展,英偉達的完整硬件和軟件生態(包括CUDA編程環境、開發工具及社區支持)仍然是其不可替代的優勢。CUDA不僅僅是一個API接口,它為開發者提供了全生命周期的支持,成為AI開發者和企業選擇英偉達硬件的核心理由。因此,即使DeepSeek能在其他廠商推出的硬件上優化計算能力,CUDA生態的深度與粘性依然是英偉達的強大護城河。

文章來源:頭豹公眾號

財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。

如有意願轉載,請發郵件至content@finet.com.hk,獲得書面確認及授權後,方可轉載。

更多精彩內容,請登陸
財華香港網 (https://www.finet.hk/)
財華智庫網(https://www.finet.com.cn)

現代電視 (https://www.fintv.hk)

相關文章

3月6日
AI賦能制藥行業,推動藥物研發和臨床試驗雙重突破
3月4日
【大行報告】致同香港:AI增強投資者信心,帶來眾多私募股權投資機遇
3月4日
東南亞研究 | 關注美股波動性外溢對港股的影響——香港金融市場周報
3月3日
2025年1-2月中國房地產企業銷售業績排行榜
2月27日
【香港財政預算案】畢馬威解讀預算案:聚焦經濟增長、家辦、醫療資源及發債
2月27日
【香港財政預算案】羅兵咸永道解析財政預算案:聚焦TMT、ESG、新型工業化及基礎設施發展
2月25日
【大行報告】富達國際:本輪中國股市上漲與以往不同
2月21日
固定收益 | 資金緊平衡,債市槓桿率大幅下降——2025年1月中債、上清債券託管數據解讀
2月20日
【大行報告】畢馬威之香港財政預算案提議:倡策略性財政措施 提升香港競爭力
2月20日
金融行業丨銀行部署DeepSeek落地了哪些場景?——銀行機構動態跟蹤2025年第四期

視頻

快訊

2025年4月10日 星期四 02:09:27
更多
09:40
中國軟件國際(00354.HK)漲超5% 發佈全國首個基於開源鴻蒙的機器人操作系統
09:31
【異動股】農牧飼漁板塊低開,康農種業(837403.CN)跌12.35%
09:31
【異動股】雞肉概念板塊低開,曉鳴股份(300967.CN)跌9.64%
09:31
【異動股】消費電子板塊高開,福立旺(688678.CN)漲18.14%
09:31
【異動股】AIPC板塊高開,隆揚電子(301389.CN)漲20.01%
09:28
先聲藥業(02096.HK)SIM0686獲國家藥監局簽發藥物臨床試驗批准通知書
09:26
央行今日開展659億元7天逆回購操作
08:52
長江生命科技(00775.HK)停牌
08:50
石四藥集團(02005.HK)非洛地平獲國家藥監局批准登記成為上市製劑使用的原料藥
08:42
極兔速遞-W(01519.HK)一季度包裹量同比增長31.2%