文章來源:頭豹公眾號
計算機視覺已經經歷了從傳統手工設計算子到卷積神經網絡,再到現今的CV大模型的三大發展階段。其中,CV大模型採用的Transformer架構展現出卓越的全局感受和強大的泛化能力,但其高昂的算力成本暫時限制了其廣泛商業應用。
CV大模型產業鏈包括上遊的算力基礎設施、數據服務和算法框架供應商;中遊的模型開發廠商;以及下遊的業務場景和垂直應用。至2023年8月,中國已有眾多企業、高校和研究院宣佈參與CV大模型的研發和應用,展現出該領域的巨大潛力和競爭態勢。
中國CV大模型的底層技術原理是什麽?哪些關鍵技術是促進CV大模型成型的核心因素?哪些是CV大模型出現後得到顯著提升的業務場景?
01CV大模型行業綜述
CV大模型摒棄市場主流的機器視覺卷積神經網絡(CNN),採用因NLP研究而產出的Transformer架構,賦予視覺模型在同樣投入下更優質的圖像分割能力以及泛化生成能力。
相比於卷積神經網絡(CNN),基於Transformer的視覺算法模型有以下優勢:1. 全局感受野:由於不依賴於局部的卷積操作,能夠捕捉圖像中的長距離依賴關系。2. 通用性更強:可以大規模利用非標數據進行自監督學習,從而達到更優秀的表徵與泛化能力。3. 生成能力更強:更容易與NLP、語言識别等模型進行融合從而實現更優質的多模態圖像理解和生成能力。
計算機視覺經歷了三大發展階段,從傳統依賴手工設計的算子如SIFT進行特徵提取,到卷積神經網絡為圖像處理帶來創新,以及最新ViT採用的多頭注意力機制將視覺領域向大模型進行突破轉變。
2020年谷歌宣佈推出Vision Transformer(ViT),受到了行業的廣泛關注。隨後在2021年基於ViT的TNT、SWIN、DINO等CV大模型陸續推出,正式開啓CV大模型的發展萌芽期。
儘管CV大模型展現出強大的泛化能力,其高昂的算力成本仍限制了大規模商業應用。隨著未來算力成本的逐漸降低,預期其商業化進程將以中高速穩定增長。
02CV 產業鏈發展洞察
CV大模型產業鏈上遊由算力基礎設施、數據服務商以及算法框架供應商組成;中遊為各類CV大模型開發廠商;下遊為CV大模型的業務場景以及在各行業中的垂直應用。
視覺大模型技術主要分為文本提示、視覺提示和多元提示三類。文本提示算力耗費低,模型復雜度低,輸入直觀。多元提示模型泛化能力強,但模型復雜度高,算力消耗大。
CV大模型的上遊算力基礎設施主要包括AI計算芯片、算力/網絡設備以及數據中心,這三者構建了CV大模型開放的底層基礎支持。隨著未來AI商業化落地的拓展,模型的推理部分將會佔據更大的佔比,預計在2030年,模型推理的算力成本佔比將會達到75%。
中國的CV大模型的參與者眾多,截至2023年8月,宣佈入局視覺大模型的企業包括互聯網科技廠商、綜合人工智能企業、安防監控企業、遙感數據服務商、三大運營商、計算機視覺企業以及各類高校與研究院。
CV大模型目前涵蓋八大業務場景,除傳統應用外,還涉及視頻修復、圖像生成、視覺問答及多任務部署等新領域。其核心價值在於泛化傳統的視覺子任務,提供通用解決方案,降低部署成本並提升效率。
雖CV大模型尚處初級階段,但其在低數據集分割上的能力已助力安防、物流等領域提升視覺泛化,降低開發成本。未來,隨技術與算力成本進步,CV大模型在行業的整體應用滲透率預期將大幅攀升。
03CV大模型發展探析
CV大模型行業的未來發展趨勢有三大方向。首先,傳統視覺任務融合在單一終端進行多任務同時部署;其次,CV底層的基礎模型將會向統一化邁進;最後,CV大模型向多模態融合發展。
中國的CV大模型行業仍處於起步階段。自CV大模型概念提出以來,多家企業紛紛宣佈投入研發,其中部分已成功推出成熟的產品服務。從戰略分析的角度看,百度在CV領域的發展顯然佔據了先行者的優勢。
當前,CV大模型仍處於其發展的初級階段,眾多企業正深耕於研發和内部測試。隨著更多企業逐漸公開其研發成果,預期行業的競爭格局將經歷重大調整和變革。
財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。
如有意願轉載,請發郵件至content@finet.com.hk,獲得書面確認及授權後,方可轉載。
更多精彩內容,請登陸
財華香港網 (https://www.finet.hk/)
財華智庫網(https://www.finet.com.cn)
現代電視 (https://www.fintv.hk)