文章来源:头豹公众号
计算机视觉已经经历了从传统手工设计算子到卷积神经网络,再到现今的CV大模型的三大发展阶段。其中,CV大模型采用的Transformer架构展现出卓越的全局感受和强大的泛化能力,但其高昂的算力成本暂时限制了其广泛商业应用。
CV大模型产业链包括上游的算力基础设施、数据服务和算法框架供应商;中游的模型开发厂商;以及下游的业务场景和垂直应用。至2023年8月,中国已有众多企业、高校和研究院宣布参与CV大模型的研发和应用,展现出该领域的巨大潜力和竞争态势。
中国CV大模型的底层技术原理是什么?哪些关键技术是促进CV大模型成型的核心因素?哪些是CV大模型出现后得到显著提升的业务场景?
01CV大模型行业综述
CV大模型摒弃市场主流的机器视觉卷积神经网络(CNN),采用因NLP研究而产出的Transformer架构,赋予视觉模型在同样投入下更优质的图像分割能力以及泛化生成能力。
相比于卷积神经网络(CNN),基于Transformer的视觉算法模型有以下优势:1. 全局感受野:由于不依赖于局部的卷积操作,能够捕捉图像中的长距离依赖关系。2. 通用性更强:可以大规模利用非标数据进行自监督学习,从而达到更优秀的表征与泛化能力。3. 生成能力更强:更容易与NLP、语言识别等模型进行融合从而实现更优质的多模态图像理解和生成能力。
计算机视觉经历了三大发展阶段,从传统依赖手工设计的算子如SIFT进行特征提取,到卷积神经网络为图像处理带来创新,以及最新ViT采用的多头注意力机制将视觉领域向大模型进行突破转变。
2020年谷歌宣布推出Vision Transformer(ViT),受到了行业的广泛关注。随后在2021年基于ViT的TNT、SWIN、DINO等CV大模型陆续推出,正式开启CV大模型的发展萌芽期。
尽管CV大模型展现出强大的泛化能力,其高昂的算力成本仍限制了大规模商业应用。随着未来算力成本的逐渐降低,预期其商业化进程将以中高速稳定增长。
02CV 产业链发展洞察
CV大模型产业链上游由算力基础设施、数据服务商以及算法框架供应商组成;中游为各类CV大模型开发厂商;下游为CV大模型的业务场景以及在各行业中的垂直应用。
视觉大模型技术主要分为文本提示、视觉提示和多元提示三类。文本提示算力耗费低,模型复杂度低,输入直观。多元提示模型泛化能力强,但模型复杂度高,算力消耗大。
CV大模型的上游算力基础设施主要包括AI计算芯片、算力/网络设备以及数据中心,这三者构建了CV大模型开放的底层基础支持。随着未来AI商业化落地的拓展,模型的推理部分将会占据更大的占比,预计在2030年,模型推理的算力成本占比将会达到75%。
中国的CV大模型的参与者众多,截至2023年8月,宣布入局视觉大模型的企业包括互联网科技厂商、综合人工智能企业、安防监控企业、遥感数据服务商、三大运营商、计算机视觉企业以及各类高校与研究院。
CV大模型目前涵盖八大业务场景,除传统应用外,还涉及视频修复、图像生成、视觉问答及多任务部署等新领域。其核心价值在于泛化传统的视觉子任务,提供通用解决方案,降低部署成本并提升效率。
虽CV大模型尚处初级阶段,但其在低数据集分割上的能力已助力安防、物流等领域提升视觉泛化,降低开发成本。未来,随技术与算力成本进步,CV大模型在行业的整体应用渗透率预期将大幅攀升。
03CV大模型发展探析
CV大模型行业的未来发展趋势有三大方向。首先,传统视觉任务融合在单一终端进行多任务同时部署;其次,CV底层的基础模型将会向统一化迈进;最后,CV大模型向多模态融合发展。
中国的CV大模型行业仍处于起步阶段。自CV大模型概念提出以来,多家企业纷纷宣布投入研发,其中部分已成功推出成熟的产品服务。从战略分析的角度看,百度在CV领域的发展显然占据了先行者的优势。
当前,CV大模型仍处于其发展的初级阶段,众多企业正深耕于研发和内部测试。随着更多企业逐渐公开其研发成果,预期行业的竞争格局将经历重大调整和变革。
财华网所刊载内容之知识产权为财华网及相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。
如有意愿转载,请发邮件至content@finet.com.hk,获得书面确认及授权后,方可转载。
更多精彩内容,请登陆
财华香港网(https://www.finet.hk/)
财华智库网(https://www.finet.com.cn)
现代电视(http://www.fintv.hk)