这两年很火的高端科技,一个是自动驾驶,一个是元宇宙,而这都离不开“人机交互”。如何让机器识别人类的自然语言并做出准确判断?这就需要语音识别技术。
近年以来,随着智能电子设备迅速普及以及工业互联网等应用场景的大幅拓宽,智能语音识别技术得到了长足的发展,与此同时,智能语音市场也在急速扩容。
最新发布的《2020-2021中国语音产业发展白皮书》显示,2020年我国智能语音市场规模已经达到了217亿元,同比增长31%,而2021年同比增长可达44%。
智能语音是人工智能AI的重要应用领域,预计2025年我国智能语音垂直行业应用核心产品规模有望达到159亿元,2019-2025年复合增速23%,而智能语音带动的整体市场规模,有望在2025年达到875亿元,2019-2025年复合增速25%,产业前景十分广阔。
定义与发展阶段
语音识别是人机交互的入口,是指机器/程序接收、解释声音,或理解和执行口头命令的能力。说起来很高端,其实语音识别场景很常见。举个例子,比如被大家“玩坏”的Siri(苹果智能语音助手)、微软Windows10系统自带的小娜(Cortana)。
在智能时代,越来越多的场景在设计个性化的交互界面时,采用以对话为主的交互形式。一个完整的对话交互是由“听懂——理解——回答”三个步骤完成的闭环,其中,“听懂”需要语音识别(Automatic Speech Recognition, ASR)技术;“理解”需要自然语言处理(Natural Language Processing, NLP)技术;“回答”需要语音合成(Text To Speech, TTS)技术。三个步骤环环相扣,相辅相成。语音识别技术是对话交互的开端,是保证对话交互高效准确进行的基础。
换个说法,在“人机”智能交互过程中,人的语言要被机器识别、理解、再反馈给人,就是这个过程。语音识别是第一步。想到了什么?比如现在的微信“语音转文字”功能。此外,语音识别的应用场景其实非常广泛,人机交互这个场景是很有想象力的,比如自动驾驶领域,甚至机器人、汽车人?想象下,你对汽车说“我要去哪”,汽车准确识别然后自动导航到目的地,是不是很有科幻感?(变形金刚?)
语音识别技术并不是这几年才有的,自20世纪50年代开始步入萌芽阶段,发展至今,主流算法模型已经经历了四个阶段:包括模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的深度神经网络阶段。目前,语音识别主流厂商主要使用端到端算法,在理想实验环境下语音识别准确率可高达98%以上。
在2018年的CES上,人工智能作为未来科技最重要的技术,贯穿当年CES展示的几乎所有领域。自动驾驶和语音识别是那一届的亮点。而在2021年随着自动驾驶的深入商业化,语音识别这项技术又被市场所关注。(备注:CES,国际消费类电子产品展览会,始于1967年,是世界上最大、影响最为广泛的消费类电子技术年展,也是全球最大的消费技术产业盛会。简单来说,这个展览每年都有最尖端的科技展示,而且是已经落地或者将要落地的商业化产品,很多改变你我生活的“黑科技”就从这个展会上展示给世人)
不过,在今年(2022年)CES上,视觉识别技术和语音识别一样,同样开始被科技公司所重视。比如这几天的CES大会上,英伟达(Nvidia)发布了基于DRIVE Concierge互动AI——NVIDIA Omniverse Avatar正式版,宣布结束Beta测试,正式向用户开放。
Omniverse Avatar能够将语音AI、计算机视觉、自然语义理解以及搜索引擎相结合,从而更精准实现语音需求。并且Omniverse Avatar还能够对车辆上的每一位驾乘人员提供个性化定制。
以“做显卡”起家的英伟达早就瞄准了人工智能、自动驾驶等最前沿的科技领域。在去年11月英伟达举办的2021年度GTC大会上,公司发布了多款AI技术和产品,以及与元宇宙相关的虚拟化身平台Omniverse(当时还是测试版)。而最新的财报也体现了很多细节。详见笔者文章《元宇宙与人工智能,是英伟达的“进阶之路”吗?》。
国内行业概况
上游:数据最关键,云服务是载体。这里都是大家耳熟能详的科技互联网公司,比如腾讯、阿里巴巴、百度。目前,主流语音识别公司的模型训练和语音识别基本都在云端采用GPU并行架构或异构计算方案进行。相关概念是:云计算、边缘计算、数据网络安全这些。
中游:主要为将语音识别技术实现商业化落地的硬件及软件服务供应商。根据终端消费者类型,语音识别的中游厂商主要可以分为消费级市场和专业级市场,其中消费级市场中的主要语音识别产品包括消费级智能硬件、智能音箱及语音输入法等,专业级市场的语音识别产品则主要以行业解决方案(以项目制交付的软硬件产品及服务)和平台化技术输出(SDK或API形式的智能语音开放平台)两种形式呈现,其中更为垂直落地的解决方案形式在目前专业级商业化收入市场中占比更高。我们看上图产业链概况,在中游里,除了阿里和腾讯,出现最多的企业名字就是科大讯飞。
下游:从应用领域来看,目前消费级市场主要应用于智能硬件、智能家居、智慧教育、车载系统等领域,专业级市场主要应用于医疗、公检法、教育、客服、语音审核等领域。目前对语音识别的限制是环境的要求(安静的环境,少噪音干扰)。
而从国内的行业情况来看,我国智能语音市场呈现出头部集中的竞争格局。中商产业研究院数据显示,智能语音全球市场业务规模前五名的公司所占市场份额(CR5)达到了88%,中国市场CR5达到84.6%。
由于语言差异形成天然壁垒,全球智能语音巨头如Nuance、谷歌等在中国的市场份额有限。德勤公布的数据显示,中国智能语音市场当中,科大讯飞以60%市场份额稳居第一,阿里、百度等为代表的互联网巨头占据约20%市场份额。(Nuance:目前世界上最先进的电脑语音识别软件Naturally Speaking就出自于Nuance公司。在国内更出名的是T9输入法,从诺基亚时代过来的小伙伴或许更熟悉。T9全球市场占有率超70%。)
科大讯飞
据去年12月底公告,公司将用20亿元建人工智能研发生产基地。具体来看,公司根据整体战略布局,为满足业务快速发展、经营规模持续扩大的需求,保障公司长远规划及发展战略实施,于2021年12月27日在合肥签署《投资合作协议书》,投资建设人工智能研发生产基地(一期)项目。
项目总投资约20亿元,用地面积约300亩,建筑面积约25万平方米,其中固定资产投资不低于10亿元。建设科大讯飞总部主要业务基地,包括教育业务、消费者业务、智慧城市业务、核心研发平台、人工智能开放平台等。
首创证券点评:随着公司在人工智能领域不断取得技术突破,持续为公司在教育、医疗、智慧城市、消费者等重点赛道打开全新的市场空间。公司聚焦教育、医疗等重点赛道发力,其中基于AI技术的整体解决方案在教育赛道的商业模式已经成熟,长期成长可期。在市场规模持续扩大、产业体系加速构建的良好机遇下,此次投资项目为人工智能产业高增长领域提供发展空间。同时,也将满足人员规模的增长,激发创新主体活力,吸引产业人才。
据2021年三季报:前三季度实现收入108.68亿元,同比增长49.20%;实现归母净利润7.29亿元,同比增长31.48%;实现扣非后归母净利润5.15亿元,同比增长512.91%,业绩增长超预期。分季度来看,Q1、Q2、Q3公司收入分别增长了77.55%、29.82%、55.01%,三季度在2020年同期高基数的情况下实现高增长。
小结
智能语音识别市场空间广阔,整体市场规模有望在2025年达到875亿元。从应用上来说,语音识别是实现“人机交互”的入口,无论是元宇宙还是自动驾驶,当下最火的概念都离不开语音识别。在这个人机交互的过程中,机器需要识别人的自然语言,变成机器能理解的,然后机器还要“翻译”成人能听懂的自然语言。
这个过程的背后,科技含量是很高的:需要数据的支撑,人工智能、算法的推进等。目前除了腾讯、阿里、百度等科技大厂外,科大讯飞是国内语音识别的龙头,以60%市场份额稳居第一。据去年三季报,业绩高增长。此外据Choice数据,科大讯飞在近半年内被23家机构评级为“买入”。
更多精彩內容,請登陸
財華香港網 (https://www.finet.hk/)
現代電視 (http://www.fintv.com)