2021-09-01日海天瑞声(688787)发布公告称:天风证券陈矣骄、浙商证券田杰华、创金合信基金郭镇岳、国泰君安证券李沐华、国泰君安证券齐佳宏、天弘基金杜昊、国寿安保基金冯冠兰、国寿安保基金郑楠、慎知资产刘越、华商基金戴福宏、众安保险高翔、盘京资产王震、中信证券刘雯蜀、华安基金雷蒙、平安养老邵进明、华泰证券郭雅丽、工银瑞信黄丙延,李劭招、中庚基金谢钊懿、万家基金胡文超、南方基金安永平、平安资管曹欣、拾贝投资杨立、宝盈基金倪也、浦银安盛黄星霖、中金资管冯达、鹏华基金董威,胡颖,贺宁,汤志彦、泰康公募游涓洋于2021-08-17日调研我司,本次调研由董事会秘书 吕思遥,证券事务代表 张哲负责接待。
本次调研主要内容:
公司简介:北京海天瑞声科技股份有限公司是一家从事训练数据的研发设计、生产及销售业务的人工智能训练数据专业提供商。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,通过软件形式向客户交付。公司提供的主要产品和服务包括训练数据定制服务、训练数据产品和训练数据相关的应用服务。自2005年成立以来,海天瑞声始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。海天瑞声所提供的训练数据覆盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能驾驶、智慧城市等多种创新应用场景。其中智能语音为海天瑞声的优势领域,产品线已包含160余个主要语种及方言,并凭借稳定的质量、优质的服务赢得了阿里巴巴、腾讯、百度、微软、三星、亚马逊、科大讯飞、商汤科技、中国科学院、清华大学等众多大型优质客户的认可,核心技术、产品资源、优质客户等竞争优势逐步凸显。问题回答:
一、AI训练数据行业介绍
1.训练数据于人工智能产业的意义算法、算力、数据是人工智能技术发展的三个重要支柱,为人工智能提供动力的是机器学习,即给计算机提供大量训练数据,计算机使用这些数据来寻找模式,这些模式有助于计算机识别对各种情况并得出正确响应。训练数据的样本量越大越完整质量越高,结论更可靠,如果数据样本不够大,它将无法捕获或者考虑到所有变化,机器可能会得出不准确的结论,学习了实际上不存在的模式,或者未识别出真正正确的模式。人工智能发展到当今这个阶段,训练数据的重要性越发突出,成为了人工智能技术应用于各行各业的必备要素,很多人工智能领域的专家都公开发声,说明训练数据于系统性能提升的重要性甚至超过了算法本身。
2.训练数据会在AI技术研发的各个阶段发挥作用在系统开发阶段,需要模拟数据集,模拟真实场景的情况用于机器的首次学习。系统上线后,自身获得了真实场景数据后,需要对数据进行持续加工,将人类对数据的理解附加在数据上,机器才能进一步学习后完成迭代和性能的提升。当系统需要进行功能拓展或者语种拓展的时候,这样的模式将循环往复。
3.训练数据行业的主要从业情况目前行业内有三类从业者,需求方自建团队、品牌数据服务商(海天瑞声属于此类)、中小数据供应商。从行业的发展情况看,目前,需求方自建团队主要解决其自身的部分数据需求,如标准化程度较高的简单数据或敏感数据等,但受专业化分工的影响,需求方仍然会大量购买数据服务提供商的数据,尤其需要投入较高研发力量的复杂数据,以充实其训练的广大需要。中小型数据供应商的整体体量仍然可观,但随着业务门槛提升、法律环境完善、客户需求多样化、价格战中利润被压缩等情况成为常态,越来越多的中小型数据供应商面临经营困境,所占市场份额将呈现持续缩小的趋势。
二、公司与通常理解的数据标注工厂有何区别,保持高毛利率的商业逻辑
1.海天瑞声提供的是训练数据综合解决方案,从数据集适配算法需要出发,设计数据集结构和技术参数,拟定采集规程和标注规范,管理采集和标注的具体实施,数据集整体质检和交付。相较于仅提供数据标注服务的公司,公司有强大的技术能力,理解客户算法训练需求,并拥有成熟的数据处理平台,是训练数据的设计方和管理方。而数据标注工厂主要是基于客户的要求,具体实施标注工作,是标注工作的操作方,与公司的业务定位有很大的区别。
2.公司的核心团队均来自于人工智能专业高校及大型科技公司,拥有算法背景及工程化实施经验,员工硕士学历以上占比超过40%,是一家技术驱动的公司。
3.公司的高毛利率主要源于两点:首先,产品模式是公司区别于众多竞争对手的独有业务模式,公司开发大量通用型、复卖率高的标准化产品数据集,反复给公司带来利润,是高毛利率的保障;其次,公司的主要团队集中在研发人员和项目管理人员上,通过技术投入撬动业务规模,实现了训练数据生产的规模化效应。
三、部分客户拥有自身的数据团队,对公司的业务来说是否构成冲击公司认为需求方自建团队的模式是有存在的合理性的,会长期存在,但不会对公司的业务带来明显的负面冲击。主要由于:
1.人工智能产业的高速发展使训练数据服务行业的整体容量很大,需求方自身解决部分数据需要,不会对公司的市场需求带来太大影响;
2.从AI对训练数据的需求逻辑出发,即使需求方消化了一些需求,也不影响他们继续购买公司生产的数据集,可以充实更多的数据类型;
3.需求方自己做数据,是不会分享给其他客户的,只能自用,缺少了分享机制,是无法成为一种有效商业模式的,因此整体空间有限,而公司为所有下游客户提供训练数据,可以借鉴不同客户的需求提升所有数据的广度和质量,是一种正向促进的循环,和更为效率的产业链专业化分工安排。
四、公司的主要竞争对手及公司与竞争对手的差别
1.主要竞争对手国内的主要竞争对手是一些品牌数据提供商,如慧听、标贝,还有一些新兴公司,如爱数、龙猫等;国外的主要竞争对手是Appen。
2.公司相比于竞争对手,在业务模式上具有明显的特点(1)公司的业务模式是服务产品双模式,且产品化贡献显著,是收入和毛利的主要来源,标准化数据集的研、产、销体系是公司从业多年探索出来的业务模式,其复用性为公司的规模化和高利润率提供了保障。而保持这样的能力需要具备对行业需求的强判断力和较强的资金实力。(2)公司是技术领先型公司而非纯人力投入型,拥有成熟的数据处理平台,解决了数据规模化过程中对产能、质量、成本几方面平衡的难题,同时通过长期建设的供应链体系,保障采标资源的获取。(3)数据安全和合规性强。从公司初创历程看,由于长期与国际性科技企业合作,对数据安全和合规的重视是深入到公司运作的方方面面的。同时,数据安全和合规是需要投入较高的成本建设的,在近期日益完善的法律环境下,这方面的投入为公司带来了潜在壁垒,为公司未来在垂直行业和政府业务延展积累较强的壁垒。
五、与Appen相比有哪些竞争优势公司主要从技术能力和资源能力两个方面,评价与竞争对手之间的差异。从技术能力上看,无论是算法支撑还是工程化的平台,公司与Appen均有较大投入,也有自身比较成体系的数据处理平台及资源管理平台,双方整体实力相当。从细分领域开,根据双方的知识产权数量、自有产品的存量、数据覆盖的领域等方面,在语音领域公司的技术丰富程度更全面,在文本方面Appen的技术能力更全面。从资源能力上看,Appen全球有超过100万的采标资源,覆盖语种超过230种,均超过公司,但在成本控制上,公司的总体成本要低于Appen,有一定的竞争优势,尤其在亚洲市场的覆盖上,能够验证这一优势,这点也将成为公司进一步拓展欧美市场的竞争力之一。
六、公司对市场空间如何看待公司认为,训练数据行业是一个新兴行业,是新时代下的重要生产资料,市场空间广阔:
1.训练数据需求与下游人工智能技术研发投入相关,通常情况下,据公司的了解,下游客户的投入会有15%左右的比例在训练数据的建设上,这个比例会随着数据于人工智能技术研发的作用提升而提高。
2.据了解,艾瑞报告大概是依此逻辑进行的中国市场容量的推算,2025年达到100亿左右,复合增长率20%左右,而公司的三分之一左右的业务来源于海外,因此全球市场空间也是公司关注的,根据整体AI产业的数字比例,全球是中国市场的5-8倍左右,因此,2025年全球训练数据市场规模可能在500亿以上。
3.除以上统计的市场空间外,公司认为垂直行业和政府业务是训练数据下一阶段应用的重要领域,是尚未估量的新增市场,由于每一个垂直行业内部均有诸多细分,因此市场容量非常可观。
七、语音业务未来市场空间如何,计算机视觉业务在未来的投入中是什么定位?智能语音数据集业务在未来是一个持续增长的趋势,一方面是人工智能总体应用的拓展,无论是偏通用型的基础数据还是带有行业属性特征的行业数据,数据于AI的重要性都使语音类型的训练数据需求会进一步增长;另一方面受到下游进行多语种拓展的趋势促进,尤其是国内企业出海需求、国外企业地区拓展需求两方面的支撑,使多语种语音业务成为持续需求。计算机视觉业务是公司拓展赛道的重要布局,尤其针对自动驾驶和OCR领域,希望公司能够获得与语音领域一样的领先优势,因此,无论在算法研究人员、还是在工程化工具平台开发、亦或是交付团队的搭建上公司都会有比较明显的新增投入。
八、公司的算法能力是否对外输出?公司自成立起始终专注在训练数据领域,未来将依旧以训练数据为立足点发展公司业务。公司的算法矩阵是数据处理平台的基础,为训练数据的生产全流程提供支撑,以人机协作式的工作方式,更大程度的用技术解决数据处理任务,提高数据质量和效率。有部分客户如果有需求,公司会输出一部分算法能力,帮助客户完成一些算法的训练工作,这部分业务是公司的第三类业务,即训练数据相关的应用服务。
九、单一客户在不同年度间的收入贡献有所差异是否对公司收入构成重大影响?首先,公司的总体收入与下游算法技术行业整体的研发投入相关,人工智能技术投入仍然在不断的增长,支撑公司总体增长,公司并不单独依赖某一家公司的业务。其次,公司的收入在不同年度间的变化一方面受到客户研发投入节奏的影响,另一方面受到数据验收时间的影响,因此同一客户在不同年度间收入有增减变动是正常的。
十、训练数据产品和服务的定价方式训练数据服务根据数据量定价,不同的数据类型,其数据量的单位不同,比如按音频小时定价,或按张、框、句等单位定价的情况都有。总体价格会根据公司生产数据的成本,考虑合理的利润率后报出。训练数据产品是按每个数据集定价,考虑产品的制作成本、市场上的稀缺性等因素,每个数据集产品有一个价格区间,根据商务谈判情况给出最终报价。
十一、全流程及纯加工服务的一个收入比例如何?从流程角度看,2020年,纯加工服务收入占总收入比重为28.5%,其他为全流程收入。
十二、定制业务数据能否沉淀为自己的产品,行成标准化产品?训练数据定制服务涉及的原料数据和加工后的训练数据在交付给客户并完成验收后,所有权完全转移给客户,是不能用于自身产品建设的,这点是公司始终遵循的知识产权要求。在定制数据集的生产过程中,积累下来的经验会帮助公司各方面能力的提升,例如工具平台因为处理了大量的定制数据集,使平台完善性都有很大的增益,加强了公司的数据处理能力;再如,在一些情况下,公司在生产定制数据集时,也会根据对行业需求的判断,在保障数据权属划分清晰的前提下,利用团队管理、资源获取的便利性,同步安排额外的设计、采集和标注工作,完成产品的开发。
十三、公司2019年首次申报IPO的时候没有专利,后来申请了比较多,公司对知识产权建设是怎么看待的?首次申报的时候,公司有7项发明专利正在申请中,尚未获得授权。之后知识产权局开设了绿色通道,加快了专利审核进度,同时公司专利申请材料质量较高,因此短期内完成了较多专利的授权。在知识产权建设上,公司近年也加强了投入力度,将专利、标准建设作为一个整体,促进行业的健康发展。
十四、数据安全法和数据跨境的限制对公司的影响?公司一贯重视数据安全相关的法律法规,并根据法规的要求持续改善公司的流程建设。目前,公司符合GDPR、数据安全法、个人信息保护法等法律的要求,并通过了业内重要的ISO/IEC27001体系认证、ISO27701个人隐私信息安全管理体系认证等,对出口受限的数据公司严格不进行出口。因此,各方面的法律出台对公司本身的业务没有影响,但其对训练数据产业的健康发展产生了深远的影响,有利于规范行业行为,提高行业门槛,对公司的发展是个有利的条件。
十五、公司上游供应商是哪些?成本控制主要体现在哪些方面?公司的上游供应商主要是人力资源服务公司,他们根据公司对采标资源的画像要求,找到相应的人员提供服务。从训练数据生产的角度看,固有成本主要是采标资源成本,即公司的数据服务费,而控制成本最好的方式是两方面,一方面是加大技术投入,采用更为合理的人机协同比例完成数据处理任务,降低人员投入,提高处理效率;另一方面是加强供应链资源管理能力,扩大资源量,降低人员单位成本。在这两方面,公司都在进行持续投入。
十六、质控是如何进行?公司的质控分布在生产和交付两个阶段:生产阶段,在前端采集环节,公司开发的采集工具可对原始数据质量进行即时质检,不符合要求的原始数据不被计入采集数据之中;在中端加工环节,公司运用自动标注工具+人工校对检验的方式对数据加工情况进行检查,提升加工效率和准确度。在交付前,公司运用全自动校验技术,实现大规模训练数据集的质检需求。
十七、公司有无人员扩张的计划?公司在研发人员和技术人员方面有较为明确的扩张计划,这是与公司的整体发展布局契合的。技术驱动数据业务需要更多的算法研究人员,不断深化算法辅助能力,进一步完成规模化的提升;数据形式越来越多样化,公司需要提升工程化能力,开发更为先进的工具和平台,满足各类数据的处理需求,这方面需要更多平台开发人员;产品、服务双模式,促使项目数量及产品开发的增多,需要扩大技术人员团队,完成产品设计、客户需求对接、项目管理、交付验收等各方面的工作。
十八、哪些行业客户是我们发展的重点?根据目前市场情况,汽车行业、金融保险行业、政法行业、电信行业等是公司重点布局的行业。公司2019年底通过引入中国移动和中国互联网投资基金,通过战略协同效应,进入电信行业和网信安全行业;通过加强CV领域的投入,与各大车厂保持紧密沟通,挖掘合作空间;公司自2019年以来与北京、杭州、深圳等地的法院进行了合作,为其提供公检法行业特点明显的训练数据服务和算法训练服务;此外,目前与多家商业银行和保险公司也在探讨场景化服务。公司认为,垂直行业延伸是未来训练数据行业发展的方向,公司在平台研发和部署能力、数据安全能力、供应链资源能力、行业口碑和声望等方面都有较强的领先力,为公司在行业领域的拓展上提供了先发优势。
十九、疫情对今年公司业绩是否构成影响?疫情对竞争对手是否也有同样的影响?针对疫情的影响,尤其对海外销售的影响,公司有何应对举措首先,疫情的反复确实超出了公司今年年初的判断,尤其是海外疫情的反复,对公司的订单和生产都有比较明显的影响,该类影响对今年业绩造成了一定的不确定性。其次,公司也在积极的做出调整应对疫情,使疫情常态化对公司的影响逐渐下降,力争业绩的平稳,包括几个方面:(1)加强平台工具的远程化功能开发和部署,降低疫情对公司生产流程的影响;(2)扩大在美国的销售团队,改善本地化的客户商务沟通;(3)更大程度把握国内的机会,保持公司基本面。从竞争对手来看,Appen在公开的投资者交流中也提到2020年受到了疫情较大影响,国内竞争对手由于无公开信息,较难判断影响程度,同时由于其较少开展海外业务,因此与公司受海外疫情影响无明显的可比性。
二十、客户AI模型的逐渐成熟是否造成对标准化产品的需求降低,对定制服务的需求提升;定制服务未来盈利能力如何?首先,公司提供的数据集产品和服务覆盖客户AI模型训练的全流程:在其系统上线前,需要模拟数据训练,公司提供产品数据集或定制数据集支撑首次上线;上线之后,需要针对用户数据进行定制加工服务,来完成系统的迭代。这是一个业务循环。当客户需要进行功能拓展、领域拓展、语种拓展的时候,这样的业务循环会持续发生,因此在客户针对AI的研发过程中,无论是产品数据集还是定制服务,都会持续伴随,客户的模型越成熟,越利于其做更多的拓展,对数据的需求只会增加不会减少。其次,从公司的角度,看到的趋势是客户对数据的需求更为广泛,在数量、数据类型、质量方面的要求都越来越高。同时,从客群类型上,除了公司传统客户,即科技类企业外,应用AI的实业企业也开始自建团队进行AI研发,开始作为数据的直接购买方,成为公司的客户。因此,随着AI应用的广泛化,训练数据的需求会长期呈现增长趋势。定制服务的盈利能力主要取决于定制需求的难度,部分需求,如中文普通话的转写业务,毛利率在20%-30%,相对较低,但一些高门槛需求,如多语种TTS定制数据集、3D点云定制标注、OCR定制数据集等都属于毛利率较高的定制服务业务。公司也持续通过加强技术能力和资源管理能力,来维护定制服务业务的盈利能力。
二十一、如何对自研标准化产品进行预判公司的产品数据集研发计划是公司内部重要业务计划之一,每年都会拨付单独的研发预算。计划过程中,主要考虑几方面的因素:(1)公司现有产品体系的完整性。从数据集角度,大致可以分为几个维度,应用领域、语种、适用设备、采集环境、规模、文本类型等,根据这些维度进行组合,可以生成一套庞大的数据集体系,公司会根据体系中的单点覆盖程度评估公司产品体系的完整性;(2)技术发展的需求。根据公司每年参与全球各类学术会议以及与客户交流的情况,判断短期、中期、长期技术路线下对数据集的需求程度,分析投入产出比;(3)市场同类竞品的情况。公司会定期对市场上的数据集情况进行调研,比对公司的产品体系,分析稀缺性,对产品的研发提供一定的市场导向判断。
二十二、新建产品库及原有产品库完善、更新相比较,投入占比的情况如何?公司主要的自研产品投入(约90%)会在新建投入上,产品库的完善、更新主要针对加工层面会进行一定的改良,部分数据集会做一定的扩建,但考虑到数据集的整体平衡性,完善和更新的需求不会太多,因此总体投入不会太大。针对单一维度有更新的情况,公司会新建数据集予以覆盖。
二十三、行业竞争激烈,低价竞争显现,是否预判长期将会消除,对此影响如何看待?公司认为目前的行业竞争和一些低价竞争是行业发展到目前这个阶段必经的过程,也是公司需要面对的一个挑战,但是公司从业务定位和自身的壁垒判断上,有信心应对这样的挑战。首先,人工智能训练数据这个细分行业是2016年开始快速发展起来的,2016年可以说是AI训练数据元年,到目前的5年时间内,国内本行业经过了快速的发展,出现了很多的从业者,国内的行业竞争格局也从2016年之前的几乎海天瑞声独家供应演变到了目前的较为充分的竞争,在这个变化过程中,价格竞争是必然出现的态势;其次,部分行业内从业者的成本较低,不是长期可维持的状态。一方面是由于新兴行业标准、合规要求都在建设之中,部分从业者尚未投入应投入的成本,导致其综合成本较低;另一方面,由于行业的新兴性,众多从业者完成了一级市场融资,采取了激进的市场开拓策略。而海天瑞声在数据合规方面的投入是持续提高的,满足各方面法律法规的要求,同时公司作为公众公司,不会仅寻求短期增长而损失长期的股东利益;还有一方面就是数据质量要求的提高,对成本本身的压力也会提高。无论是上述哪方面的因素,公司均认为低价竞争是不符合行业的长远发展要求的,训练数据行业需要大量的技术投入和合规投入,行业的标准和法律环境也会越来越完善,投资环境也会越来越成熟,这些都会使短期的低价竞争逐渐消除。再次,从公司的业务定位看,不是简单的数据加工产业,而是提供综合训练数据解决方案,即在客户的研发过程中,数据部分应该如何筹划、数据集应该如何设计和开发,这些问题是由公司去解决的。在提供解决方案的过程中,公司需要对算法技术有充分的理解,在解决方案的实施中,需要成熟先进的平台技术来支撑大规模数据集的开发。因此,公司完成的不单单是数据的加工交付,而是充分挖掘数据价值、并将价值传递给客户。最后,训练数据于算法的重要性日益加强,随着技术发展,对训练数据的规模、质量、精度、多元化程度等要求都会越来越高,公司专注于行业前沿需求,对客户解决不了的难点数据和痛点问题进行解决,坚定的贯彻产品服务双业务模式,构建起了公司的竞争壁垒和优势,即使短期受到低价竞争的冲击,从长期看,公司也仍然能够保持合理的高盈利能力。
二十四、公司如何看待计算机视觉业务的拓展方向,比如OCR和自动驾驶领域未来发展空间如何计算机视觉是公司从语音向AllAI拓展的重要布局。公司认为在计算机视觉领域,技术门槛较高、未来应用广阔的细分领域是自动驾驶和OCR领域。自动驾驶是目前各类技术公司、汽车公司都在重点投入的领域,对3D点云标注、2D-3D联合标注、道路协同采集与加工等方面都有较多需求,公司在自动驾驶数据集的开发上也经过了几年的积累,有成熟的团队和技术能力,相信在自动驾驶领域能够有所收获;OCR领域公司一直在与全球最前沿技术拥有方合作,提供OCR数据采集与加工业务,随着OCR技术的普及,相信会有越来越多的客户开始进行技术落地和应用,随之而来的将是更为广阔的数据需求。
二十五、一体化数据处理平台的开发计划具体是什么公司在今年及未来会更为积极的加大研发投入,全面提升公司的算法能力、工程化能力、资源管理能力,坚持技术+资源的双轮驱动方针,保持和提升公司的竞争力。首先,投入算法矩阵的拓展,加深算法辅助能力与人工工作的结合,达到更佳的人机协同效率,为公司下一阶段扩张产能、提高效率、降低成本奠定技术基础。其次,投入供应链资源平台建设,使人员管理、采标资源分配、质量检验、远程工作等各方面的能力得到显著提升,为垂直行业客户和政府客户的客群拓展提供支撑。
二十六、公司21年中报的情况介绍21年上半年公司收入1.06亿,同比增长4%,整体收入增幅不高是受到境外销售收入下降影响,该影响主要由于疫情影响导致部分客户需求推后,或部分境外数据生产受阻;毛利率71%同比下降5个百分点,主要由于20年同期受疫情影响,定制项目无法开展,公司依靠自有数据集产品取得了比较好的效果,使20年上半年毛利率水平较以往有显著提高;净利润3782万元,同比有所下降,除了受到毛利率下降影响外,公司在基础研发和产品研发上都有较大投入,较同期均有40%左右的增长率。
二十七、华创证券出具新股定价报告是否与公司沟通过公司未与华创证券或相关个人有过接触,其出具的新股定价报告是其独立行为。
海天瑞声主营业务:技术开发、技术服务、技术咨询、技术转让、技术推广;销售计算机、软件;货物进出口、技术进出口等。
海天瑞声2021中报显示,公司主营收入1.06亿元,同比上升3.99%;归母净利润3781.51万元,同比下降18.85%;扣非净利润3369.01万元,同比下降19.06%;负债率4.73%,投资收益456.31万元,财务费用51.37万元,毛利率70.82%。
更多精彩內容,請登陸
財華香港網 (https://www.finet.hk/)
現代電視 (http://www.fintv.com)