数据标注，自动驾驶必要条件？

2023-02-28 06:59:31 来源： 《环球》杂志

在北京经济技术开发区5G云代驾的操控室内，工作人员远程监控、操控无人车

　　精细化、场景化、定制化或将成为数据标注行业发展的重要方向，产业变革的大门已然开启，高质量的标注数据集将撑起智能行驶新的未来。

文/崔赫翾

编辑/乐艳娜

　　当前，人工智能行业如火如荼地兴起，落地化进程加速，应用场景逐渐广泛，数据标注行业作为人工智能的上游基础产业也在短短数年间迎来了爆发式的发展。以中国为例，艾瑞咨询发布的行业白皮书显示，预计2025年该行业市场规模将突破113亿元，行业年复合增长率达到23.5%。而对于智能驾驶而言，数据标注或是其“进阶之路”的重要一环。

“喂养”出的人工智能

　　2017年，英国《经济学人》发表的封面文章中提出了一个疑问：数据更像石油还是阳光？文章作者认为，数据是“世界上最宝贵的资源”，数据是未来的石油。当下，人们的共识是，人工智能数据与算法、算力是人工智能行业的“三驾马车”。曾有人将数据比喻为其中的土壤，也就是说，数据从本质上决定了人工智能的落地水平。

　　为什么数据会成为核心驱动力之一？业界有这样一种说法，与其说是人工智能，不如说是数据智能，人工智能其实就是用大量的数据作导向，让需要机器来做判别的问题最终转化为数据问题。现代的人工智能进化，不仅需要理论研究，更加需要大量的数据作为原料。

　　但是一般的海量数据和可以“喂养”给机器学习的训练数据不尽相同。高质量的训练数据需要通过两步处理，一是数据清洗，二就是数据标注。数据的清洗包括去除无效的数据、整理成规整的格式等。而数据标注虽然目前学术界尚未对其概念达成共识，但普遍认为标注是对未处理的初级数据，包括语音、图片、文本、视频等进行加工处理，并转换为机器可识别信息的过程。原始数据一般通过数据采集获得，随后的数据标注相当于对数据进行加工，然后输送到人工智能算法和模型里完成调用。

　　简单来说，数据标注存在的意义便是让机器理解、认识世界。尤其是2012年后深度学习的火热，催生了以海量数据“喂养”人工智能模型的更具性价比的研发方式，进而催生了更大量级的数据标注需求。

　　需求带来了行业的爆发。根据艾瑞咨询的数据，在中国，2019年数据标注行业市场规模为30.9亿元，2020年突破36亿元，预计2025年市场规模将突破113亿元。

　　放眼世界各地，负责“喂养”人工智能的数据标注师成为新兴职业。美国皮尤研究中心预测，数据标注工作将在未来几年内成为美国经济的重要组成部分。早在2016年，就有大约5%的美国人通过在线标注平台赚钱——这个数量已经超过了优步司机。

需求指数级爆发

　　自智能驾驶概念提出以来，它就一直是人们梦寐以求的出行技术。人们对真正的智能驾驶汽车的场景有自己的预期——中国工程院院士、中国人工智能学会理事长李德毅在接受采访时就曾给出了自己的畅想：“必须像人一样具备学习能力，能处理各种路况。”简单来说，自动驾驶系统应根据从感知融合模块得到的环境信息，如其他车辆、红绿灯、行人等数据反馈，做出具体行为决策，如刹车、变道、超车等等。

　　与很多行业不同，自动驾驶因有着关乎生命安全的特殊性质，技术容错率几乎为零。而要训练出一套“合格”的感知算法，就需要有海量、准确、高质量的场景数据，进而对其进行标注。这需要专业人员对海量道路场景的数据进行标注，将其转化为支撑算法训练的数据。

　　举个例子，假设有一辆汽车在不同的驾驶条件下以每小时45公里的速度行驶30万公里。通过计算，可得知汽车行驶了6700个小时。假设自动驾驶系统在6700个小时内以每秒至少10帧的速度记录，最后会生成2.4亿帧的数据。如果平均每帧有15个对象，其中包括行驶车辆、行人、信号灯、障碍物等，最终会得到超过35亿个需要标注的对象。可见，自动驾驶标注的工作量是巨大的。

　　除了需要大量数据外，自动驾驶对数据质量的要求也极高。根据兰德公司对路测数据规模的预估，自动驾驶车辆需要在真实或虚拟环境中至少进行177亿公里测试，不断利用新数据调优算法，才可以证明自动驾驶系统比人类驾驶员更加可靠。据英特尔计算，L3+级自动驾驶汽车每一辆车每天产生的数据高达4000GB。作为自动驾驶技术应用落地的必要条件，数据采集、数据标注服务已成为支撑自动驾驶热潮必不可少的一环。

　　此外，随着激光雷达的使用，L4级自动驾驶数据量增大；随着高速路、城市快速路、停车场等应用场景的不断丰富，自动驾驶的数据标注量呈现出指数级上升的趋势；随着更多量产车的上路，未来回传的数据量也将是大量且多元的……这些都对数据标注产生了持续的需求。

智能驾驶“进阶之梯”

　　数据标注具体能给智能驾驶带来什么？

　　中国工程院院士邬贺铨曾表示：“智能驾驶中需要让汽车自动识别马路，但如果只是将视频单纯地传给计算机，计算机无法识别，需要人工在视频中将道路框出，再交由计算机，计算机多次接收此类信息后，才能逐渐学会在视频和照片中识别出道路。”

　　当前解决感知问题的主要方式就是“数据训练”，通过监督学习的方法将大量各种情况的训练数据提供给算法，让生成的模型具备普适的感知能力。基于自动驾驶落地需求对海量原始数据进行框选、提取、分类等一系列处理，将混杂数据转化为机器学习可识别的智能驾驶专业数据，帮助驾驶技术更好地感知实际道路、车辆位置和障碍物信息、疲劳检测等，实时感知在途风险，实现智能行车、自动泊车等预定目标。

　　那么，智能驾驶需要哪些数据标注？

　　由于对安全的严苛要求，智能驾驶的数据需求正向着多模态的方向发展。所谓多模态，是指多维时间、空间、环境数据的感知与融合。也就是说，除了疲劳监测、动作识别、场景光线等车内场景外，车外环境中更复杂的障碍物、道路、天气、地点、车道线、路标以及闯红灯车辆、横穿马路的行人、路边违章停靠的车辆等，这些场景数据都需要对应的标注方式。

　　但上述场景只是涉及摄像头数据，仅仅是数据标注的冰山一角。在智能驾驶汽车上，除了摄像头外，还有激光雷达、毫米波雷达、超声波雷达等多种配置，这些感知方式也都需要对应的数据标注。

　　由此可见，数据标注堪称智能驾驶的“进阶之梯”，但这样前景广泛的行业也存在一些问题。比如，与人工智能行业“高精尖”“高科技含量”的标签不同，数据标注仍然属于劳动密集型产业，长期处于粗放发展的状态中。

　　此外，在自动驾驶行业里，几乎每一家涉足的机构都有各自的标注标准，甚至是标注工具。需求方的要求五花八门，每一家都在建立自己专属的数据集，且行业内无法通用，这就导致不少数据标注公司可能在同一张图片上反复做不同的标注。

　　未来，精细化、场景化、定制化或将成为数据标注行业发展的重要方向，产业变革的大门已然开启，高质量的标注数据集将撑起智能行驶新的未来。

来源：2023年2月22日出版的《环球》杂志第4期

《环球》杂志授权使用，如需转载，请与本刊联系。

更多内容敬请关注《环球》杂志官方微博、微信：“环球杂志”。