思客问答 | 如何推动高质量数据建设，助力人工智能健康发展？-思客

发表于：2022-06-30 13:26:23

　　日前，国务院印发《关于加强数字政府建设的指导意见》，就主动顺应经济社会数字化转型趋势，充分释放数字化发展红利，全面开创数字政府建设新局面作出部署。

　　数字化转型是主流趋势，数字政府建设也是当前的重点领域。数据是数字化转型的前提和基础，然而我们目前的海量数据信息还存在数据积累少、数据标准不统一、数据质量参差不齐、数据开放使用规则不清晰等突出问题。如何推动高质量数据建设，助力人工智能健康发展？思客邀请清华大学人工智能国际治理研究院副院长、人工智能治理研究中心主任梁正教授深入探讨这一话题。

　　随着数字化浪潮的不断推进，数字化、智能化成为引领未来经济的重要动力。党中央高度重视发展数字经济，国家“十四五”规划和2035年远景目标纲要作出数字化发展战略，部署了数字经济、数字社会、数字政府建设目标。数字经济已成为全球经济社会发展的重要驱动力。而人工智能作为新一轮科技革命和产业变革的重要驱动力量，正深刻影响着经济社会的发展进程。

　　人工智能的发展还存在不成熟的地方，当前谈得最多的是不断提升人工智能技术的安全性、可靠性和可控性，但最重要的是要把 AI的赋能作用和产业发展结合起来，让AI成为新基建的一部分，打造数字新基建，利用信息技术推动产业数字化转型。

　　目前推动产业数字化转型还需要解决几个问题，一是我们在很多产业领域没有数据积累，德国的很多企业在20年前就已经保留着生产过程相关的各类数据文本，档案很全，但是我们在很多行业领域都是口传心授，缺乏数据记录。二是数据标准不统一，质量不高，包括我们在公共领域的数据，在一些数字化走得比较靠前的城市，比如上海、杭州、深圳等，也仍然存在数据标准和格式不统一，数据归集难度大的问题。三是数据开放使用规则不清晰，这又涉及到治理问题。

　　这方面要注意一个误区，不是解决了这些问题后，就一定会发挥作用。就像我们建了很多机场，没有飞机，没有乘客，它能产生效益吗？所以数字基建关键是要跟产业应用结合，不管是公共需求还产业需求。

　　在产业数字化方面现在相关部门也有一些共性技术的支持。例如，我们的机床行业是一个大而散的行业，几乎可以覆盖制造业的全部领域，小到螺丝钉、大到高铁、飞机、船舶、火箭，其产品乃至设备的制造都离不开机床。

　　我们过去的机床行业总体上是比较落后的，虽然有“十八罗汉厂”这样的骨干企业，但是在智能化转型中，我们的企业和德国、日本、瑞士一些领先的机床厂家相比，竞争力还是不够的，所以就导致整个机床行业比较分散，龙头企业的实力不够强。

　　而随着中国经济体量和市场规模的扩张、生产制造的需要，企业中数控机床的数量在不断攀升。数控机床的发展需要比较好的数字化基础，现在中国机床工具工业协会正在探索推动一项创新性的智能化服务，用工业云的方式收集分散在各个企业、机床上的数据，经过数据整合、学习对工艺参数等优化后再分发给企业。这有点像在机床领域建了个安卓系统，定期优化升级，可以大大提高工业生产率。

　　越是传统的行业，其实做数字化、智能化空间越大。比如过去农业效率很低，在采集、储存、流通环节都会产生大量浪费，现在通过智慧农业、数字农业建设，增加了农业附加值。在这方面数字产业园是个很好的尝试，利用可以开放的公共数据，吸引相关产业汇聚，利用优质资源，推动企业数字化、智能化发展和产业聚集。智能化转型未来是一个必然，我们的产业发展有很大前景，目前中国经济面临“三重压力”，实现数字化和智能化转型，就能激发数字经济发展新动能。

　　“人工智能有多少智能就有多少人工”，这虽然是句调侃的玩笑话，但说明人工智能也存在很多问题。比如自动驾驶还无法完全脱离人的操控，训练算法所需的场景数据仍需要人来标注。尽管机器具备了自我学习的能力，但在很大程度上仍需要人来引导，在利用大量的数据训练后才能展现出一些效果。在这样的背景下，倘若标注者自身的学历和能力参差不齐，那人工智能自我学习的效果也大不相同，这样的情况在医疗、建筑这种专业性较强的领域更为突出。如果我们期待以这样的方式推动工业领域的高质量数据建设，在我看来这是不可能的。

　　推动高质量数据建设，到底该怎么做？目前在多个地方已经出现一些有益尝试。比如深圳龙岗建了一个AI小镇，按照数字化、智能化产业发展所需要的资源对AI小镇的底层架构进行系统化配置，比如一些公共部门的数据，在汇集和整理后先面向社会开放使用。

　　目前全国已经有约15个省市区出台了数据方面的管理条例或地方性政策，这是在中央大力推动下取得的进展。不论是数字经济还是人工智能试验区，像深圳这样的中国特色社会主义先行示范区要勇做“排头兵”，积极探索数据要素领域的产权制度、公共数据开放、流通交易和数据安全等管理机制。

　　现代社会中的数据安全问题，特别是一些场景下公平问题尤为突出，相关顶层设计的重要性也愈发凸显。比如数据安全涉及个人财产，这类问题的治理难度非常大。此外还有伦理规范方面的问题，在数据安全领域，我们该如何把控伦理的底线，这些都对我们的工作提出巨大挑战。2021年，欧盟颁布了《人工智能法》草案，虽然目前仍在征集意见中，但这是全球范围内关于人工智能的首部系统化法律，也算是在这方面的一大突破。

　　自2021年11月1日起，我国也开始施行《中华人民共和国个人信息保护法》，这部法律与《数据安全法》等其他几部法律共同构成了我国数据安全底线治理的基础。特别是医疗、金融、司法这样一些涉及到个人权益乃至人身安全的重要领域，运用相关算法进行自动化决策要非常小心。正如前文所说，这些领域内主流的机器训练方法，不具备可解释性，只是一个数据拟合的结果，因此存在出错概率。

　　我认为，算法运用要合乎伦理，要保障底线、公平且保护隐私，不能够侵犯个人权益。特别是在一些个人领域，针对相关算法公众要有问责权，针对安全主体责任要定期审查，必要时应考虑引入第三方的安全评估制度。针对一些数据原因造成的决策错误，我们也应引入人工干预纠偏并复核。因此，从底层技术的角度来看，最终我们需要建立的是一个综合性的人工智能治理体系。

　　数据是数字化转型的前提和基础，这个数据既包括公共数据，也包括平台企业所掌握的消费者个人数据，所以在管理、使用、流动上形式是不一样的，相应的制度和治理机制设计也应有所不同。

　　总的来看，对于人工智能治理，一是技术本身要可解释可控，二是有时可能要人工干预，这是一个多元协同治理的概念。当前我国针对人工智能特定应用场景已经出台了管理措施，如《互联网信息服务算法推荐管理规定》。未来应从算法分级分类管理的角度出发，按照高风险高影响、高风险低影响、低风险高影响、低风险低影响划分，针对不同领域、不同场景下的应用采用不同的治理工具组合。

　　人工智能治理问题是在高速发展中出现的问题，所以我们将其归结为新兴技术的治理，适用于“敏捷治理”的概念。对它要有一个客观的态度，不能视其为洪水猛兽，也不能放任不管，而是要密切地去了解其进展，然后引入相关利益方，根据它的发展演变，不断地去调适治理模式、创新治理手段。（作者：梁正　清华大学人工智能国际治理研究院副院长、人工智能治理研究中心主任）

监制：唐心怡

编辑：孙惠　周佳苗

校对：崔祎璁