思客问答 | 如何推动高质量数据建设,助力人工智能健康发展?

发表于:2022-06-30 13:26:23

  日前,国务院印发《关于加强数字政府建设的指导意见》,就主动顺应经济社会数字化转型趋势,充分释放数字化发展红利,全面开创数字政府建设新局面作出部署。

  数字化转型是主流趋势,数字政府建设也是当前的重点领域。数据是数字化转型的前提和基础,然而我们目前的海量数据信息还存在数据积累少、数据标准不统一、数据质量参差不齐、数据开放使用规则不清晰等突出问题。如何推动高质量数据建设,助力人工智能健康发展?思客邀请清华大学人工智能国际治理研究院副院长、人工智能治理研究中心主任梁正教授深入探讨这一话题。

  随着数字化浪潮的不断推进,数字化、智能化成为引领未来经济的重要动力。党中央高度重视发展数字经济,国家“十四五”规划和2035年远景目标纲要作出数字化发展战略,部署了数字经济、数字社会、数字政府建设目标。数字经济已成为全球经济社会发展的重要驱动力。而人工智能作为新一轮科技革命和产业变革的重要驱动力量,正深刻影响着经济社会的发展进程。

  人工智能的发展还存在不成熟的地方,当前谈得最多的是不断提升人工智能技术的安全性、可靠性和可控性,但最重要的是要把 AI的赋能作用和产业发展结合起来,让AI成为新基建的一部分,打造数字新基建,利用信息技术推动产业数字化转型。

  目前推动产业数字化转型还需要解决几个问题,一是我们在很多产业领域没有数据积累,德国的很多企业在20年前就已经保留着生产过程相关的各类数据文本,档案很全,但是我们在很多行业领域都是口传心授,缺乏数据记录。二是数据标准不统一,质量不高,包括我们在公共领域的数据,在一些数字化走得比较靠前的城市,比如上海、杭州、深圳等,也仍然存在数据标准和格式不统一,数据归集难度大的问题。三是数据开放使用规则不清晰,这又涉及到治理问题。

  这方面要注意一个误区,不是解决了这些问题后,就一定会发挥作用。就像我们建了很多机场,没有飞机,没有乘客,它能产生效益吗?所以数字基建关键是要跟产业应用结合,不管是公共需求还产业需求。

  在产业数字化方面现在相关部门也有一些共性技术的支持。例如,我们的机床行业是一个大而散的行业,几乎可以覆盖制造业的全部领域,小到螺丝钉、大到高铁、飞机、船舶、火箭,其产品乃至设备的制造都离不开机床。

  我们过去的机床行业总体上是比较落后的,虽然有“十八罗汉厂”这样的骨干企业,但是在智能化转型中,我们的企业和德国、日本、瑞士一些领先的机床厂家相比,竞争力还是不够的,所以就导致整个机床行业比较分散,龙头企业的实力不够强。

  而随着中国经济体量和市场规模的扩张、生产制造的需要,企业中数控机床的数量在不断攀升。数控机床的发展需要比较好的数字化基础,现在中国机床工具工业协会正在探索推动一项创新性的智能化服务,用工业云的方式收集分散在各个企业、机床上的数据,经过数据整合、学习对工艺参数等优化后再分发给企业。这有点像在机床领域建了个安卓系统,定期优化升级,可以大大提高工业生产率。

  越是传统的行业,其实做数字化、智能化空间越大。比如过去农业效率很低,在采集、储存、流通环节都会产生大量浪费,现在通过智慧农业、数字农业建设,增加了农业附加值。在这方面数字产业园是个很好的尝试,利用可以开放的公共数据,吸引相关产业汇聚,利用优质资源,推动企业数字化、智能化发展和产业聚集。智能化转型未来是一个必然,我们的产业发展有很大前景,目前中国经济面临“三重压力”,实现数字化和智能化转型,就能激发数字经济发展新动能。

  “人工智能有多少智能就有多少人工”,这虽然是句调侃的玩笑话,但说明人工智能也存在很多问题。比如自动驾驶还无法完全脱离人的操控,训练算法所需的场景数据仍需要人来标注。尽管机器具备了自我学习的能力,但在很大程度上仍需要人来引导,在利用大量的数据训练后才能展现出一些效果。在这样的背景下,倘若标注者自身的学历和能力参差不齐,那人工智能自我学习的效果也大不相同,这样的情况在医疗、建筑这种专业性较强的领域更为突出。如果我们期待以这样的方式推动工业领域的高质量数据建设,在我看来这是不可能的。

  推动高质量数据建设,到底该怎么做?目前在多个地方已经出现一些有益尝试。比如深圳龙岗建了一个AI小镇,按照数字化、智能化产业发展所需要的资源对AI小镇的底层架构进行系统化配置,比如一些公共部门的数据,在汇集和整理后先面向社会开放使用。

  目前全国已经有约15个省市区出台了数据方面的管理条例或地方性政策,这是在中央大力推动下取得的进展。不论是数字经济还是人工智能试验区,像深圳这样的中国特色社会主义先行示范区要勇做“排头兵”,积极探索数据要素领域的产权制度、公共数据开放、流通交易和数据安全等管理机制。

  现代社会中的数据安全问题,特别是一些场景下公平问题尤为突出,相关顶层设计的重要性也愈发凸显。比如数据安全涉及个人财产,这类问题的治理难度非常大。此外还有伦理规范方面的问题,在数据安全领域,我们该如何把控伦理的底线,这些都对我们的工作提出巨大挑战。2021年,欧盟颁布了《人工智能法》草案,虽然目前仍在征集意见中,但这是全球范围内关于人工智能的首部系统化法律,也算是在这方面的一大突破。

  自2021年11月1日起,我国也开始施行《中华人民共和国个人信息保护法》,这部法律与《数据安全法》等其他几部法律共同构成了我国数据安全底线治理的基础。特别是医疗、金融、司法这样一些涉及到个人权益乃至人身安全的重要领域,运用相关算法进行自动化决策要非常小心。正如前文所说,这些领域内主流的机器训练方法,不具备可解释性,只是一个数据拟合的结果,因此存在出错概率。

  我认为,算法运用要合乎伦理,要保障底线、公平且保护隐私,不能够侵犯个人权益。特别是在一些个人领域,针对相关算法公众要有问责权,针对安全主体责任要定期审查,必要时应考虑引入第三方的安全评估制度。针对一些数据原因造成的决策错误,我们也应引入人工干预纠偏并复核。因此,从底层技术的角度来看,最终我们需要建立的是一个综合性的人工智能治理体系。

  数据是数字化转型的前提和基础,这个数据既包括公共数据,也包括平台企业所掌握的消费者个人数据,所以在管理、使用、流动上形式是不一样的,相应的制度和治理机制设计也应有所不同。

  总的来看,对于人工智能治理,一是技术本身要可解释可控,二是有时可能要人工干预,这是一个多元协同治理的概念。当前我国针对人工智能特定应用场景已经出台了管理措施,如《互联网信息服务算法推荐管理规定》。未来应从算法分级分类管理的角度出发,按照高风险高影响、高风险低影响、低风险高影响、低风险低影响划分,针对不同领域、不同场景下的应用采用不同的治理工具组合。

  人工智能治理问题是在高速发展中出现的问题,所以我们将其归结为新兴技术的治理,适用于“敏捷治理”的概念。对它要有一个客观的态度,不能视其为洪水猛兽,也不能放任不管,而是要密切地去了解其进展,然后引入相关利益方,根据它的发展演变,不断地去调适治理模式、创新治理手段。(作者:梁正 清华大学人工智能国际治理研究院副院长、人工智能治理研究中心主任)

监制:唐心怡

编辑:孙惠 周佳苗

校对:崔祎璁