行业创新:大模型进行时

2023-05-25 07:09:25 来源: 《环球》杂志

 

4月18日,一款智能线性机器人在德国汉诺威工业博览会上进行工作演示

  商业化潜力的释放将加速大模型在各行各业的应用落地,在走向实体的过程中成为人类强有力的生产力工具,引发更大范围的颠覆性变革。

文/《环球》杂志记者 张漫子

编辑/马琼

  近期,生成式人工智能技术及产品的快速迭代正将大模型从幕后推向台前,并火速引爆了全球热潮。

  当人们拉长时间线,审视大模型的前世今生,就会发现其“破圈”走红并非昙花一现,而是行之有效的技术路线和多年深耕下的大势所趋,大模型已然成为人工智能赛道的又一里程碑。

  如果说昔日冰冷的技术名词离日常生活过于遥远,人工智能热潮中的这波大模型产品及应用却在重塑着千行百业,让人们真切体会身处技术变革的浪潮之巅,直面大模型带来的创新与颠覆。

从“大炼模型”到“炼大模型”

  国际数据公司(IDC)预测,2026年中国人工智能软件及应用市场规模将达211亿美元,人工智能进入大规模落地应用的关键时刻。开发门槛高、应用场景复杂多样、对场景标注数据路径依赖等问题也随之而来,而大模型凭借其泛化性、通用性和迁移性等优势,将点亮新的希望。

  上一代人工智能面临“单领域、低纵效”的瓶颈。标注清洗数据的成本高昂,只有单一领域的数据集,且各模型、各数据集间存在壁垒,局限于所接受的训练,诸多因素致使人工智能的通用泛化能力不足。

  基础大模型的出现则提供了破局的新思路。对海量多源数据进行自监督学习,借助“预训练+微调”的方式即可轻松处理五花八门的任务,实现从文本、语音、视觉等单一模态智能向跨场景、多任务的多模态方向演进,基础大模型在跨领域内容学习、跨领域能力获取方面实现了质的飞跃。

  2017年,Transformer网络架构的提出使深度学习模型的参数达到1亿规模,并在此基础上分化出两大技术路线:以自回归为主、采用单向Transformer的GPT模型,和以自编码为主、采用双向Transformer的BERT模型。

  其中,相较于更适合完成理解类任务的BERT模型,GPT在自然语言的生成方面更具优势,也是目前国际上大量主流大模型采用的模型架构。而国内很多大型语言模型采用的是结合以上二者的T5模型,包括单向语言预训练和任务微调两部分,可以兼顾理解和生成两大类任务。

  面对人工智能带来的各种挑战,能够提供通用化解决方案的大模型,已然成为新一轮人工智能竞技的重要赛道。

  美国科技巨头谷歌、微软、亚马逊等均在大模型领域展开布局,包括OpenAI最新发布的“史上最强”多模态预训练大模型、谷歌的全球最大视觉语言模型PaLM-E,以及微软将OpenAI大模型与自家结合发布的网络安全产品Microsoft Security Copilot。

  相比之下,中国大模型发展仍处于快速增长阶段,国内各科技企业纷纷入局,包括百度的“文心一言”、阿里的“通义千问”、腾讯的“混元”、华为的“盘古”等多个大模型。此外,部分研究机构也在进行大模型的尝试,比如北京智源人工智能研究院的“悟道”、中国科学院自动化研究所的“紫东太初”等。

  在这一波大模型发展浪潮之中,不少人工智能企业经历了从“大炼模型”到“炼大模型”的范式转变,而随着参与企业越来越多、参数规模越来越庞大,大模型已经成为未来人工智能技术和产业生态的核心。

把握住应用这个机遇

  在大模型的竞逐中,落地应用才是关键的“最后一公里”。

  百度创始人、董事长兼首席执行官(CEO)李彦宏打了个比方,“基于这种大语言模型开发应用机会很大,没有必要再重新发明一遍轮子,有了轮子之后,做汽车、飞机,价值可能比轮子大多了。”

  专家认为,与其纠结于大模型自身的调优升级、复制已有路径,不如另辟蹊径,聚焦落地应用层面,充分发挥中国的现有优势——丰富多样的落地场景、庞大的用户数量和数据资源,以及大量亟待转型升级的产业需要利用新技术工具实现高效快速迭代等。

  微软亚洲研究院原副院长周明认为,在把模型做到相当大的同时,也要快速考虑它的落地,结合用户需求量体裁衣、定向优化,推动大模型在不同行业的应用。

  以生命科学领域为例,由于生命体具有高度复杂性,且目前数据量极大,包括十亿甚至百亿量级的蛋白质序列,以及需要测量几万基因的单细胞组学,如此庞大的数据量已无法通过传统工具进行操作分析,大规模预训练模型为理解复杂的生命科学问题提供了可能性。

  3月23日,生命科学平台公司百图生科在北京推出了首个基于跨模态生命科学大模型xTrimo的蛋白质生成平台AIGP。xTrimo拥有千亿级的参数量,可将蛋白质、蛋白质相互作用、细胞、复杂生物系统作为一个整体进行建模,形成4层嵌套结构。同时,为判断生成蛋白的好坏,其还可以借助高通量的实验进行验证,全部数据最终回流并反哺大模型。

  据百图生科首席技术官(CTO)宋乐介绍,基于这一大模型,该平台能根据用户需求生成对应的蛋白。以胃癌病人为例,在输入病人的疾病信息或多组学数据时,AIGP能够自动分析并找到胃癌靶点,根据靶点生成一个抗体甚至一系列有多样性的蛋白,最后直接生成的蛋白将回到自动实验室里合成蛋白。

  中国科学院院士董晨认为,AIGP利用人工智能技术推演出蛋白质的结构,理解蛋白质的功能和动态变化,一方面能够揭示生命科学的基本规律,另一方面在医疗健康领域,比如对研发新药会有非常大的作用。

避免盲目“跟风”“烧钱”

  大模型在持续引爆全球关注热潮的同时,也不断吸引着新老玩家入局。更大的模型、更多的数据、更强的算力,成为企业竞相追逐的目标。但正如事物的发展总是沿着螺旋式上升的轨道,大模型的发展也无捷径可言。

  一方面,大模型愈发庞大的参数量和计算量对算力、算法、数据提出了更高要求。

  对国内绝大多数人工智能企业而言,盲目跃进、一头扎进大模型赛道刷参数的做法并不明智,既无法打通堵点,也无法承担高昂的交付和运维成本,搞不好会竹篮打水一场空。

  在微软亚洲研究院原副院长周明看来,跟风式“烧钱堆参数”的路径,并不适用于所有人工智能企业,特别是大量新生的中小型人工智能赛道企业。

  而国内一些企业和研发机构正在探索以更少的能耗输出更高算力的路径。亿铸科技董事长李涛说,芯粒、3D封装和存算一体等先进技术有望助力企业突破大模型发展下的算力困境。

  另一方面,持续“狂飙”的大模型也引发人们对技术风险的担忧。

  3月29日,包括马斯克、马库斯、辛顿等在内的千余名科学家和企业高管联名签署公开信,呼吁所有人工智能实验室立即暂停巨型人工智能实验至少6个月,并呼吁建立一套高级人工智能设计和开发的共享安全协议,让人工智能在透明公开、合理有序的轨道上行进。

  马斯克早前也曾公开表态,强调虽然人工智能的前景是巨大的,但也带来了不容忽视的风险,需要稍稍放缓人工智能的发展速度,加强对其安全问题的监管。本次科学界的共同表态也再次表明,大模型不能一味追求更快、更高、更强,必要时也要踩踩“急刹车”。

  随着大模型的发展驶入快车道,商业化潜力的释放将加速大模型在各行各业的应用落地,在走向实体的过程中成为人类强有力的生产力工具,引发更大范围的颠覆性变革。

来源:2023年5月17日出版的《环球》杂志 第10期

《环球》杂志授权使用,如需转载,请与本刊联系。

更多内容敬请关注《环球》杂志官方微博、微信:“环球杂志”。

手机版