参考消息网2月12日报道 据美国《科学日报》网站1月25日报道,像ChatGPT这样的生成式人工智能(AI)系统真能产出原创的想法吗?由加拿大蒙特利尔大学心理学系教授卡里姆·杰尔比领导、著名AI专家约舒亚·本乔参与的一项新研究以前所未有的规模探讨了这个问题。这项研究是迄今为止对人类和大语言模型创造力进行的最大规模的直接比较。
这项发表在英国《科学报告》上的研究指出了一种重大的转变。生成式AI系统如今已经在某些创造力指标上超越人类的平均水平。与此同时,最具创造力的人类仍然展现出明显且持续的优势,甚至超越最强大的AI模型。
研究人员评估几个领先的大语言模型,包括ChatGPT、“克劳德”和“双子座”,并把它们的性能与超过10万名人类参与者进行比较。研究结果凸显一个转折点。一些AI系统,例如GPT-4,在衡量发散性语言创造力的任务中得分超过人类平均水平。
杰尔比解释说:“我们的研究表明,一些基于大语言模型的AI系统如今可以在定义明确的任务中超越人类的平均创造力。这个结果或许令人惊讶,甚至令人不安,但我们的研究也强调一个同样重要的观察结果:即使最好的AI系统也仍然无法企及最有创造力的人类。”
事实上,当研究人员考察最具创造力的前50%参与者时,他们的平均得分超过所有受测试的AI模型。就最具创造力的前10%人群而言,这种差距甚至更大。
杰尔比说:“我们和多伦多大学的杰伊·奥尔森合作研发了一个严谨的框架,使我们能够使用相同的工具,基于超过10万名参与者的数据,来比较人类和AI的创造力。”奥尔森也是该研究报告的共同作者。
为公平评估人类和机器的创造力,研究团队采用了多种方法。主要测试工具是发散联想任务(DAT)。这是一种广泛使用的心理测试,用于测量发散性创造力,即根据单一提示产生多样化原创想法的能力。
由奥尔森创建的发散联想任务,要求参与者(无论是人类还是AI)列出十个含义尽可能不相关的词语。例如,一个极具创意的回答可能包含“银河、叉子、自由、海藻、口琴、量子、怀旧、丝绒、飓风、光合作用”。
执行这项任务的表现跟用于写作、创意生成和创造性问题解决等其他常见创造力测试的结果密切相关。虽然这项任务基于语言,但涉及的远远不止词汇量。它需要调动多领域创造性思维涉及的更广泛的认知过程。
研究人员随后探索AI在这种简单的词语联想任务中的成功能否扩展到更复杂、更贴近现实的创意活动。为验证这点,他们把AI系统和人类参与者在创意写作挑战中的表现进行比较,例如创作俳句(一种三行短诗)、撰写电影剧情简介和创作短篇小说。
测试结果遵循一个熟悉的模式。虽然AI系统有时能够超越人类的平均表现,但最优秀的人类创作者始终能够创作出更出色、更具原创性的作品。
这项研究针对AI可能取代创意专业人士的担忧提出了较为平衡的观点。虽然AI系统在某些任务上已能够达到甚至超越人类的平均创造力水平,但它们仍然存在明显的局限性,并且依赖人类的指导。
杰尔比说:“即使AI在某些测试中能够达到人类的创造力水平,我们也需要超越这种误导性的互相竞争观念。最重要的是,生成式AI已经成为服务于人类创造力的极其强大工具:对于那些选择使用它的人而言,它不会取代创作者,而是会深刻改变人们想象、探索和创造的方式。” (编译/赵菲菲)




