科学圆桌会丨人工智能研究者:从Token到“词元”,变化背后的分量很重-新华网
新华网 > 时政 > 正文
2026 03/27 20:29:34
来源:新华社

科学圆桌会丨人工智能研究者:从Token到“词元”,变化背后的分量很重

字体:

  日前,在中国发展高层论坛2026年年会上,国家数据局局长刘烈宏明确将Token称为“词元”,并将它定义为“结算单位”。作为一名长期跟踪人工智能发展的研究人员,我一下子就捕捉到这个表述的变化。这个变化背后的分量很重。

  它意味着,我国人工智能正在从“能力布局”迈向“能力结算”,从模型好不好,转向智能服务如何计量、如何定价、如何交易。过去,很多企业采购软件,买的是许可证、账号数和部署周期;如今,越来越多企业采购的,是可调用、可核算、可复盘的智能服务量。

  词元,正是那个把智能服务折算成成本与价值的刻度。真正值得重视的,不只是一个译名,而是一个计量体系正在成形。

  数据显示,2024年初,中国日均词元调用量为1000亿;到2025年底,跃升至100万亿;到2026年3月,已突破140万亿,两年增长超过1000倍。自2026年1月底以来,有的模型企业创下20天收入超过2025年全年总收入的业绩纪录。

  短短两组数据,已经足以说明一个事实:词元不再只是技术指标,而正在成为人工智能商业化速度、应用深度和产业景气度的重要观测值。

  中文语境下,给Token定名为“词元”,格外有意义。它比“词”更准确,也比“令牌”“标记”更贴近语言处理场景。特别是强调了“基础单元”这个属性,既方便公众理解,也有助于产业、媒体和政策口径统一。

  但如果把2026年3月23日看成“词元”横空出世的时刻,也并不准确。事实上,Token并不是大模型爆红后才临时冒出来的新词。

  往前追溯,在学理脉络上,它可追溯至20世纪初研究者提出的type-token区分,随后进入语言学、计算语言学和自然语言处理领域,成为文本处理的基础概念。在中文规范体系,2018年已有计算机学科术语规范工具书,将相关场景下的Token译为“词元”。

  词元本质上是大模型处理信息的最小信息单元。人类说出一句话之后,模型要先把文本切分成词元,再把词元映射成编号,随后才能完成关联、推断和生成。

  这也是为什么同样一句中文,在不同模型里,词元数量往往并不相同。切分规则不同,成本就不同,速度就不同,可容纳的上下文长度也会不同。

  为何词元调用量快速攀升到140万亿?答案不是简单的“聊天变多了”,而是应用形态变了。对话应用消耗词元,长流程任务更消耗词元,调用工具、读取文档、连续规划、多轮反馈,同样都要反复吃进上下文、生成新输出。表面看,用户只是让模型“帮我做件事”,而系统内部,实际上是一次次高密度的信息拆分、调用和结算。

  正如刘烈宏在同一场演讲中所说的:人工智能正从“对话”走向“决策执行”,智能体正在驱动中国大模型应用规模爆发式增长。

  另一方面,词元调用增长越快,越说明数据供给体系正在跟上模型推理与应用消耗的节奏,也说明数据、模型、场景与商业闭环开始贯通,“词元经济”雏形正在显现,“数据供给—价值释放”的良性循环已初现端倪。

  但词元多,并不自动等于智能强。

  我在和企业交流时,常会碰到一种误解:是不是词元消耗得越多,模型就越聪明、答案就越好?

  事实并非如此。词元更像水表和电表,负责记录消耗,不负责保证质量。真正决定结果的,仍然是模型能力、数据质量、任务设计和提示组织方式。

  一句话:没有高质量数据,词元只是空转;没有合适场景,再便宜的词元也难以转化出真正的生产力。

  词元像是一块很小的砖,却可能正在垫高一个时代的门槛。很多人第一次听见“词元”时,会觉得它抽象、陌生。但从此刻起,词元正像“字节”“流量”“千瓦时”那样,成为普通人必须逐步理解的新单位。这也意味着人工智能开始被纳入更成熟的经济叙事。

  2025年8月28日,参展商与观展者在2025中国国际大数据产业博览会会场交流城市数智化实践情况。新华社记者陶亮 摄

  我第一次强烈意识到词元的这种叙事改变,不是在实验室,而是在一张预算表前。

  前段时间,我和几位企业负责人讨论大模型接入方案。大家谈完模型能力、幻觉率、知识库召回率,财务负责人忽然指着一行费用问我:为什么这套系统不是按账号数收费,也不是按调用次数收费,而是按“月度词元消耗量”核算?

  那一刻,我意识到,词元已经像工业时代的度电、互联网时代的流量一样,成为企业理解人工智能时代“成本”的新度量衡。它不只服务于技术研发,也会越来越多地出现在预算表、采购单、报价单和监管语境里。

  我们当然不能把一个时代的变化,全部压缩进一个术语里。但有些时候,一个术语的正式定名,恰恰标志着一个产业阶段已经悄然切换。今天的词元,也许就站在这样的节点上。

  等到更多人读懂词元,人工智能的落地方式也会被重新理解。以后再听到“这个模型很费词元”“上下文又超了”“本月词元预算不够了”时,我们不妨少一点陌生感。这也在提醒我们:人工智能已经不只是在展示聪明,它正在像水、电、网络和云资源一样,被精确计量,被持续调度,被大规模交易。 

  真正变化的,也从来不只是一个中文名字。(作者系赛迪研究院人工智能研究中心副研究员钟新龙)

【纠错】 【责任编辑:胡蓉】