从Token到词元：全模态时代的基模与交互入口

2026 年 3 月 24 日，国家数据局首次在官方语境中确立"词元"为 Token 的标准译名，并披露国内日均 Token 调用量已突破 140 万亿。但这仍只是"文本时代主导"的规模。

在语音、视频与实时交互驱动的多模态场景中，随着自主调用工具并交付结果的 Agent 大量部署，Token 的生成与消耗方式正在发生范式性变化——

元股证券:ygzq.hk

从离散文本走向连续感知，从低频批量输入走向高频流式输入，其生产方式、组织结构与消耗效率，将直接决定下一代 AI 系统的能力上限与成本结构。

早在 2021 年，复旦大学邱锡鹏教授较早明确采用"词元"这一译法，推动其在中文语境下的标准化。他指出，"词元"既避免被简单理解为自然语言中的"词"，又保留了其作为语言处理基本单位的本质内涵。

而随着大模型从文本走向多模态、从模型能力走向 Agent 系统，"词元"所对应的，也不再只是一个术语问题，而是下一代智能系统的底层组织方式。

在这一趋势下，围绕统一 Token 结构、全模态与情境智能展开布局的公司，正持续获得资本关注。

近日，模思智能（MOSI）也官宣完成数亿元的天使轮融资，由 IDG 资本领投，元禾控股、上海国投旗下上海科创及上海未来产业基金、奇绩创坛、智谱系基金 - 星连资本及某头部产业投资方联合投资。

这笔融资背后，投资方显然看重的并不只是单点产品能力，而是其对下一代技术路径的提前布局，而多维资本也将担任新一轮独家财务顾问，携手模思智能共同探索通用智能时代的下一步。

非共识路径：从语音到全模态，在统一的 Token 结构中被表达和计算

早在 2023 年"百模大战"期间，邱锡鹏便意识到，市场上虽然模型众多，但底层技术路径高度趋同。绝大多数资源持续涌向文本大模型赛道，基础研究的多样性却在萎缩。

某种程度上，这种同质化不仅限制了技术可能性的展开，也压缩了探索新路径的空间。

在这样的背景下，模思智能并未沿着主流的纯文本路线继续加码，而是选择了一条更少人走的道路：从语音切入，走向全模态，在统一的 Token 结构中表达和计算不同模态的信息。

之所以选择语音作为突破口，原因并不复杂。

相比纯文本，音频的信息密度更高，天然包含语调、节奏、情绪等文本难以完整承载的信号；同时，音频也更容易与环境、动作和上下文形成连续输入流，更接近真实世界中的人机交互方式。

它不仅是交互入口，更是通向"情境理解"的天然起点。

当 Token 不再只是文本中的离散符号，而成为连续感知信息的离散化表达后，模型要解决的问题也发生了变化：从"理解一句话"转向"理解一个情境"。

模思智能将这一能力概括为"情境智能"（Contextual Intelligence）——以持续感知、动态记忆与环境理解为基础，使 AI 能够在真实世界中进行自适应交互。

在这一框架下，Token 不再只是静态输入单元，而是构成情境的基本信号。

而 Agent，正是情境智能走向现实应用的直接载体。

随着以 OpenClaw 等为代表的基础设施逐步成熟，行业竞争也正在从单一的"模型能力"比拼，转向对交互入口与环境理解能力的争夺。语音、上下文与情境建模能力，正在成为新的技术分水岭。

如果说邱锡鹏代表的是这一路线的学术源头，那么模思智能则是这一方向的产业化载体；而上海创智学院提供的，则是支撑技术快速转化的组织与资源平台。

MOSS 之后，真正的布局才刚刚开始

模思智能核心团队长期深耕预训练、大模型与多模态方向，并持续推进统一 Token 路线的技术演进。

2023 年 2 月，国内首个类 ChatGPT 对话式大模型 MOSS 发布，打响了中国"百模大战"的第一枪。但在模思智能团队看来，真正重要的并不是打一场模型发布战，而是提前押注下一阶段的技术结构。

同年 5 月，团队推出 SpeechGPT，在业内较早验证了"离散化端到端语音大模型"这一路径的可行性。

它所解决的核心问题，是首次将连续语音信号拆解并映射为离散 Token 序列，让语音得以真正进入与文本统一的 Token 空间。

这意味着，机器理解人"说的话"和理解人"写的话"，第一次有机会在同一套计算框架内完成。

同年 8 月发布的 SpeechTokenizer，则进一步将这一路线工程化，成为融合语义 Token 与声学 Token 的音频离散化编码器，为后续语音理解与生成、乃至更广义的多模态统一建模打下了底座。

这条路线一旦走通，向全模态扩展就是自然而然的结果。

2024 年 2 月，AnyGPT 发布，首次将语音、文本、图像与视频统一映射至离散 Token 体系，提出了真正意义上的离散化全模态基座模型架构。

不同模态不再需要彼此割裂、分别训练，而是能够在同一序列结构中完成理解与生成。

至此，团队此前多年的技术布局，第一次呈现出较为完整的轮廓。

从单点突破到能力闭环

此后，相关成果开始加速涌现。

2025 年 7 月，MOSS-TTSD 发布，作为国内首个基于百万小时音频训练的开源中英双语对话语音模型，在播客、影视配音等长内容场景中展现出较强竞争力。

同年 11 月，联合上海创智学院等机构发布的下一代能动性模型体系 NEX，在氛围编程、工具使用、后端开发等多项基准测试中进入全球第一梯队水平，将离散化架构的优势进一步延伸至 Agent 与生产力场景。

进入 2026 年后，团队以月度推进的节奏持续迭代：

MOSS-Transcribe-Diarize 在复杂多说话人场景中实现领先表现；

MOVA 作为国内首个高性能音视频生成开源模型之一，开源后迅速获得行业关注；

MOSS-Audio-Tokenizer 在相同比特率下进一步刷新音频重建性能；

基于该 Tokenizer 训练的 MOSS-TTS 系列模型，则主要面向实际生产场景，在音色克隆相似度等指标上表现突出。

至此，模思智能已经成为国内少数完成"全模态基座模型能力闭环"的初创公司之一。

这一系列成果背后，并不是若干彼此孤立的技术突破，而是同一个底层命题被不断验证后的自然延展：多模态信息可以通过统一的离散化方式映射到同一 Token 序列结构中，进而实现统一计算。

离散化带来的，不只是更高的压缩效率，更重要的是赋予不同模态以可组合性与可计算性——而这正是全模态智能与 Agent 系统真正落地的底层架构前提。

顶尖大模型产业化团队：具备从 0 到 N 的全栈能力

支撑模思智能技术路径的，是一支同时具备前沿研究深度与工程落地能力的核心团队。

首席科学家邱锡鹏，复旦大学教授，国家杰出青年科学基金获得者、上海创智学院全职导师，并荣获 2024 年 CCF-ACM AI Award（当年全球唯一获奖人）。

他长期深耕自然语言处理与大模型方向，在端到端语音大模型与全模态基座模型等前沿领域持续保持技术领先，是国内大模型领域兼具学术高度与产业影响力的领军人物，多次入选全球前 2% 顶尖科学家榜单。

其著作《神经网络与深度学习》被广泛用于高校教学。

CEO 李世民出自邱锡鹏门下硕博连读体系，以一作身份发表多篇 CCF-A 类论文，并深度参与科技部"新一代人工智能 2030 "重点研发项目，在拟人化人机交互方向实现多项关键技术突破。

对李世民而言，创业并非角色转换，而是其既有研究路径在产业侧的自然延伸。

值得注意的是，模思智能并非传统意义上的"教授带学生创业"，而是由上海创智学院与复旦大学联合孵化的标杆项目。

作为上海市主导设立的新型研发机构，创智学院为公司提供了覆盖算力、人才与产业资源的体系化支持，使其具备远高于常规学术创业项目的起点与迭代速度。

2025 年 7 月，在创智学院"首发八大 AI 成果"发布会上，邱锡鹏团队联合模思智能发布的 MOSS-Audio 被评价为"突破语音交互恐怖谷效应，为情境智能奠定基础"。

图源：上海创智学院官微

同年 9 月，在一周年成果发布会上，团队提出的规模化全流程大模型可解释框架再次入选七大创新成果，标志着中国在相关方向实现从跟跑到领跑的跃迁。CEO 李世民表示：

创智学院的孵化，使我们能够以远超传统学术创业的速度完成技术转化。

公司目前已形成近百人的全栈技术体系，博士占比接近 50%，核心成员主要来自复旦大学 NLP 体系（CS Ranking 全球前列），并持续吸引来自多所顶尖高校的研究人才。

随着公司逐步走向产业化落地，团队引入多位具备阿里、字节、理想汽车等背景的关键成员，补齐工程化与商业化能力，为从 1 到 N 的规模化扩张奠定基础。

商业化层面，模思智能多模态大模型开放平台已进入全面公测阶段，提供一站式 API 服务，以高稳定性与高性价比支撑企业级调用需求。

目前，公司已在消费电子、智能汽车、具身智能与 AI 陪伴等多个场景中与头部客户展开合作，初步验证了技术落地能力与商业转化潜力。

模思智能更强调从基座模型到垂直应用的一体化能力构建，其商业增长飞轮将围绕"词元（Token）的生产、分发与应用"展开，从 MaaS 能力输出延伸至 2B、2B2C 与 2C 多层级场景，逐步形成技术与商业双轮驱动的公司。

谁在定义下一代智能

国家数据局首次官宣"词元"译名，在某种程度上标志着大模型产业正从早期野蛮生长走向更高程度的规范化。

这背后意味着，单纯依赖参数堆叠与算力外推的阶段正在逐步过去，未来模型能力的差距，可能越来越取决于架构创新、系统组织方式以及顶尖人才密度。

配资网上开户

模思智能试图回答的，正是一个尚无定论的问题：当大模型进入深水区，真正的护城河究竟是什么？

答案或许已不再只是参数规模或算力投入本身，而在于是否能够更早识别并押注下一代智能的核心结构。

对模思智能而言，这种结构体现为：统一的 Token 表达、面向情境的持续理解能力，以及能够调用工具、交付结果、与用户建立长期关系的 Agent 系统。

当"词元"进入官方语言，真正值得关注的，或许已不只是一个术语被定名，而是谁能够率先定义：词元将如何被生产、组织与使用。

某种意义上，这也正是在定义下一代智能系统的边界。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 点亮星标 � �

科技前沿进展每日见期货投资服务平台

五大股票配资平台｜线上正规配资公司提示：本文来自互联网，不代表本网站观点。

全新插混猎装运动套件+碳纤维扰流板领克07GT将于6月29日预售

资金曲线北京市启动“金秋惠民观演活动”? 2000万元观演补贴即将送达！

特朗普将伊拉克纳入特使汤姆·巴拉克治叙职能范围