感知
从原始多模态信号中获取结构化世界信息,为理解层提供可推理输入,而非停留在像素模仿。
Understanding
半透明「认知舱」:内部四颗几何核心对应物理、语义、空间与情感基座——它们不是装饰性图标,而是 VUA 在真实场景里可交付的推理支柱。
点击核心可跳转至下方范式章节对应锚点展开全文。
Paradigm
左右拖动中间手柄,对比「盲模仿」像素流与「真理解」语义网。隐喻来自范式差异:VLA 易停留在统计相关;VUA 以理解层为中枢压缩规律、支撑预测与规划。
Blind Imitation
VLA · 模糊像素流
Real Understanding
VUA · 结构化语义网
支持键盘左右方向键微调分界
Architecture
在四层理解基座之上,VUA 构建理解层(核心)— 预测层 — 规划层的完整认知栈;演进上从像素流的 VLA,走向语义流的 VUA,再指向统一物理–语义–行动空间的具身大脑与 AGI 路径。VUA 不是对 VLA 的细调,而是以理解为中枢、从像素感知到世界理解、未来预测与自主规划的正确路线。
自上而下为决策链路与信息流隐喻:规划面向目标与约束;预测推演后果与风险;理解层托底,聚合物理、语义、空间与情感。点击「理解层」展开四大技术框架的 Bento 指标;底部按钮进入范式全文。
规划层
Planning
目标驱动决策、安全约束与重规划、多步任务规划。
决定系统「价值」:把理解转化为可执行行动。
预测层
Prediction
未来状态演化、动作后果推断、风险与异常预判。
决定「泛化」:在未见组合上仍可推演。
Framework
VUA: The Next-Generation Paradigm of Embodied Intelligence
核心哲学:智能不在于还原像素的繁冗,而在于对底层规律的极度压缩。Understanding(理解层)是连接感知与行动的唯一合法桥梁。VUA 通过「物理 + 语义 + 空间 + 情感」四层理解基座,完成从「感知像素」到「认知世界」再到「自主行动」的跨越。
点击各基座标题展开完整说明;同一栏内同时只展开一项。带锚点链接(如 #vua-1-physics)将自动滚动并展开对应基座。
VUA 通过「物理 + 语义 + 空间 + 情感」四层理解基座,完成从「感知像素」到「认知世界」再到「自主行动」的跨越;上表各基座可逐项展开阅读工程化细节。
Roadmap
在四层理解基座之上,VUA 构建理解层(核心)— 预测层 — 规划层的完整认知栈;演进上从像素流的 VLA,走向语义流的 VUA,再指向统一物理–语义–行动空间的具身大脑与 AGI 路径。VUA 不是对 VLA 的细调,而是以理解为中枢、从像素感知到世界理解、未来预测与自主规划的正确路线。
三层认知架构的交互式示意与理解层展开,见本页专节 #vua-cognitive-architecture。
阶段 1
VLA(像素流)
表征对象
像素级预测与动作映射。
结果
易停留在模仿动作,缺乏对因果与物理的可解释理解。
阶段 2
VUA(语义流)
表征对象
物理常数、拓扑结构、情感与社会标签等抽象表征。
结果
理解世界、预测演化并支撑规划决策。
阶段 3
Ultimate / AGI(具身大脑)
表征对象
统一的物理–语义–行动表征空间。
结果
跨场景、跨本体的通用具身智能。
落地实践:教育、心理健康、智慧工厂与康养等场景持续扩展。数据壁垒:累计接入超过 10 万台 智能终端,沉淀亿级多模态交互数据,闭环反馈(Action-Feedback-Correction)驱动飞轮。科研团队 MediaLab@UESTC 等持续产出论文与专利。
10 万+
智能终端接入
真实场景多模态数据壁垒
200+
学术论文
持续产出前沿成果
100+
核心专利
工程与算法双轮沉淀
情感识别准确率
>95%
响应延迟
<100ms
Token 节省率
50%+
推理加速比
2–3×
TurboCore
理智核 · 逻辑与吞吐
数据流与逻辑链路环绕:投机解码、KV 与端云协同。
BingoClaw
双核汇聚
理智与情感在此汇流,驱动具身本体
AuraCore
共情核 · 情绪与边界
神经元式微闪烁与心跳节律:多模态情感在端侧闭环。
Overview
以 VUA 世界模型与场景大脑为中枢,TurboCore 与 AuraCore 分别承担理智引擎与共情引擎;下表从功能、算法、指标到应用对齐三列分工。
| 维度 | VUA 世界模型(理解层中枢) | TurboCore(理识核 / 理智引擎) | AuraCore(共情核 / 情感引擎) |
|---|---|---|---|
| 功能定位 | 理解层中枢:物理 / 语义 / 场景 / 情感四层基座融合,支撑预测、规划与行动闭环。 | 算力底座:负责逻辑推理加速、任务拆解与成本优化。 | 感知前哨:负责环境情感建模、人机共情与隐私保护。 |
| 核心算法 | NPE 与可微物理、符号–神经语义、3D 场景图与拓扑、多模态情感张量与 ToM。 | Speculative Decoding(投机采样)、KV Cache 硬件优化。 | 多模态特征融合、微表情 / 声学非言语分析。 |
| 核心指标 | 跨场景迁移:物理与语义先验可复用,抽象表征降低域偏移。 | 2–3× 推理加速;50%+ Token 成本节省。 | <50ms 交互延迟;90%+ 隐私数据本地率。 |
| 交互价值 | 解决「是否理解世界、预测是否合理、规划是否可解释」的问题。 | 解决「快不快、省不省」的落地难题。 | 解决「懂不懂、暖不暖」的共情门槛。 |
| 隐私逻辑 | 场景知识解耦与语义屏障:高敏推理可端侧完成。 | 端云协同:数据不出端,仅上传脱敏特征向量。 | 物理隔离:原始信号瞬时销毁,仅输出情绪标签。 |
| 技术目标 | 构建可迁移的物理–语义–空间–情感统一理解基座。 | 实现边缘侧大模型的低成本、高效率普及。 | 打造具备「情感反射弧」的温情具身智能。 |
| 典型应用 | 工厂调度、家庭服务、医疗康养、教育心理等复杂物理与社会场景。 | 24/7 持久在线的边缘推理服务器。 | 心理健康筛查、智慧教育、适老化陪护。 |
Dual-core silicon
TurboCore 面向具身智能在物理世界中持续运行所需的「冷逻辑」——高效率、低时延、可审计的推理与 Token 经济学;AuraCore 则承担社会化生存所需的「热情感」与共情通道,使机器在与人共处时具备可解释的情绪反应与安全边界。
在系统结构上,这一组合对应于在硬件与运行时层面对「新皮质(Neocortex)与边缘系统(Limbic System)」协同的类比:一侧擅长序列推理、约束满足与端云协同;一侧专职情绪评估、应激检测与保护性动作触发;两核通过片上互连与统一数据面协同,而非简单把情感当作后处理插件。
| 特性 | TurboCore(理智核) | AuraCore(共情核) |
|---|---|---|
| 功能定位 | 逻辑推理、任务拆解、Token 压缩 | 情绪感知、共情反馈、隐私屏障 |
| 核心算法 | Speculative Decoding、KV Cache 优化 | 多模态特征融合、微表情时空分析 |
| 交互价值 | 解决「快不快、省不省」 | 解决「懂不懂、暖不暖」 |
| 隐私逻辑 | 脱敏特征上传云端 | 原始信号端侧销毁,仅输出标签 |
Strategy
「场景×数据×大脑」与「场景驱动大脑,大脑赋能本体」相互支撑:场景沉淀多模态数据,数据反哺世界模型,模型演化为通用具身大脑并指挥硬件闭环进化。随着场景大脑渗透加深,跨场景迁移能力持续提升,指向具身 AGI 的未来范式。
演进优先级示例:从教育 / 心理向养老与家庭迁移(情感感知与安全交互高度重合);从受控工厂环境向开放社区逐步放开物理变量,并由 TurboCore 保障端侧实时性。
流程 1
以真实产业场景锚定核心需求。
流程 2
以高质量多模态数据持续迭代培育模型。
流程 3
以通用智能大脑驱动硬件本体进化。