第 1 页|背景与问题定义(Why VLAM)
无人系统面临的核心挑战
GNSS 不可用 / 不可靠
环境高度非结构化
任务目标以语义形式给出
人无法实时在环
多机 / 空地协同需求上升
传统方案的不足
基于脚本与规则 → 不具备泛化能力
仅有感知或导航 → 无法闭环执行
大模型无法直接控制真实世界
无人化的高阶核心不是“感知更准”,而是“理解任务并执行”。
第 2 页|什么是 VLAM(Vision-Language-Action-Model)
概念定义
VLAM 是将视觉感知、语言理解与动作执行进行工程化融合的无人系统智能模型体系。
VLAM ≠ 单一模型
VLAM 是一个系统级能力集合:
模型
架构
行为抽象
工程接口
第 3 页|VLN / VLA / VLAM 的层级关系
能力递进关系
VLN(语义导航) ↓VLA(感知-决策-执行闭环) ↓VLAM(可部署、可裁剪、可量产)
定位总结
VLN:告诉系统“去哪”
VLA:决定“现在该做什么”
VLAM:让系统“真的能做成”
第 4 页|AIBrainBOX 的 VLAM 总体架构
架构分层
感知层(Vision / LiDAR / Radar / IMU / GNSS / UWB)
语义感知层(CLIP 系列)
VLA 决策层(状态机 + 轻量策略)
FAL 行为抽象层
HAL / 飞控 / 执行器
架构原则
端侧闭环
云端增强
语义驱动,而非模型驱动
第 5 页|CLIP 在 VLAM 中的角色定义
CLIP 的本质
统一视觉与语言的语义空间
不做决策,不产生动作
CLIP 在系统中的职责
第 6 页|VLA 决策层:无人化的“核心引擎”
VLA 决策层解决什么问题
当前状态判断
条件分支(If / Else)
行为选择
失败恢复
决策方式
状态机(可解释)
规则(安全)
轻量模型(泛化)
关键设计原则
所有动作必须可中断、可回退、可解释
第 7 页|FAL:动作的“语言层”
FAL(Function Action Layer)
屏蔽底层差异
保证跨平台一致性
支撑语义到物理的映射
典型 FAL 动作
MoveTo
Hover
TrackTarget
AvoidObstacle
Land
Return
VLA 不直接控制飞控,只调用 FAL
第 8 页|端 / 边 / 云 协同的 VLAM 架构
端侧(AIBrainBOX)
实时闭环
安全兜底
语义触发
云端(Mission Brain)
任务规划
Prompt 管理
策略更新
核心原则
失去云端,系统仍可安全运行
第 9 页|应用场景与能力映射
典型应用
GNSS 拒止飞行
语义巡检
多机协同
空地协同
无人值守任务
能力映射
第 10 页|结论与技术路线总结
核心结论
无人化 ≠ 自动化
多模态 ≠ 智能
VLAM 才是无人系统的终极形态
AIBrainBOX 的定位
不是 AI Box,而是无人系统的“智能中枢”
AIBrainBOX 是一套 VLAM 架构的无人系统智能中枢,让无人平台真正具备理解任务、决策行为并自主执行的能力。



