2025-07-23
在人工智能加速邁向物理世界的浪潮中,具身智能正成為驅動機器人技術演進的核心動力。它不僅要求機器人具備對環境的感知和理解能力,更要求其能據此做出連續、合理、精準的物理行為。“物理Al(Physica AI)”新概念的出現,強調未來AI不應止步于認知理解,更應“動起來、干實事”。這一理念為具身智能提供了明確的發展方向,也對數據、模型與交互系統提出更高要求。
天娛數科子公司智境云創基于VLA(Vision-Language-Action)模型構建了一套數據采集與行為生成方案,并全面集成于自研Behavision空間智能 MaaS平臺。該方案從感知、語言理解到動作控制形成閉環,為機器人在復雜環境中實現類人交互、泛化執行與自主決策提供新型底層能力。

TOP 01
感知一語言一行為融合
VLA模型構建智能控制新范式
VLA模型作為當前多模態AI的技術前沿,融合視覺圖像、自然語言和動作控制三種模態信息,打通從感知輸入到控制輸出的全鏈路通道。智境云創基于該架構搭建的具身智能行為生成引擎,讓機器人從圖像中理解場景,從語音中識別意圖,并將兩者共同轉化為可執行的動作序列,完成如“拿起水杯”、“打開抽屜”等多階段任務。
相較于傳統感知-推理-控制的離散模塊式設計,VLA模型具備更強的上下文感知能力和任務泛化能力,能在服務、工業、教育等多場景下應對非結構化環境和自然語言指令,實現從“看懂”到“行動”的知行合一能力躍遷。

TOP 02
多源數據采集體系
依托Behavision空間智能MaaS平臺,智境云創構建“感知—推理—執行”全鏈路的數據采集體系,形成具身智能行為學習的認知基座。平臺集成毫米級高精度3D掃描設備、雙目視覺系統與自研算法矩陣,能夠高效采集環境結構、物體屬性、語言指令與機器人動作等多源異構數據。通過端云協同的數據處理框架,可實時完成點云重建、語義解析、軌跡還原與多模態對齊,確保采集數據在空間、時間和語義維度的高一致性。該體系不僅顯著提升多模態數據的質量和效率,也為后續VLA模型訓練與策略遷移提供了高質量訓練樣本,加快模型從數據到控制的收斂速度。
隨著“物理AI”理念的實踐推進,智境云創將持續拓展Behavision平臺在空間智能、具身智能等領域的能力邊界。未來,將進一步打通3D鉸接數據體系與VLA模型的融合機制,構建統一的“認知—語義—行為”圖譜,為具身機器人提供面向真實世界的通用智能操作系統,加速行業邁向機器人“安卓時刻”。