
VLA 模型性能暴涨 300%铜川gj35钢绞线参数,背后训练数据还次实现 90% 由世界模型生成。
这是来自国产世界模型玩的新突破,相关模型代码和训练框架还全都开源了。
具身智能迈向开放世界落地的大瓶颈,长期以来并非算法本身,而是质量、大规模真实机器人交互数据的度稀缺。
gj35钢绞线参数真机数据采集成本昂、周期漫长,且难以覆盖多样化的开放场景,严重限制了 VLA 大模型的规模化训练与泛化能力。而传统仿真虽能快速生成数据,却受限于著的 Sim-to-Real gap,难以支撑真实世界的鲁棒部署。
世界模型(World Model)被认为是破解这一困境的关键:通过学习真实世界的规律,世界模型可以生成保真、可控、多样化的具身交互数据,突破真机数据不足的限制。
在此背景下,刚刚获得华为投资的国产世界模型公司佳视界发布并开源具身世界模型GigaWorld-0,成功将世界模型生成数据在 VLA 训练中的占比提升至 90%。
所训练的 VLA 模型在新纹理(训练中未见材质表面)、新视角(训练中未见的观测角度)、新物体位置(训练中未见的空间布局)三大泛化维度上均实现近 300% 的性能提升,标志着具身智能正式迈入"数据、泛化、低成本"的新阶段。
作为具身智能迈向规模化与数据的关键基础设施,GigaWorld-0 由两大协同组件构成:
GigaWorld-0-Video 基于生成基座模型,生成纹理丰富、视觉逼真具身操作数据;
GigaWorld-0-3D 则融合 3D 生成、3D Gaussian Splatting 重建、可微分物理引擎,确保生成数据在几何结构与物理动力学的准确性。
的世界模型架构
针对当前世界模型在生成时面临的计算率低、细节控制不足等挑战,GigaWorld-0-Video 提升了稀疏注意力建模能力与动态专计算能力,在保持视觉保真度的同时著降低计算开销,为 VLA 模型提供质量、可扩展的合成训练数据。
稀疏注意力机制:建模长程时空依赖
GigaWorld-0-Video 采用基于稀疏注意力的 Diffusion Transformer(DiT)作为生成主干,摒弃传统全注意力带来的平计算复杂度。
该机制仅在局部时空邻域与关键语义区域间建立注意力连接,从而在生成帧率、长序列时,著降低内存占用与理延迟。
MoE 架构:提升生成多样性与可控性
在 DiT 的前馈网络模块中,GigaWorld-0-Video 参考 DeepSeek V3 集成混合专(Mixture-of-Experts,MoE)架构。
每个 Token 动态路由至多个专网络。确保不同语义区域由专属专处理,实现细粒度的内容控制。
几何一致、物理准确的世界模型建模铜川gj35钢绞线参数
GigaWorld-0-3D 通过融合生成与重建技术,著提升了在稀疏观测条件下的场景建模能力,并结合可微分物理引擎,实现了对机械臂操作过程的保真物理仿真。
该系统不仅生成几何一致、视觉逼真的静态背景资产,还复现了机械臂与物体交互中的动力学行为,为具身智能体提供兼具几何一致性与物理准确性的训练数据。
生成式重建:几何一致性与视觉保真度的协同化
在几何一致性渲染面,GigaWorld-0-3D 融合佳视界积淀的生成式重建技术,有突破稀疏观测下的建模瓶颈。
系统先基于稀疏输入视图,初始化斯场景表示。随后引入专用的视图修复生成模型,著缓解因视角缺失导致的几何扭曲。终,将修复后稠密、一致的多视角图像作为增强输入,驱动二阶段的精度 3DGS 重建,从而在新视角合成中同时保障几何一致性与视觉保真度。
可微分物理引擎:的物理建模
在物理准确性建模面,GigaWorld-0-3D 引入基于物理信息神经网络(PINNs)的可微分物理引擎,实现对机械臂动力学的自动参数辨识。
通过三步流程:以随机物理参数生成仿真轨迹、训练可微替代模型逼近系统动力学、再以梯度下降化参数匹配真实运动,生成物理合理、交互可信的数据。
世界模型训练框架
GigaWorld-0 是业内个采用 FP8 精度端到端训练的世界模型,标志着世界模型训练迈入能新阶段。
通过将 FP8 与稀疏注意力度结合,锚索GigaWorld-0 在保持生成质量的同时,著降低存占用与训练成本,实现了视觉保真度与计算率的佳平衡。
为这一突破提供基础的,是佳视界自研的 GigaTrain 训练框架。
GigaTrain 是一个为大规模生成模型量身打造的统一分布式训练系统,支持 DeepSpeed ZeRO、FSDP2、FP8 混合精度、梯度检查点等训练技术,既可支撑大规模预训练,也能在 8 × H20 等常规硬件上完成微调。
GigaTrain 现已开源(GitHub:https://github.com/open-gigaai/giga-train),佳视界还同步开放了详细的资源消耗基准与配置模板,助力社区开发者快速复现、迁移并定制 GigaWorld-0,动具身智能数据生成的普惠化与标准化。
可泛化具身数据引擎
在 PBench(Robot Set)基准上,研究团队将 GigaWorld-0 与当前的世界模型进行了对比,包括 Cosmos-Predict2-14B、Cosmos-Predict2.5-2B、Wan2.2-5B 和 Wan2.2-14B。
尽管 GigaWorld-0 模型仅激活 20 亿参数(2B),为所有对比模型中小,却在整体评分上著先,取得性能。
这一结果证明 GigaWorld-0 在具身智能任务中兼具生成质量与理率,是目前具性价比的世界模型案。
GigaWorld-0 的价值还不仅体现在质量与 3D 场景的生成能力上,关键的是其作为可泛化具身数据引擎在真实世界中的有性。
在 VLA 模型 GigaBrain-0 上,研究团队系统性地验证了 GigaWorld-0 生成数据对下游具身智能任务的提升作用。实验在真实机器人平台上进行,聚焦三大开放世界泛化挑战:新纹理泛化、新视角泛化、与新物体位置泛化。
结果表明:随着 GigaWorld-0 生成数据在训练混合数据中比例的提升,GigaBrain-0 在上述三类泛化场景下的任务成功率与动作精度均呈现著且稳定的增长趋势。
项目链接:
https://giga-world-0.github.io/
论文链接:
https://arxiv.org/pdf/2511.19861
代码链接:
https://github.com/open-gigaai/giga-world-0
关于佳视界
佳视界成立于 2023 年,是国内"纯"物理 AI 公司——创业就以世界模型为切入点,专注于「世界模型平台 x 具身基础模型」,致力以双轮闭环走向物理世界通用智能。
在「世界模型」向,佳视界是国内技术创新和产业落地的跑者,相关产品技术已广泛应用于自动驾驶、具身智能、内容创作等相关向。
在「具身大脑」向,佳视界通过全球先的「世界模型平台」提供大规模质量闭环数据,相比纯真机数据训练率提升 1-2 个数量以上,同时真机果达到国内先。
佳视界的创始人兼 CEO 黄冠,是清华大学自动化系 AI 向博士。曾担任地平线机器人视觉感知技术负责人、鉴智机器人合伙人 & 算法总裁等知名企业技术和管岗位,并拥有三星研究院、微软亚洲研究院等研究机构工作经历。
黄冠之外,联合创始人、席科学朱政同样有清华自动化系背景。他 2019 年博士毕业于科学院自动化研究所,此后在清华大学自动化系从事博士后研究。Google Scholar 示,朱政的论文被引数达到 1.7w+,h-index 为 50。
公司核心团队还包括清华、北大、中科院、中科大、WashU、CMU 等全球知名院校研究人员,以及来自微软、三星、地平线、百度、博世、NBC 环球影业等全球知名企业管,核心团队兼具业内先的研究能力和大规模的产业落地经验。
目前,佳视界是国内少有在「世界模型」和「具身大脑」向都拥有世界综合实力的团队,在自动驾驶世界模型向已经和多个头部主机厂达成签约合作,在具身世界模型、具身大脑等向已经和多个具身本体、终端公司达成签约合作,应用于科研、教育、展览、数据采集、工业、服务、庭等多个场景。
就在 11 月,佳视界刚刚完成亿元 A1 轮融资,由华为哈勃、华控基金联合投资。这也是该公司两个月内连续完成的三轮融资。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见铜川gj35钢绞线参数