Copyright 2019-2026 微推堂 版权所有 京ICP备2019123967号
6月26日讯 日前,谷歌宣布推出“自家最强大的视觉-语言-动作(VLA)模型”Gemini Robotics On-Device,作为一款面向双臂(16.800, -0.19, -1.12%)的通用基础模型,Gemini Robotics On-Device专为减少计算资源消耗而设计。
其具备通用灵巧操作能力和任务泛化能力,即支持灵巧操作任务的快速实验、可通过微调适应新任务,以提升性能。
更重要的是,这款模型可以完全在机器人设备本地离线运行。谷歌表示,由于运行时无需依赖数据网络,这一模型非常适用于对延迟敏感的应用场景,并能在网络连接不稳定甚至完全中断的环境中稳定运行——换言之,即使是在完全断网的情况下,搭载这款模型的机器人设备也能做到“看得见、听得懂、做得了”。
Gemini Robotics On-Device在多种测试场景中实现了强大的视觉、语义和行为泛化能力,能理解自然语言指令,并完成拉开拉链、折叠衣物等高灵巧度任务。