【导(dǎo)语(yǔ)】在(zài)8月(yuè)9日(rì)举(jǔ)行(xíng)的(de)北(běi)京(jīng)世(shì)界(jiè)机(jī)器(qì)人(rén)大会上,宇树科技创始人、CEO王兴兴指出,当前智能机器人大规模应用的最大技术障碍在于AI模型的不足。他对常用的VLA模型架构表示怀疑,认为其数据采集质量和数量均不足,需进一步升级(jí)优(yōu)化(huà)。王(wáng)兴(xìng)兴(xìng)提(tí)出(chū),只(zhǐ)有(yǒu)当(dāng)机(jī)器(qì)人(rén)能(néng)在(zài)未(wèi)知(zhī)环(huán)境(jìng)中(zhōng)自(zì)主顺(shùn)畅(chàng)完(wán)成(chéng)任(rèn)务(wu)时(shí),才(cái)接(jiē)近(jìn)“GPT时(shí)刻(kè)”。同(tóng)时(shí),他(tā)评(píng)估(gū)了(le)谷(gǔ)歌(gē)新(xīn)发(fā)布(bù)的Veo 3视频生成模型,认为其技术路线虽有潜力,但仍面临挑战。王兴兴强调,未来两到五年,机器人技术核心将是端到端的具身智能AI模型,而提升机器人模仿学习能力、解决Scaling law将是关键研究方向。 8月9日,宇树科技创始人、CEO王兴兴在北京举行的世界机器人大会上,谈及当前智能机器人暂时还没得到大规模应用的技术障碍时表示,最大的挑战是模型。“现在对具身智能和机器人来说,AI模型完全不够用,这也是限制当前人形机器人大规模应用最大的卡点。”此外,王兴兴对目前机器人公司选择的常用技术路线VLA模型架构持怀疑态度。 王兴兴在2025世界机器人大会上的发言 VLA模型指的是Vision-Language-Action Model(视觉-语言-动作模型),可以把它理解为——让机器“看得懂、听得懂,并且能动起来”的一种AI模型,强调像人一样,从感知环境到自主决策并采取一定的行动(dòng)。 王(wáng)兴(xìng)兴(xìng)认(rèn)为(wèi),对(duì)于(yú)VLA模(mó)型(xíng),目(mù)前(qián)在(zài)真(zhēn)实(shí)世(shì)界(jiè)交(jiāo)互(hù)中(zhōng),数(shù)据(jù)采集的(de)质(zhì)量(liàng)和(hé)数(shù)量(liàng)都(dōu)不(bù)足(zú),即(jí)便(biàn)在(zài)VLA模(mó)型基础上加入Reinforcement Learning(强化学习训练),仍不够用,模型本身还需要进一步升级和优化。 “目前机器人大模型类似于处在ChatGPT出来前的一到三年。”王兴兴称。 什么时候才能达到机器人GPT时刻? 王兴兴认为,如果有一天,我们带一台机器人到一个它此前从未去过的环境,随便给它一个指令,譬如“把这瓶水递给某位(wèi)观(guān)众(zhòng)”或(huò)“帮(bāng)忙(máng)整(zhěng)理(lǐ)一(yī)下(xià)这(zhè)个(gè)房(fáng)间(jiān)”,它(tā)就(jiù)能(néng)顺(shùn)畅(chàng)、自(zì)主地(de)完(wán)成(chéng)任(rèn)务(wu)。那(nà)时(shí)就(jiù)接(jiē)近(jìn)机(jī)器(qì)人(rén)的(de)“GPT时(shí)刻(kè)”了。 今年5月,谷歌在I/O 开发者大会上正式发布了新的世界模型Veo 3,这是其首款能够同步(bù)生(shēng)成(chéng)音(yīn)效(xiào)(包(bāo)括(kuò)环(huán)境(jìng)音(yīn)与(yǔ)对(duì)话(huà))的(de)AI视(shì)频(pín)生(shēng)成(chéng)模(mó)型(xíng)。 王(wáng)兴(xìng)兴(xìng)认(rèn)为(wèi),谷(gǔ)歌(gē)这(zhè)条(tiáo)视(shì)频(pín)生(shēng)成(chéng)路线(xiàn)技(jì)术的收敛速度和成功概率可能会比VLA模型更高,但仍然面临还有很多挑战。其中一个主要问题是,视频生成模型过于关注画质,导致GPU消耗非常大。 另外,王兴兴指出,目前还面临的一个大问题是,如果要进一步提升机器人模仿学习的能力,必须解决Scaling law,而这一点目前行业做得并不好。“最简单的例子是,当我训练机器人执行一个新动作,比如学一支新舞或完成一项新任务时,往往需要从零开始训练,这非常低效。理想情况下,新的训练应该基于已有训练成果,让训练速度越来越快,学习新技能的效果越来越好。” 王兴兴指出,这是一个非常值得深入研究的方向,Scaling law在语言模型上的成功已经得到验证,但在机器的运动控制上,大家做的还只是刚刚开始,他建议可以关注这方面的研究。 王兴兴表示,在未来两到五年,除了更低成本、更高寿命的硬件之外,机器人的技术核心仍将是端到端的具身智能AI模型。