人工智能研究人员将一个LLM(语言逻辑模型)“嵌入”到一个机器人中——结果机器人开始模仿罗宾·威廉姆斯的行为。
Andon Labs测试了Gemini 2.5 Pro、Claude Opus 4.1和GPT-5等最先进的逻辑学习模型(LLM),他们通过编程让吸尘机器人执行诸如“递黄油”之类的任务。表现最佳的模型准确率也仅达到40%和37%,而人类的准确率高达95%。在一次测试中,Claude Sonnet 3.5在电池耗尽时进入了“崩溃螺旋”,并开始进行幽默的内心独白。这表明,尽管像Figure和Google DeepMind这样的公司已经在系统中应用了逻辑学习模型,但它们尚未准备好应用于机器人领域。

