在智能体的语言用开拓中,强化学习与狂语言模子 、先验学习视觉语言模子等根基模子的不同进一步融会事实能擦出奈何样的火花?google DeepMind 给了咱们新的谜底。
不断以来,强化DeepMind 引领了强化学习(RL)智能体的智能择走睁开,从最先的体D条通 AlphaGo 、AlphaZero 到其后的语言用多模态 、多使命 、先验学习多具身 AI 智能体 Gato,不同智能体的强化磨炼措施以及能耐都在不断演进。
从中不难发现 ,智能择走随着大模子越来越成为家养智能睁开的体D条通主流趋向,DeepMind 在智能体的语言用开拓中不断试验将强化学习与做作语言处置、合计机视觉规模融会,先验学习自动实现差距模态使命的不同不同。Gato 很好地剖析了这一点 。
克日,google DeepMind 在一篇新论文《Towards A Unified Agent with Foundation Models》中,品评辩说了运用根基模子打造不同的智能体。

一作 Norman Di Palo 为帝国理工学院机械学习博士生,在google DeepMind 实习时期(任职钻研迷信家)退出完老本论文。
论文地址 :https://arxiv.org/pdf/2307.09668.pdf
何谓根基模子(Foundation Models)呢 ?咱们知道,近些年来,深度学习取患了一系列使人瞩目的下场,特意在 NLP 以及 CV 规模实现突破。尽管模态差距,但具备配合的妄想,即大型神经收集,艰深为 transformer ,运用自把守学习措施在大规模收集数据集上妨碍磨炼。
尽管妄想重大,但基于它们开拓出了极其实用的狂语言模子(LLM),可能处置以及天生具备卓越类强人干的文本