OpenAI秘而不宣的Q*到底是什么呢?
如果Q*真正存在,我认为它应该是OpenAI迈向AGI的关键。
当前LLM不能达到AGI的一个关键原因是:固步自封(字面意思)。人的大脑是一个训练与推理过程融为一体的神经网络,而当前的LLM训练与推理过程分离的,无法像人类一样灵活应对环境的变化。LLM的每次性能提升都是由一系列非常重量级的训练迭代过程,而人类大脑的可塑性随时都在进行升级迭代。
如果让AI进行自我训练迭代,必须具备非常清晰的全局激励目标,而非大量局部的梯度下降。而当前的LLM主要通过RLHF与人类对齐。这种需要大量专家人工参与的RLHF过程,成本高不说,其择优目标也非常主观和发散。对于人类的大脑来说,多巴胺能神经元(dopaminergic neuron),通过与自然选择目标高度对齐,实现了清晰明确的全局激励导向和目标。人类在自然界中有着巨大的生存压力,目标当然清晰明确。反观AI,它们统一一致的目标是什么呢?
AI自我迭代升级过程一定要具备极高的鲁棒性和容错能力,否则一旦出现诸如灾难遗忘等效应就前功尽弃,从而止步于AI复杂度的某个玻璃天花板。更别说AI陷入到某个邪恶方向的巨大风险。
再有就是,人类能够用于机器学习的数据已经近于枯竭。仅仅依靠人类智慧也许无法登顶AGI。因此,AI必须找到优质数据的生成方法,在人类世界和人类智慧之外学习更多知识。考察Alphago的发展历程,最初的版本是通过人类的棋局学习,人类历史上留下的棋局数据非常有限。于是Alpha Zero开始抛弃既有人类棋局信息,从0开始学习,最终不仅达到人类无法企及的高度,同样框架下训练学习了其他各种棋牌游戏。这个过程也许与AGI的进化过程类似。基于规则学习,基于世界模型学习,AI生成数据学习,元学习模式开始逐步被工程应用(比如最新的Tesla的自动驾驶方案)。
总结来说,Q*很可能是从Q-learning, DQN汲取灵感的一套改进型的深度学习框架。应该是具备了自启发,元学习,持续学习,以及类似大脑多巴胺网络的目标网络形成的稳定动作价值判定及激励机制。Q*可能会实现边推理边训练的持续演进能力,同时也能够不通过人类的既有知识,而是通过世界模型生成高质量数据的训练与推理机制。
Q*的实装也许标志着AGI时代的来临。
Comments
Post a Comment