我让GPT-3和Llama学会一个简单的知识:A就是B,然后反过来问B是什么,结果发现AI回答的正确率竟然是零。这是什么道理?近日,一个叫“逆转诅咒”(ReversalCurse)的新概念成为了AI圈热议的话题,现在流行的所有大语言模型全部都中招了。面对简单到不能再简单的问题,它们的准确率不仅是接近为零,而且看不出有增加正确率的可能性。而且,研究人员发现,这个大bug与模型体量,问的问题什么的都没有关系。我们说AI发展到预训练大模型阶段,终于看起来像是掌握了一点逻辑思维,结果这次却像是被打回了原形。图1:GPT-4中的知识不一致现象。GPT-4正确给出了汤姆・克鲁斯母亲的名字(左)。然而当输入母亲的名字问儿子时,它却无法检索到“汤姆・克鲁斯”(右)。新研究假设这种排序效应是由于逆转诅咒造成的。根据“A是B”训练的模型不会自动推断“B是A”。如果一个人知道了“奥拉夫・朔尔茨是联邦德国第九任总理”这一事实,他们就可以正确回答“谁是德国第九任总理?”这个问题。这是一种基本的泛化形式,看起来平平无奇。然而研究表明,当前AI领域里火热的自回归语言模型无法以这种方式进行泛化。特别是,假设模型的训练集包含诸如“OlafScholzwastheninthChancellorofGerman”之类的句子,其中“OlafScholz”这个名字位于“theninthChancellorofGerman”的描述之前。然后,大模型可能会学会正确回答“奥拉夫・朔尔茨是谁?”(答案是:德国第九任总理)。但它无法回答“德国第九任总理是谁?
”以及描述位于名称之前的任何其他提示。这就是我们称之为“逆转诅咒”的排序效应的一个实例。如果模型1用“is”形式的句子(名称后面有描述)进行训练,那么模型将不会自动预测相反方向的“is”。特别的,如果大语言模型(LLM)以为条件,那么模型的可能性将不会高于随机基线。所以说,大模型的推理,其实并不存在?一种观点认为,逆转诅咒表明了LLM训练过程中逻辑演绎的基本失败。如果“A是B”(或等效地“A=B”)为真,则从逻辑上看“B是A”遵循恒等关系的对称性。传统的知识图谱尊重这种对称性(Speeretal.,2017)。逆转诅咒显示出基本无法泛化到训练数据之外。而且,这并不是LLM不理解逻辑推论就能解释的。如果诸如GPT-4之类的LLM在其上下文窗口中给出“A是B”,那么它可以很好地推断出“B是A”。虽然将逆转诅咒与逻辑演绎联系起来很有用,但它只是对整体情况的简化。我们目前还无法直接测试大模型在接受“A是B”训练后是否推导出“B是A”。大模型在经过训练之后可以预测人类会写出的下一个单词,而不是真实“应该有”的内容。因此,即使LLM推断出“B是A”,在出现提示时也可能不会“告诉我们”。然而,逆转诅咒表明了元学习的失败。is和is形式的句子经常在预训练数据集中同时出现。如果前者出现在数据集中,则后者更有可能出现,这是因为人类经常改变句子或段落中元素的顺序。因此,一个好的元学习器会在训练到is时增加is实例的概率。
而从这个意义上说,自回归LLM并不是好的元学习者。逆转诅咒引起了众多AI研究者的注意,有人说,看起来AI毁灭人类只是个幻想了。也有人说,这意味着你的训练数据和上下文内容在知识的泛化过程中发挥着至关重要的任务。OpenAI著名科学家AndrejKarpathy则表示,看起来LLM学到的知识比你我想象的要“零散”得多。我对此仍然没有很好的直觉。他们在该事件的上下文窗口的特定“方向”中学习东西,而当我们向其他方向询问时可能就不会概括了。这是一个奇怪的部分概括,在我看来,“逆转诅咒”是一个特例。引起争论的研究出自范德堡大学、纽约大学、牛津大学等机构之手。论文《TheReversalCurse:LLMstrainedon“AisB”failtolearn“BisA”》:论文链接:https://arxiv.org/abs/2309.12288GitHub链接:https://github.com/lukasberglund/reversal_curse名字和描述颠倒一下,大模型就糊涂了本文通过一系列对合成数据的微调实验来证明LLM遭受了逆转诅咒。如图2所示,研究者首先在句式为is
实验及结果本文旨在测试在训练中学习了“AisB”的自回归语言模型(LLM)是否可以泛化到相反的形式“BisA”。在第一项实验中,本文创建了一个由
GPT-4能够在79%的情况下识别名人的父母。之后,对于每个child-parent对,该研究通过父母来查询孩子。在此,GPT-4的成功率仅为33%。图1说明了这一现象。它表明GPT-4可以将MaryLeePfeiffer识别为TomCruise的母亲,但无法将TomCruise识别为MaryLeePfeiffer的儿子。此外,该研究还评估了Llama-1系列模型,该模型尚未进行微调。结果发现所有模型在识别父母方面比识别孩子方面要好得多,参见图5。图5:实验2中父母与孩子问题的排序逆转效果。蓝色条(左)显示模型在查询名人孩子时返回正确父母的概率;红色条(右)显示反问父母孩子的正确概率。Llama-1模型的精度是正确完成的模型可能性。GPT-3.5-turbo的准确度是每对子-父对10个样本的平均值,在温度=1时采样。注意:图中省略了GPT-4,因为它用于生成子-父对列表,因此通过构造对“父”具有100%的准确度。GPT-4在“子”上的得分为28%。AI人工智能未来展望如何解释LLM中的逆转诅咒?这可能需要等待未来人们的进一步研究。现在,研究人员只能提供一个简要的解释草图。当模型在“AisB”上更新时,此梯度更新可能会稍微改变A的表示,使其包含有关B的信息(例如,在中间MLP层中)。对于此梯度更新来说,改变B的表示以包含有关A的信息也是合理的。然而梯度更新是短视的,并且取决于给定A的B上的对数,而不是必须根据B来预测A未来。在“逆转诅咒”之后,研究人员计划探索大模型是否能够逆转其他类型的关系,如逻辑含义、空间关系及n-place关系。