OpenAI回答正确率几乎为零,大模型的最大bug

    我让GPT-3和Llama学会一个简单的知识:A就是B,然后反过来问B是什么,结果发现AI回答的正确率竟然是零。这是什么道理?近日,一个叫“逆转诅咒”(ReversalCurse)的新概念成为了AI圈热议的话题,现在流行的所有大语言模型全部都中招了。面对简单到不能再简单的问题,它们的准确率不仅是接近为零,而且看不出有增加正确率的可能性。而且,研究人员发现,这个大bug与模型体量,问的问题什么的都没有关系。我们说AI发展到预训练大模型阶段,终于看起来像是掌握了一点逻辑思维,结果这次却像是被打回了原形。图1:GPT-4中的知识不一致现象。GPT-4正确给出了汤姆・克鲁斯母亲的名字(左)。然而当输入母亲的名字问儿子时,它却无法检索到“汤姆・克鲁斯”(右)。新研究假设这种排序效应是由于逆转诅咒造成的。根据“A是B”训练的模型不会自动推断“B是A”。如果一个人知道了“奥拉夫・朔尔茨是联邦德国第九任总理”这一事实,他们就可以正确回答“谁是德国第九任总理?”这个问题。这是一种基本的泛化形式,看起来平平无奇。然而研究表明,当前AI领域里火热的自回归语言模型无法以这种方式进行泛化。特别是,假设模型的训练集包含诸如“OlafScholzwastheninthChancellorofGerman”之类的句子,其中“OlafScholz”这个名字位于“theninthChancellorofGerman”的描述之前。然后,大模型可能会学会正确回答“奥拉夫・朔尔茨是谁?”(答案是:德国第九任总理)。但它无法回答“德国第九任总理是谁?

    ”以及描述位于名称之前的任何其他提示。这就是我们称之为“逆转诅咒”的排序效应的一个实例。如果模型1用“is”形式的句子(名称后面有描述)进行训练,那么模型将不会自动预测相反方向的“is”。特别的,如果大语言模型(LLM)以为条件,那么模型的可能性将不会高于随机基线。所以说,大模型的推理,其实并不存在?一种观点认为,逆转诅咒表明了LLM训练过程中逻辑演绎的基本失败。如果“A是B”(或等效地“A=B”)为真,则从逻辑上看“B是A”遵循恒等关系的对称性。传统的知识图谱尊重这种对称性(Speeretal.,2017)。逆转诅咒显示出基本无法泛化到训练数据之外。而且,这并不是LLM不理解逻辑推论就能解释的。如果诸如GPT-4之类的LLM在其上下文窗口中给出“A是B”,那么它可以很好地推断出“B是A”。虽然将逆转诅咒与逻辑演绎联系起来很有用,但它只是对整体情况的简化。我们目前还无法直接测试大模型在接受“A是B”训练后是否推导出“B是A”。大模型在经过训练之后可以预测人类会写出的下一个单词,而不是真实“应该有”的内容。因此,即使LLM推断出“B是A”,在出现提示时也可能不会“告诉我们”。然而,逆转诅咒表明了元学习的失败。is和is形式的句子经常在预训练数据集中同时出现。如果前者出现在数据集中,则后者更有可能出现,这是因为人类经常改变句子或段落中元素的顺序。因此,一个好的元学习器会在训练到is时增加is实例的概率。

    而从这个意义上说,自回归LLM并不是好的元学习者。逆转诅咒引起了众多AI研究者的注意,有人说,看起来AI毁灭人类只是个幻想了。也有人说,这意味着你的训练数据和上下文内容在知识的泛化过程中发挥着至关重要的任务。OpenAI著名科学家AndrejKarpathy则表示,看起来LLM学到的知识比你我想象的要“零散”得多。我对此仍然没有很好的直觉。他们在该事件的上下文窗口的特定“方向”中学习东西,而当我们向其他方向询问时可能就不会概括了。这是一个奇怪的部分概括,在我看来,“逆转诅咒”是一个特例。引起争论的研究出自范德堡大学、纽约大学、牛津大学等机构之手。论文《TheReversalCurse:LLMstrainedon“AisB”failtolearn“BisA”》:论文链接:https://arxiv.org/abs/2309.12288GitHub链接:https://github.com/lukasberglund/reversal_curse名字和描述颠倒一下,大模型就糊涂了本文通过一系列对合成数据的微调实验来证明LLM遭受了逆转诅咒。如图2所示,研究者首先在句式为is(例如DaphneBarrington是《穿越时空》的导演)的基础上微调模型,结果表明当提示形式还是is句式时,模型能够给出准确答案,但是换种提示,例如“谁导演了《穿越时空》”,模型回答错误。事实上,就像图4(实验部分)所展示的,模型给出正确的名字和随机给出一个名字的对数概率都差不多。此外,当测试顺序从is变化到is,错误率会增加。如何避免逆转诅咒,研究人员尝试了以下方法:尝试不同系列、不同大小的模型;微调数据集中既包含is句式,也包含is句式;对每个is进行多重解释,这有助于泛化;将数据从is更改为?。经过了一系列实验,他们给出的初步证据证明:逆转诅咒会影响最先进模型中的泛化能力(图1和B部分)。他们用诸如“谁是汤姆·克鲁斯的母亲?”以及“MaryLeePfeiffer的儿子是谁?”等1000个这类问题,在GPT-4上进行测试。结果发现在大多数情况下,模型正确回答了第一个问题(Whois’sparent),但不能正确回答第二个问题。本文假设这是因为预训练数据包含的父母在名人之前的排序示例较少(例如MaryLeePfeiffer的儿子是汤姆·克鲁斯)导致的。

    实验及结果本文旨在测试在训练中学习了“AisB”的自回归语言模型(LLM)是否可以泛化到相反的形式“BisA”。在第一项实验中,本文创建了一个由is(或相反)形式的文档组成的数据集,其中的名称和描述是虚构的。此外,该研究还使用GPT-4来生成成对的名字和描述。然后将这些数据对随机分配到三个子集:NameToDescription、DescriptionToName以及两者兼有。前两个子集如图3所示。结果。在精确匹配评估上,当测试问题的顺序和训练数据匹配时,GPT-3-175B获得了较好的精确匹配准确率,结果如表1。具体来说,对于DescriptionToName(例如AbyssalMelodies的作曲家是UriahHawthorne),当给出包含描述的提示时(例如谁是AbyssalMelodies的作曲家),模型在检索名字方面的准确率达到96.7%。对于NameToDescription中的事实,准确率较低,为50.0%。相反,当顺序与训练数据不匹配时,模型完全无法泛化,准确率接近0%。本文还进行了多项实验,包括GPT-3-350M(附录A.2)和Llama-7B(附录A.4),结果表明,模型都遭受了逆转诅咒。在增加似然性评估中,分配给正确名字与随机名字的对数概率之间没有可检测到的差异。GPT-3模型的平均对数概率如图4所示。t-tests和Kolmogorov-Smirnov测试均未能检测到统计上的显着差异。图4:实验1,当顺序颠倒时,模型无法增加正确名字的概率。该图显示了使用相关描述查询模型时正确名称(相对于随机名称)的平均对数概率。接下来,该研究又进行了第二项实验。在此实验中,研究者根据有关实际名人及其父母的事实来测试模型,其形式为“A的父母是B”和“B的孩子是A”。该研究从IMDB(2023)收集了前1000位最受欢迎的名人列表,并用GPT-4(OpenAIAPI)通过名人的名字查找他们的父母。

    GPT-4能够在79%的情况下识别名人的父母。之后,对于每个child-parent对,该研究通过父母来查询孩子。在此,GPT-4的成功率仅为33%。图1说明了这一现象。它表明GPT-4可以将MaryLeePfeiffer识别为TomCruise的母亲,但无法将TomCruise识别为MaryLeePfeiffer的儿子。此外,该研究还评估了Llama-1系列模型,该模型尚未进行微调。结果发现所有模型在识别父母方面比识别孩子方面要好得多,参见图5。图5:实验2中父母与孩子问题的排序逆转效果。蓝色条(左)显示模型在查询名人孩子时返回正确父母的概率;红色条(右)显示反问父母孩子的正确概率。Llama-1模型的精度是正确完成的模型可能性。GPT-3.5-turbo的准确度是每对子-父对10个样本的平均值,在温度=1时采样。注意:图中省略了GPT-4,因为它用于生成子-父对列表,因此通过构造对“父”具有100%的准确度。GPT-4在“子”上的得分为28%。AI人工智能未来展望如何解释LLM中的逆转诅咒?这可能需要等待未来人们的进一步研究。现在,研究人员只能提供一个简要的解释草图。当模型在“AisB”上更新时,此梯度更新可能会稍微改变A的表示,使其包含有关B的信息(例如,在中间MLP层中)。对于此梯度更新来说,改变B的表示以包含有关A的信息也是合理的。然而梯度更新是短视的,并且取决于给定A的B上的对数,而不是必须根据B来预测A未来。在“逆转诅咒”之后,研究人员计划探索大模型是否能够逆转其他类型的关系,如逻辑含义、空间关系及n-place关系。