扩大语言模型的规模已被证明可以提高性能并释放出新的能力。或许,也存在某些任务的结果会因模型规模的增加反而变得糟糕。这类任务被称为 Inverse Scaling,它们可以指示出训练数据或优化目标是否存在某种缺陷。

本文着眼于这些Inverse Scaling任务。作者评估了多达540B参数的模型,其训练计算量是Inverse Scaling Prize中评估的五倍。通过增加模型大小和训练计算量的范围,只有11个任务中的4个仍然是反比例缩放。其中11项任务中有6项表现出我们所谓的“U形缩放”—性能先是随着模型规模增大降到一定程度,然后随着模型的增大性能再次上升(剩余一项任务显示正向缩放)。

方法

在论文中,作者对这11个任务的缩放表现进行了详细研究。结果如下:

所有11项任务的PaLM结果如上图所示,可以看到在PaLM 540B模型后,11项任务中的只有4项保持反比例缩放。其中6个任务从反比例缩放变为U形曲线,而一个任务(Repetitive Algebra)则显示出与PaLM正相关的趋势。这种广泛出现U形缩放曲线说明将反比例缩放曲线外推到更大模型是困难的。

我们还注意到,U形缩放的存在并不意味着这些任务已经解决了,因为有几个任务显示出U形缩放但最佳性能仍然比随机差。未来的工作可以探讨如何在所有反比例缩放任务上实现超过随机水平的表现。此外,在zero-shot设置下仍保持反比例缩放状态的四个任务值得进一步研究,即使CoT或少量示范可以将它们转化为U形或正向缩放情况考虑到zero-shot是下游用户交互中最常见预期场景之一。

U形缩放结果的一个自然问题是,为什么性能会先降低再增加?一种推测性假设如下。每个反比例缩放奖励任务可以分解为两个任务:(1)“真正的任务”和(2)“干扰任务”,在这些干扰任务中表现良好会损害真正的任务表现。小型模型无法执行任何一个任务,并且表现接近于随机猜测。中等大小的模型可以执行干扰任务,这导致与较小模型相比更差的性能。大型模型能够忽略干扰任务并执行真正的任务,从而导致提高性能并潜在地解决该问题。下图中描述了一些反比例缩放任务可能存在的干扰任务,虽然可能只对干扰任务进行测试以衡量模型在其上面的表现,但这将是不完美的消融实验,因为干扰任务和真正的目标不仅具有竞争关系还具有联合效应影响着性能。我们将进一步探讨U形缩放发生原因作为未来工作留待后续阐述。

接下来,作者探索了使用不同类型 prompt 时,Inverse Scaling 奖的 4 个任务的缩放是如何变化的。虽然 Inverse Scaling 奖的发起者使用了基本的 prompt 策略,即在指令中包括少样本, chain-of-thought(CoT)激励模型在给出最终答案之前输出中间步骤,这可以在多步骤推理任务中大幅提高性能。即没有 CoT 的 prompt 是模型能力的下限。对于某些任务,CoT 的 prompt 能更好代表模型的最佳性能。

上图中,上半部分是 CoT 的 prompt 示例,下半部分是 Negation QA、Hindsight Neglect、Quote Repetition 在有 CoT 的 prompt 情况下的表现。

对于 Negation QA 和 Hindsight Neglect,CoT 的 prompt 使缩放曲线从 U 型变为正向的。对于 Quote Repetition,CoT 的 prompt 仍呈显 U 型曲线,尽管 Palm-8B 和 Palm-62B 的性能明显更好,并且 Palm-540B 准确率达到 100%。

上图展示了 Redefine Math 在有 CoT 的 prompt 情况下的结果。该任务实际上由 8 个子任务组成,每个子任务都有不同的指令,因此作者还按子任务对性能进行了划分,以探索子任务是否具有相同的缩放行为。总之,CoT 的 prompt 对所有子任务都显示出 Positive Scaling,8 个子任务中有 7 个在 Palm-62B 和 Palm-540B 模型上实现了 100% 的准确率。但是对于「+ as digit」和「+ as random number」子任务,就算使用 Palm-540B,也显示出明显的 Inverse Scaling 曲线。

总结

所有被研究的任务和子任务,在使用 CoT 的 prompt 时都呈现出 U 型缩放或 Positive Scaling。这并不意味着 no-CoT 的 prompt 结果是无效的,相反它通过强调任务的缩放曲线如何根据使用的 prompt 类型而不同,提供了额外的细微差别。即同一任务对于一种类型的 prompt 可以具有 Inverse Scaling 曲线,而对于另一种类型的 prompt 就可能具有 U 型缩放或 Positive Scaling。因此「inverse scaling task」这一术语没有明确的定义。