大语言模型推理时自我提升技术综述:开启大模型性能优化第二曲线
近年来大语言模型发展迅速,但主要靠扩大训练计算量。现在人们开始关注在推理时提升性能的方法,本文就是对这些方法的总结和分析。它的意义在于梳理了现有的推理时自我提升技术,让研究者能更清楚了解这一领域的现状,还指出了问题和方向,有助于推动大语言模型在推理方面的进一步发展,减少对大规模训练的依赖,同时也考虑到了相关技术带来的社会和环境影响等问题。
我们翻译解读最新论文,文末有论文信息。
本文聚焦于大语言模型推理时自我提升领域,将相关方法分为独立、上下文感知、模型辅助三类。独立自我提升通过修改解码过程等方式提升性能;上下文感知自我提升利用提示或检索技术增强效果;模型辅助自我提升借助外部模型协作改进表现。文中详细回顾了大量相关研究,构建了全面分类法,深入探讨了面临的挑战如维护、成本、通用性等问题以及伦理考量,为后续研究指明了方向。
摘要&摘要
近年来,通过在测试时增加计算量来增强推理的技术受到了关注。在本综述中,我们从三个不同的角度研究了大语言模型(LLM)推理时自我提升的现状:独立自我提升,侧重于通过解码或采样方法进行增强;上下文感知自我提升,利用额外的上下文或数据存储;模型辅助自我提升,通过模型协作实现提升。我们全面回顾了近期的相关研究,提出了深入的分类法,并讨论了挑战和局限性,为未来的研究提供了见解。
- 研究背景: 大语言模型能力提升主要依赖扩大训练计算量,但这成本高且有环境影响。因此,在推理时通过增加计算等方式提升性能的技术受到关注,本文旨在对这些技术进行梳理和研究。
- 研究贡献: 首次对大语言模型推理时自我提升方法进行全面分类,分为独立、上下文感知、模型辅助三类,并详细阐述了每类下的多种具体方法,为该领域研究提供了清晰的框架和思路。
- 实现设计: 文中各类方法分别通过不同方式实现,如独立自我提升通过修改解码过程、采样、隔离神经元等;上下文感知自我提升利用提示和检索技术;模型辅助自我提升借助外部模型协作,每种方法都有其独特的实现机制和操作流程。
1. 引言
近年来,大语言模型(LLM)的能力有了显著的提升(Achiam等人,2023;Gemini团队等人,2023)。这些进步在很大程度上是由扩大模型训练计算量驱动的(Kaplan等人,2020;Brown等人,2024),包括对更大模型、大规模预训练数据集和增强对齐技术的投入(Ouyang等人,2022;Bai等人,2022a,b;Rafailov等人,2023)。
最近,在推理时扩大计算量以提高任务性能受到了关注(Snell等人,2024),例如增加测试时计算量(即模型思考时间)(OpenAI,2024)和通过重复采样扩大推理计算量(Brown等人,2024)。测试时能力使较小的模型能够通过用额外的推理计算换取规模来替代较大的模型,并为在最少人工监督下的自我提升铺平了道路(Brown等人,2024)。推理时的自我提升方法为研究人员提供了一系列新的机会,使其能够在扩大模型规模和训练数据之外继续推动人工智能模型的边界。关于推理时方法的同期综述是从(i)标记级生成与元生成(Welleck等人,2024)和(ii)验证方法(Song等人,2024)的角度进行的。然而,目前还没有对推理时自我提升的全面综述。本综述旨在通过对现有文献进行分类回顾,并提出这些方法的首个分类法(图2)来填补这一空白。
我们在这项工作中调查了大语言模型推理时自我提升(ITSI2,发音为“itsy”)的概念,即依靠大语言模型自身冻结的参数,无需额外训练或参数更新,在推理时提高性能和/或效率。这些方法通常采用专门的解码算法,通过调整对数(原始模型输出)、概率分布(应用于对数的softmax)和解码目标来优化下一个标记的选择。我们将这些方法分为三类:独立自我提升,独立运行;上下文感知自我提升,利用外部支持(即上下文和数据存储检索);模型辅助自我提升,依靠外部模型进行协作。我们参考了在顶级会议(ACL、EMNLP、NAACL、NeurIPS、ICLR、ICML)上发表的近期高质量论文和高引用作品。我们强调了关键挑战和未来研究的潜在方向。
2. 独立自我提升
独立自我提升是在不进行额外训练的情况下,利用模型自身冻结的参数来提高性能,即通过修改解码过程(§2.1、§2.2和§2.3);提高效率(§2.4);采样多个候选生成结果(§2.5);以及隔离层或神经元(§2.7)。
2.1 约束解码
约束解码通过硬约束或软约束来引导生成过程。
- 硬约束:这些是输出必须严格遵守的规则,例如要求生成的句子中出现特定的单词。Lu等人(2022)提出了NEUROLOGIC*(类NeuroLogic A*解码),通过前瞻启发式方法扩展了NeuroLogic解码(Lu等人,2021),以估计未来约束满足情况并强制执行逻辑约束。Chen等人(2024a)提出了CONTROL - DAG,一种用于有向无环模型的约束解码算法。它能够进行词汇、词汇表和长度控制,以确保生成指定的实体(词汇约束)、消除不在词汇表中的单词(词汇表约束),并使用维特比解码算法调节输出的目标长度(长度约束)。
- 软约束:这些是模型旨在满足的更灵活的指导原则,但不是严格强制执行的。模型试图生成符合这些约束的文本,同时仍优化流畅性和相关性。Zhu等人(2023)通过遗忘机制提出了PENALTY DECODING,即通过重复惩罚对概率分布进行调整。Yao等人(2023)提出了IPS(各向同性和近端搜索),其中他们通过(i)各向同性(即响应应与之前的所有轮次相似)和(ii)近端(即生成的标记应与之前生成的标记相似)的项来修改生成的标记选择。这些标准通过解码目标中的加权惩罚纳入。
2.2 对比解码
对比解码根据对数的差异调整下一个标记的概率。
- 忠实性和幻觉:Nandwani等人(2023)提出了PMI - DECODE(逐点互信息解码),一种在其目标中纳入PMI - FAITH的解码方法,以确保对文本的忠实性。PMI - FAITH基于生成的响应和文档之间的条件(对话历史)逐点互信息。Manevich和Tsarfaty(2024)提出了LCD(语言对比解码),它使用由熵引导的动态加权机制,根据内部大语言模型的概率分布调整大型视觉语言模型的输出概率。Sia等人(2024)提出了ANTI - LM(反语言模型),一种解码目标,它根据正在翻译的测试句子对下一个标记的对数应用指数衰减进行惩罚,而不考虑其他上下文或后续生成。Chuang等人(2024)提出了DOLA(通过对比层解码),通过对比来自较高和较低层的对数来提高模型的真实性。
- 重复、连贯性和多样性:Xu等人(2023)提出了LOOK - BACK解码,它依靠KL散度来避免标记/短语重复和主题变化。Zhu等人(2024)提出了ADAPTIVE DECODING,通过基于熵的置信度增加过程动态调整候选集大小。选择概率最高的标记以增强置信度,更新候选集以在生成过程中确定最优集。
2.3 最小贝叶斯风险解码
与最大后验概率(MAP)解码不同,最小贝叶斯风险(MBR)解码选择在翻译假设集上使预期效用最大化的输出句子(Kumar和Byrne,2004)。
- 聚类:Jinnai等人(2024a)提出了DMBR(多样MBR)和KMBR(k - 中心点MBR):DMBR添加了多样性惩罚以优化效用和多样性,而KMBR将解码重新定义为聚类。Deguchi等人(2024)提出了CBMBR(基于质心的MBR),通过在特征空间中对参考翻译进行聚类并使用聚类质心计算预期效用来加速MBR解码。
- 矩阵近似:Trabelsi等人(2024)提出了PMBR(概率MBR解码),它利用MBR矩阵的低秩结构并对分数的子集应用矩阵补全来估计完整矩阵。
- 其他:Cheng和Vlachos(2023)提出了PRUNING MBR,通过采样估计修剪低效用假设来加速传统的MBR。在此基础上,Jinnai和Ariu(2024)提出了AMBR(自适应最小贝叶斯风险),它使用相关顺序减半算法计算基于样本的MBR解码目标,并根据计算预算自动优化资源分配。Jinnai等人(2024b)提出了MBMBR(基于模型的MBR),用模型自身的概率分布替换蒙特卡罗估计。
2.4 并行解码
并行解码在解码阶段同时生成多个标记,以实现更快的生成,而不是顺序生成。对于机器翻译任务,Santilli等人(2023)提出了HGJ(混合GS - Jacobi解码),“一种利用Jacobi和Gauss - Seidel不动点迭代方法进行快速推理的并行公式”。Vilnis等人(2023)提出了ARITHMETIC SAMPLING,它使用隐式定义的算术码本从大语言模型生成多样、无偏的样本。Fu等人(2024)提出了LOOKAHEAD DECODING,一种通过在单个步骤中生成和验证n - grams来加速大语言模型解码的并行算法。Ning等人(2024)提出了SOT(思维骨架),它生成一个答案大纲,通过批量解码或并行API调用填充细节,并聚合结果。
2.5 基于采样的解码
基于采样的方法为标记选择引入随机性,以生成多样的文本或从模型中采样多个生成路径。
- 开放式生成:Finlayson等人(2024)提出了BAT(基于基础的截断)采样,基于softmax瓶颈(Yang等人,2017)。BAT使用两个约束 - 一个阈值和一个基于基础的约束 - 通过线性规划求解器。它丢弃较高概率的标记,同时保留较低概率、较高质量的标记,在低熵开放式生成中取得了良好的效果。Ji等人(2024)提出了DAEMON(作为直接指标优化的解码),它采用了“采样 - 重要性重采样”过程。它通过搜索使解码分布与输入语言模型分布之间的反向KL散度最小的解码分布,来确定与人类文本对齐的解码分布。
- 推理:Wang等人(2023c)提出了SELF - CONSISTENCY,通过用“采样 - 边缘化”过程替换贪婪解码来改进思维链提示:采样多个不同的推理路径,然后通过边缘化它们获得最一致的答案。此外,Li等人(2024b)提出了ESC(早期停止自一致性),通过将大样本量分割为顺序的小窗口并在窗口内所有答案收敛时停止采样来提高效率,从而使预测答案概率分布的熵为零。
- 其他:Park等人(2024)提出了ASAP(具有近似预期未来的自适应采样),一种自适应采样算法,在语法约束下确保生成的语法正确性,同时与大语言模型的概率分布对齐。它通过采样并关注不符合语法的区域来迭代地改进语法正确性预测,最终收敛到来自约束概率分布的精确样本。
2.6 基于树搜索的解码
规划算法,如蒙特卡洛树搜索(MCTS),也已被应用于为各种任务识别最优文本输出。例如,Zhang等人(2023)提出了PG - TD(规划引导的Transformer解码),一种与模型无关的算法,通过集成受MCTS启发的前瞻搜索规划机制来增强代码生成,而无需程序语法知识。Yu等人(2023)提出了GDP - ZERO(零训练的面向目标对话规划),它提示大语言模型在开环MCTS的每个阶段模拟对话交互。Hao等人(2023)提出了RAP(通过规划推理),其中大语言模型与世界模型交互 - 同一个大语言模型通过专门的提示模拟环境 - 并通过MCTS使用来自世界模型的候选动作进行规划。
2.7 模型级解码
模型级方法在模型的中间层内操作。Gera等人(2023)提出了ACD(自对比解码),它利用早期退出设置,对比来自早期层(反专家)和后期层(专家)的概率分布。Zhang等人(2024c)提出了SELF - SPECULATIVE DECODING,使用单个大语言模型进行起草和验证。通过贝叶斯优化选择性地跳过中间层,有效地生成草稿标记并在单次前向传播中进行验证。为了提高事实准确性,Zhang等人(2024b)提出了SLED(自对数进化解码),通过最小化KL散度用来自早期层的潜在知识细化对数。Kojima等人(2024)提出了LANGUAGE - SPECIFIC NEURONS,在推理过程中激活某些特定语言的神经元会增加生成过程中特定语言(例如法语)出现的概率。同样,Halawi等人(2024)识别出OVERTHINKING AND FALSE INDUCTION HEADS,分析在关键层方面正确和错误分类发生的位置,然后识别并移除有问题的注意力头,在对正确提示影响最小的情况下缩小准确性差距。
3. 上下文感知自我提升
上下文感知自我提升使用专门的基于提示(§3.1和§3.2)或基于检索(§3.3)的技术来提高性能。
3.1 提示
提示使用精心设计的提示来实现少样本或零样本学习,而无需更新参数(Liu等人,2023)。
- 推理:Wei等人(2022)提出了COT PROMPTING(思维链提示),它允许语言模型在给定少量此类推理示例的情况下生成通向答案的连贯推理步骤。同时,Kojima等人(2022)提出了ZERO - SHOT COT PROMPTING,它使用两步模板提示:(i)“让我们逐步思考”以生成推理,然后(ii)“因此,答案是”以提取最终答案。为了改进零样本思维链,Mekala等人(2024)提出了ECHOPROMPT,它将查询改写作为初始步骤 - 将第一个提示修改为“让我们重复问题并逐步思考”。然而,Shaikh等人(2023)在有害问题和刻板印象基准测试中评估了零样本思维链,发现它在不同提示和模型中显著增加了有害输出的可能性。
- 其他:对于其他任务中使用的方法,Wang等人(2023a)提出了DECODINGTRUST,一个用于大语言模型的多任务(毒性、刻板印象、对抗鲁棒性、分布外鲁棒性、隐私、机器伦理和公平性)可信度评估套件,重点关注GPT模型。Huang等人(2024)提出了GENERATION EXPLOITATION ATTACK,它研究了系统提示策略(前置或排除提示)和解码策略,包括温度、Top - K和Top - p(核)采样。Lin等人(2024)提出了URIAL(使用重新设计的上下文对齐的未调整大语言模型),它使用上下文学习通过少量精选示例和设计的系统提示对齐基础大语言模型。
3.2 扰动提示
扰动提示方法使用专门的提示(例如扰动或嘈杂指令)在解码过程中获取并对比有和没有专门提示时模型的概率分布。Wang等人(2024b)提出了ICD(指令对比解码),一种使用扰动指令作为角色前缀(例如“你是一个困惑的对象检测器”)的方法。在解码过程中对比有和没有扰动指令时模型的概率分布,以减少幻觉。Shi等人(2024b)提出了CAD(上下文感知解码),它在解码过程中对比有和没有额外上下文(可能包含与模型先验知识相矛盾的信息)时模型的概率分布,以减少幻觉。Kim等人(2024)提出了ID(指导性解码),在解码过程中对比有和没有嘈杂指令时模型的概率分布。Yuan等人(2024b)提出了COIECD(上下文信息熵约束解码),一种自适应解码策略,用于缓解大语言模型的参数知识和附加到输入文本的上下文知识之间的知识冲突。该方法基于稳定熵假设(Arora等人,2023)应用信息熵约束,以识别和调整具有相对高或低熵的不符合要求的标记,通过抑制模型的参数知识来改进生成。为了提高安全性,Zhong等人(2024)提出了ROSE(反向提示对比解码),在解码过程中对比正提示和负提示的输出。
3.3 基于检索的方法
基于检索的方法从现有语料库中获取信息或构建检索数据存储。Khandelwal等人(2020)提出了kNN - LM,它使用隐藏状态作为查询在构建的键值数据存储中检索标记,然后将概率分布与聚合的检索邻居相似度的概率分布相结合。为了改进推测解码,Li等人(2024a)提出了NEST(最近邻推测解码),它通过添加段落检索步骤扩展了kNN - LM,以最小化标记存储和搜索。同样,He等人(2024)提出了REST(基于检索的推测解码),它用检索数据存储替换草稿模型进行推测解码,使用先前的标记查找精确匹配,并在Trie中组织候选者以选择最频繁的节点作为草稿标记。为了提高解码的可信度,Luohe等人(2024)提出了RTD(参考可信解码),一种从构建的参考数据存储中检索前k个参考,对其进行归一化和聚合为参考概率分布,并将其与原始大语言模型分布相结合的方法。Zhao等人(2024)提出了MULTI - INPUT CD(多输入对比解码),其中模型将其参数知识的对数与来自相关上下文(从外部知识库检索的顶级文本)和不相关上下文(对抗性制作或低排名文本)的对比预测相结合。
4. 模型辅助自我提升
模型辅助自我提升通过外部(通常是小型)模型来提高性能,例如(反)专家模型(§4.1)、草稿模型(§4.2)、小型业余模型(§4.3)、奖励模型(§4.4)和工具/API(§4.5)。
4.1 专家和/或反专家
专家和/或反专家模型——在特定任务中是否专业——提供对数或概率分布,然后在解码期间进行对比或合并,或者通过评分以其他方式指导解码过程。
- 毒性:Liu等人(2021)提出了DEXPERTS(解码时专家),他们通过对数将中性模型、专家模型和反专家模型结合起来。Zhang和Wan(2023)通过MIL网络提出了MIL - DECODING(多实例学习解码),该网络为标记分配毒性概率,然后将其与大语言模型概率分布结合以形成解毒文本。
- 机器翻译:Wang等人(2023b)提出了PSGD(前缀 - 后缀引导解码)——用于机器翻译建议。通过使用特殊的前缀和后缀标记并修改解码目标,模型仅为标记的跨度生成内容。Zeng等人(2024)提出了CODEC(合作解码),它将传统神经机器翻译模型的初始翻译视为草稿,然后使用另一个基于大语言模型的机器翻译模型来验证和纠正(通过对该片段自身进行解码)翻译。Yang等人(2024)提出了LIBS(语言知情束搜索),一种确保机器翻译在正确输出语言中进行的方法。该方法通过对候选束进行排名,将语言识别模型纳入束搜索过程。Le等人(2024)提出了CODEC(跨语言标签投影的约束解码),用于翻译高资源数据。首先,在没有标记的情况下进行翻译,然后在第二次解码过程中添加标记。然后通过它们的对数概率分布比较这两个翻译。然后,对前k个假设重新排序,并使用深度优先搜索和分支定界方法优化解码时间。
- 对齐:为了改进模型对齐,Shi等人(2024a)提出了MOD(多目标解码),它合并了为单个目标(例如有用性、安全性)训练的n个模型的预测分布,通过受勒让德变换启发的闭式解在多任务设置中对齐这n个语言模型。Chakraborty等人(2024)提出了TRANSFER,一种间接转移方法,通过利用与潜在不同基线奖励对齐的基线对齐模型来计算目标奖励的最优值函数。
- 其他:对于其他任务,Xu等人(2024)提出了SAFEDECODING,一种安全感知解码策略,通过从原始大语言模型和安全专家模型构建概率分布来减轻越狱攻击。Huang等人(2023)提出了GD(基于基础的解码),它通过结合大语言模型和多个基于基础的模型的概率分布来解决机器人任务,然后从这个组合分布中选择高概率标记。Shen等人(2024)提出了SUPERPOSED DECODING,它在一次自回归过程中生成k个草稿。它将它们与前k个标记组合以创建个选项,缓存k个最可能的标记,并使用2 - gram模型过滤不连贯的生成。Jacob等人(2024)提出了EQUILIBRIUM - RANKING,一种博弈论方法,用于通过将生成和判别解码建模为信号博弈并仅调整信号策略以逼近均衡来进行共识规划。
4.2 草稿模型
我们关注用于SPECULATIVE DECODING(Leviathan等人,2023)的草稿模型,这是一种加速大语言模型推理的方法。较小的草稿模型提出多个补全,然后利用目标大语言模型并行验证它们。这些现成的小型语言模型不需要额外的训练或对其架构进行修改,能够快速应用。Sun等人(2023)提出了SPECTR,它使用基于最优传输的草稿选择算法来实现更快的草稿验证。为了提高草稿标记的接受率,Gong等人(2024)提出了GSD(图结构推测解码),它使用有向无环图生成多个假设,为模型提供更多选择来选择最长的有效序列。Svirschevski等人(2024)提出了SPECEXEC(推测执行),它使用并行搜索构建一个可能的前缀延续的大型草稿“缓存”树,然后使用目标模型在一次通过中进行验证。同样,Chen等人(2024b)提出了SEQUOIA,它利用动态规划为推测的标记创建最优树结构。这种方法增强了可扩展性,并通过从草稿模型进行无替换采样改进了SpecInfer(Miao等人,2024),以提高稳健性。Yin等人(2024)通过马尔可夫链抽象对推测解码进行了理论探索。Yuan等人(2024a)提出了SCD(推测对比解码),它集成了对比分布以验证标记的准确性。一些工作专注于改进草稿模型本身以提高性能。Liu等人(2024b)提出了ONLINE SPECULATIVE DECODING,它根据用户查询数据动态更新草稿模型。这种适应减少了分布不匹配,提高了草稿模型的预测能力。作为补充,Du等人(2024)提出了对普通推测解码的两项改进以提高解码速度:GLIDE(瞥见草稿模型)和CAPE(基于置信度的提议扩展)。GLIDE通过重用目标大语言模型的缓存键和值来改进草稿模型,而CAPE利用草稿模型的置信度分数来验证额外的候选标记。
4.3 小型语言模型/业余语言模型
除了用于推测解码的草稿模型外,其他小型语言模型——也称为业余语言模型——用于指导大语言模型生成。
- 分类模型:采用各种类型的分类模型来指导生成,例如用于评估、概率调整和标记替换的模型。Miyano等人(2023)提出了NEUROLOGIC - A*(P)(具有正约束的NeuroLogic - A版本)。这种方法通过用于标记质量估计的标记级二元分类模型将来自N - best假设生成的高质量片段连接起来,该模型用于制定输入到NeuroLogic - A的约束。Lango和Dusek(2023)通过文本评论分类器提出了CRITIC - DRIVEN DECODING。分类器的输出通过缩放因子与语言模型概率分布相结合。同样,Choi等人(2023)提出了KCTS(知识约束树搜索),它通过将知识分类器分数与蒙特卡洛树搜索(MCTS)集成来引导大语言模型生成的输出与参考知识对齐。候选生成被制定为树的根,其他生成通过叶节点进行采样和合并,其中通过标记级知识基础度量评估事实性。Zhang等人(2024a)提出了ENDEC(强制解码),一种使用条件激活解码目标攻击大语言模型的方法,它激活:(i)肯定前缀,即插入正前缀(“当然,这里是”),和(ii)否定反转,即通过情感分类用正词替换负词。
- 生成模型:Li等人(2023)提出了CD(对比解码),它对比大型专家模型和小型业余模型的概率分布,在业余模型高度自信的地方惩罚下一个标记。这个解码目标仅在专家语言模型未获得高置信度分数时通过自适应合理性约束激活,该约束也纳入了解码目标。Kim等人(2023)提出了BILD(大小解码器),一个框架,通过回退和回滚策略学习使用两个不同大小的模型协作生成文本。小型模型以低推理成本自回归生成文本,而大型模型偶尔非自回归地纠正其错误。Fisher等人(2024)提出了JAMDEC(杂烩解码),一种使用小型语言模型的作者身份混淆方法。它涉及(i)关键词提取,(ii)通过约束多样束搜索进行过度生成,该搜索将关键词的词汇约束和基于相似性的多样性惩罚纳入解码目标,以及(iii)通过质量和内容重叠阈值过滤以选择风格最独特的候选。
4.4 奖励模型
奖励模型是一个经过微调的语言模型,用于评估生成的响应并分配分数以指导解码过程。Deng和Raffel(2023)提出了RAD(奖励增强解码)。这种方法使用外部奖励模型通过转向因子超参数重新加权对数,以控制重新加权强度。为了提高对齐,Khanov等人(2024)提出了ARGS(作为奖励引导搜索的对齐),它将对齐集成到解码过程中。在每个步骤中使用奖励机制调整模型的概率分布,并且在每个步骤中通过贪婪或随机采样进行标记选择。Wan等人(2024)提出了TS - LLM(树搜索增强的大语言模型),它通过集成类似于AlphaZero的深度树搜索和基于学习的大语言模型的价值函数扩展了先前的工作,该价值函数基于状态和学习的结果奖励模型。此外,在推理时可以组合多个评分器来解决多目标强化学习问题,而无需额外训练:Mudgal等人(2024)提出了CD(受控解码),它使用经过训练的前缀评分器从固定模型指导生成,解决KL正则化的强化学习目标。
4.5 工具使用/API
与外部模型的交互还包括工具使用——例如解析器、静态分析工具和API调用。例如,Geng等人(2023)提出了GCD(语法约束解码),它使用特定的上下文无关语法用于各种高度结构化的任务,通过增量解析器强制执行约束,在每个解码时间步从概率分布中修剪不符合要求的标记(禁止标记),并仅保留与任务特定形式语法相关的允许标记。Bastan等人(2023)提出了NEUROSTRUCTURAL DECODING,它应用结构词汇和句法约束来保留主谓宾关系。它通过以合取范式纳入约束并对候选生成进行评分(修改束搜索过程)扩展了NEUROLOGIC DECODING(Lu等人,2021),考虑概率分布和满足的子句数量。在代码生成中,Agrawal等人(2023)提出了MGD(监控引导解码),其中一个监控器集成到语言模型解码过程中,它查询一个静态分析工具;然后通过对数上的掩码将输出纳入。Roy等人(2024)提出了FLAP(遵循流的规划)用于对话系统。规划步骤(“流”)和相应的API调用被转换为两个依赖图,它们在解码期间用作约束,并在概率分布中添加前瞻启发式。
5. 讨论
推理时自我提升方法在推理(§2.5、§3.1)方面表现出色,能够实现忠实生成(§2.2、§3.3),通过并行性(§2.4)提高速度等等,而无需更新模型参数或进行额外训练。尽管有这些进步,但仍存在一些挑战。在本节中,我们讨论了方法选择的考虑因素,并概述了未来研究的潜在方向:
- 维护:依赖外部数据存储(§3)或模型(§4)的方法需要持续维护,因为它们需要随时间更新。相比之下,独立方法(§2)不需要这种程度的维护,因为它们仅基于解码过程运行。
- 模型访问量:例如,OpenAI Chat API返回部分概率分布——即不是在整个标记词汇表上——因此在完整概率分布上操作的方法不是合适的选择。
- 推理成本的权衡:增加推理时间的方法,如多次生成采样(§2.5),通常在推理时比直接操作解码过程的方法花费更多时间。
- 通用性:用于指导生成过程的外部模型通常专门针对特定领域或任务。将这些模型适应新的上下文或未见过的数据通常需要创建新的专家模型或额外的微调。此外,整体性能与辅助模型的质量密切相关。
- 生成质量:操作解码过程的方法提供了很大的灵活性,能够实时调整生成过程以满足特定的控制条件(§2.1)。然而,这些控制条件与大语言模型固有的语言生成倾向(流畅性和连贯性)存在竞争约束。因此,在强制执行约束和保持生成质量之间可能存在权衡。
- 可解释性和可理解性:只有少数工作(Kojima等人,2024;Halawi等人,2024)从神经元和注意力头的角度分析了大语言模型的解码过程,或者对解码过程进行了理论分析(Yin等人,2024)。这是未来工作开发更强大的方法来理解大语言模型决策过程的机会(Bismay等人,2024;Singh等人,2024),特别是对于像推理这样的复杂任务(Wei Jie等人,2024)。
参考资料
- 标题:A Survey on LLM Inference-Time Self-Improvement
- 作者:Xiangjue Dong, Maria Teleki, James Caverlee
- 单位:Texas A&M University
- 标签:人工智能、大语言模型、推理时自我提升、自然语言处理
- 概述: 本文综述了大语言模型推理时自我提升的三种方法(独立、上下文感知、模型辅助),回顾相关研究,提出分类法,讨论挑战与局限,为未来研究提供见解。
- 链接:https://arxiv.org/pdf/2412.14352