中科院提出“思维传播”,极大增强ChatGPT等模型复杂推理能力

添加书签

专注AIGC领域的专业社区,关注OpenAI、百度文心一言等大语言模型(LLM)的发展和应用落地,关注LLM的基准评测和市场研究,欢迎关注!

中国科学院自动化研究所与耶鲁大学计算机系研究人员联合发布了,一份名为《思维传播:用大型语言模型进行基于类比的复杂推理》的论文。

ChatGPT等大型语言模型展示出了超强的创造能力,只需简单的文本提示就能生成小说、营销创意、简历等各种文本内容。但在处理复杂的推理任务时却差强人意,主要面临从0推理以及在任务推理过程中错误累加两大难题

为了解决这些难题,研究人员提出了思维传播(Thought Propagation,简称“TP”)的技术框架,通过提出类比问题、解决类比问题、聚合类比问题,从而提升大语言模型的复杂推理能力。

根据在最短路径寻优、创造性写作和语言模型智能体计划测试结果显示,相比传统方法,思维传播将性能分别提升了12%、13%和15%。

简单来说,就是为大语言模型添加一种拟人化的“类比思想”,让其学会总结、利用过往的成功经验,不必总是从0开始

论文地址:https://arxiv.org/abs/2310.03965

思维传播框架简单介绍

从论文内容来看,思维传播框架模拟的就是人类的“类比思想”。当我们遇见新问题时,经常会使用过往的经验、行动来解决这些难题,这也被称为“类比推理”。

思维传播框架主要由LLM Propose、LLM Solve、LLM Aggregate、多层实现和即插即用等多个模块组成。

LLM Propose :通过使用 prompt 的方式让语言模型提出与输入问题相关的类比问题。提出的类比问题可以从两个角度帮助解决输入问题:(1)类比问题的解可以直接转移应用到输入问题上;(2)解决类比问题可以推导出针对输入问题的计划。

LLM Solve:使用现有的提示方法(如 Chain-of-Thought)来解决输入问题和 LLM Propose 模块提出的类比问题。得到输入问题和类比问题的初始解。

LLM Aggregate:该模块聚合类比问题的解来增强输入问题。具体来说,有两种方式: (1)提示语言模型基于类比问题的结果直接产生输入问题的新解。

(2)比较输入问题和类比问题,并基于类比问题的结果推导针对输入问题的计划。然后执行该计划来纠正输入问题的中间推理。

多层实现:可以堆叠多个思维传播层,以利用 K 跳的类比问题来逐层改进输入问题的解。

即插即用:思维传播兼容现有方法,可以应用到不同的推理任务中,只需要替换 LLM Solve 模块的具体实现。

思维传播框架性能测试

为验证思维传播框架的性能,研究团队在最短路径寻优、创造性写作和语言模型智能体计划三大任务上进行了比较实验。

结果显示,思维传播相比于仅使用提示方法的基线系统,在找到最优解的性能提升12%,在生成连贯段落的性能提升13%,在完成任务的性能提升15%。

研究人员指出,这三个任务分别需要搜索图结构数据、开放式写作和长时间计划,当前的提示方法仍面临挑战。

而思维传播框架展现了在这些复杂推理任务上取得显著提升的潜力。同时,该框架提供了一种可即插即用的通用类比推理方法,可避免针对特定任务设计定制提示,降低使用门槛。

思维传播框架对大语言模型的重要性

从思维传播框架在GPT-4、GPT-3.5等大语言模型的测试结果来看,可显著提升复杂推理能力,并减少推理的错误。

提高复杂推理能力: 思维传播可以重用解决类比问题的经验,来增强大语言模型处理复杂任务的能力,例如,最短路径寻优、创造性写作等需要多步推理的任务。

减少推理错误:通过比较类比问题的解来指导输入问题的推理,可以帮助大语言模型避免从0开始推理时容易堆积的错误。

减少任务特定提示设计:提供了一个通用的类比推理框架,可以即插即用地应用到不同任务,减少了针对特定任务设计定制提示的工作量。

提供新的研究视角:思维传播为研究社区提供了,从类比推理视角来增强大模型复杂推理能力的新思路和有效途径。

表现优于同等规模模型:在多个任务上的试验表明,基于思维传播的GPT-4明显优于不使用该框架的GPT-4,以及其他同等计算量的模型。

可扩展性:思维传播是是一个通用框架,未来可继续优化和扩展到更多的复杂推理任务中,以发挥GPT-4等大语言模型的潜力。

总体来说,思维传播框架的优势在于可以重用类比问题的解来直接得到输入问题的新解,避免从0开始推理。

同时,它还可以学习到解决类比问题的总体策略,推导出计划来指导输入问题的推理,以此规避中间步骤的错误。

本文素材来源中国科学院自动化研究所论文,如有侵权请联系删除

END