[

sbagency

](https://sbagency..com/?source=post_page-----52338111d27b--------------------------------)

https://arxiv.org/pdf/2403.04121.pdf

虽然人类有时确实表现出通过自我批评纠正自己错误猜测的能力,但在LLMs的情况下,这种假设似乎没有基础。

https://arxiv.org/pdf/2403.14312v1.pdf

思想链(CoT)提示可以增强大型语言模型(LLMs)的推理能力,使其成为解决复杂推理任务的主要方法。现有的 CoT 综合方法通常专注于更简单的推理任务,从而导致低质量和不一致的 CoT 提示。为了应对这一挑战,我们对 CoT 提示进行了实证研究,并引入了 CoTGenius,这是一种专为自动生成高级 CoT 提示而设计的新颖框架。 CoTGenius基于复杂化、多样化、指定化三大进化策略,以及进化成功判断和正确性验证两种过滤机制。我们进一步使用 CoTGenius 创建一个广泛的 CoT 数据集,并随后在此数据集上微调 Llama 2-Chat 7B 和 13B 模型。我们将生成的模型称为 ChainLM。为了解决推理步骤中的累积错误问题,我们提出了一种步骤级辩论方法,其中多个辩手讨论每个推理步骤以得出正确答案。

大量实验表明,与现有模型相比,我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的能力。此外,我们还对 CoTGe 内数据类别的影响进行了深入分析

https://arxiv.org/pdf/2403.12373.pdf

大型语言模型 (LLMs) 在各种推理任务中取得了令人印象深刻的性能。然而,即使像 ChatGPT 这样最先进的 LLMs 在推理过程中也容易出现逻辑错误。

减轻这些错误的传统方法涉及人工或基于工具的反馈,例如采用特定于任务的验证器或聚合多个推理路径。然而,这些方法要么严重依赖于人类输入,要么难以应对不一致的响应。

为了克服这些限制,我们提出了 RankPrompt,这是一种创新的提示策略,使 LLMs 能够在不需要额外资源的情况下自动对他们的回答进行排名。

RankPrompt 将排名挑战简化为不同响应之间的比较评估,利用 LLMs 在上下文中生成比较示例的天生能力。

我们针对 11 项算术和常识推理任务进行的实验表明,RankPrompt 显着增强了 ChatGPT 和 GPT-4 的推理性能,提升幅度高达 13%。

此外,RankPrompt 在基于 LLM 的开放式任务自动评估中表现出卓越的性能,在 AlpacaEval 数据集中 74% 的时间与人类判断相匹配。事实证明,它对于响应顺序的变化和不一致也具有鲁棒性。

总的来说,我们的研究结果证明 RankPrompt 是一种直接从语言模型中提取高质量反馈的有效方法。

本文介绍了 RankPrompt,这是一种新颖的提示方法,可以增强 ChatGPT 和 GPT-4 等大型语言模型(LLMs)的推理能力。关键思想是:

1. 使用少样本思维链提示为给定问题生成多个不同的推理路径(候选)。

2.利用精心设计的提示和自动生成的比较范例,引导LLM对候选推理路径进行逐步比较评估和排序。

3. 选择排名最高的推理路径作为最终答案。

RankPrompt 的主要优点是:1)它不需要额外的模型或人工注释,2)它在各种推理和自动评估任务中实现了强大的性能,优于基线方法,3)它对不一致的推理路径具有鲁棒性。

对 11 项算术、常识和符号推理任务的实验证明了 RankPrompt 相对于思想链提示和多数投票等基线的优越性,准确性提高高达 13%。

在自动评估的 AlpacaEval 基准上,RankPrompt 与人类判断的一致性达到 74%,为基于 LLM 的评估器设定了新的最先进水平。

https://arxiv.org/pdf/2304.13007.pdf

现代多跳问答 (QA) 系统通常在得出最终答案之前将问题分解为一系列推理步骤,称为思维链 (CoT)。

通常,多个链会通过投票机制对最终答案进行采样和聚合,但中间步骤本身会被丢弃。

虽然这些方法提高了性能,但它们没有考虑跨链中间步骤之间的关系,也没有为预测答案提供统一的解释。

我们引入了多链推理(MCR),这种方法促使大型语言模型对多个思想链进行元推理,而不是汇总它们的答案。

MCR 检查不同的推理链,混合它们之间的信息,并选择最相关的事实来生成解释和预测答案。 MCR 在 7 个多跳 QA 数据集上的性能优于强基线。

此外,我们的分析表明 MCR 解释具有高质量,使人类能够验证其答案。

https://arxiv.org/pdf/2402.11163v1.pdf

在本文中,我们的目标是提高大型语言模型(LLMs)相对于知识图(KG)的推理能力,以回答复杂的问题。

受设计LLMs和KG之间交互策略的现有方法的启发,我们提出了一种基于LLM的自治代理框架,称为KG-Agent,它支持小型</ b1003> 积极做出决策,直到完成 KG 的推理过程。

在KG-Agent中,我们集成了LLM、多功能工具箱、基于KG的执行器和知识记忆,并开发了一种迭代机制,自主选择工具然后更新记忆以通过KG进行推理。

为了保证有效性,我们利用程序语言在知识图谱上制定多跳推理过程,并合成基于代码的指令数据集来微调基本LLM。

大量实验表明,在域内和域外数据集上,仅使用 10K 样本来调整 LLaMA-7B 就可以优于使用更大的 LLMs 或更多数据的最新方法。我们的代码和数据将公开发布。

在这项工作中,我们提出了一个自治代理框架来协同LLMs和KG来对KG进行复杂的推理,即KG-Agent。在我们的方法中,我们首先策划了一个 KG 工具箱,由三种类型的工具组成,以支持 KG 推理时的典型操作。

然后,我们开发了一种基于工具选择和记忆更新的自主迭代机制,集成了LLM、多功能工具箱、基于KG的执行器和知识记忆,用于KG推理。

接下来,我们利用现有的 KGQA 数据集来合成基于代码的指令调整数据集。

最后,仅用 10K 调整样本,我们就实现了依赖于较小的 7B LLM 的自主代理,其性能大多优于基于全数据调整或较大的 LLMs 的最先进基线b1002>。在未来的工作中,我们将考虑扩展我们的框架以处理更多类型的结构化数据,例如数据库和表格。

https://arxiv.org/pdf/2310.04562.pdf

得益于可转移的表示(例如语言中的标记词汇表),语言和视觉中的基础模型能够对任何文本和视觉输入进行推理。

知识图(KG)具有不同的实体和关系词汇,通常不会重叠。

在知识图谱上设计基础模型的关键挑战是学习这种可转移的表示,以便能够对具有任意实体和关系词汇的任何图进行推理。

在这项工作中,我们向此类基础模型迈出了一步,并提出了 ULTRA,一种学习通用且可转移的图形表示的方法。 ULTRA 将关系表示构建为以它们的交互为条件的函数。

这种调节策略允许预先训练的 ULTRA 模型归纳推广到具有任何关系词汇的任何未见过的 KG,并在任何图上进行微调。

在 57 个不同的 KG 上进行链接预测实验,我们发现单个预训练的 ULTRA 模型在各种大小的未见图上的零样本归纳推理性能通常与在特定图上训练的强基线相当或更好。

微调进一步提高了性能。

https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/

创建LLM生成的知识图

我们注意到支撑 GraphRAG 的基本流程,它建立在我们之前使用图机器学习的研究(在新选项卡中打开)和存储库(在新选项卡中打开)的基础上:

LLM 处理整个私有数据集,创建对源数据中所有实体和关系的引用,然后用于创建 LLM 生成的知识图。

然后,该图用于创建自下而上的聚类,将数据按层次结构组织成语义聚类(在下面的图 3 中使用颜色表示)。

这种划分允许对语义概念和主题进行预先总结,这有助于对数据集的整体理解。

在查询时,这两个结构都用于在回答问题时为 LLM 上下文窗口提供材料。

https://aclanthology.org/2024.eacl-long.168.pdf

知识图嵌入(KGE)最初是为了推断不完整知识存储库中真实但缺失的事实而开发的。在本文中,我们通过新任务 CFKGR 将知识图补全和反事实推理联系起来。

我们将原始世界状态建模为知识图,将假设场景建模为添加到图中的边,将图的合理更改建模为逻辑规则的推论。

我们创建相应的基准数据集,其中包含各种假设场景,并对原始知识图谱进行合理的更改以及应保留的事实。

我们开发了 COULDD,一种在给定假设前提下调整现有知识图嵌入的通用方法,并根据我们的基准对其进行评估。我们的结果表明,KGE 无需显式训练即可学习图中的模式。

我们进一步观察到,与 KGE 相适应的 KGE 可以可靠地检测到遵循这些模式的图表的合理反事实变化。

对人工注释数据的评估表明,采用 COULDD 的 KGE 大多无法识别不遵循学习推理规则的图表变化。

相比之下,ChatGPT 在检测图表的合理变化方面大多优于 KGE,但知识保留能力较差。综上所述,CFKGR 连接了两个之前截然不同的领域,即 KG 补全和反事实推理。