推广 热搜： csgo vue 2023 angelababy gps 信用卡新车 htc 落地控制

大模型自主智能体爆火,OpenAI也暗中发力,这是内部人的分析博客

2023-08-23 网络整理佚名2360

核心提示：树是独立且随机构建的，因此在某种程度上类似于哈希函数。这个基准在三个层次上评估了智能体的工具使用能力：智能体，它被用来处理复杂科学实验的自主设计、规划和执行。与记忆、规划和反射机制相结合，使智能体能够根据过去的经验做出反应，并与其他智能体进行交互。生成式智能体架构图。为中心的智能体关键思想和演示之后，我们应该也看到一些限制：

，该过程受到监督微调。

数据的串行形式为

，其中 ≤i≤j≤n。该模型经过微调，仅预测以序列前缀为条件的 y_n，从而允许模型对反馈序列进行自我反思，从而产生更好的输出。该模型可以选择在测试时接收来自人类注释者的多轮指令。

为了避免过度拟合，CoH 添加了正则化项来最大化预训练数据集的对数似然。同时，为了避免走捷径和重复（因为反馈序列中有很多常用词），研究人员在训练过程中随机屏蔽了0%-5%的过去的token。

实验中使用的训练数据集是比较、人类反馈摘要和人类偏好数据集的组合。下面的图 5 显示，在使用 CoH 进行微调后，模型可以按照指令生成具有连续增量改进的输出。

图片来源：

CoH的想法是呈现在上下文中连续改进输出的历史，并训练模型以产生更好的输出。算法蒸馏（AD）将相同的想法应用于强化学习任务中的跨情节轨迹，其中算法被封装在长期历史条件策略中。

下图6展示了算法蒸馏的工作原理。

图片来源：

在算法蒸馏论文中，研究人员假设任何生成一组学习历史的算法都可以通过执行动作的行为克隆来蒸馏到神经网络中。历史数据由一组源策略生成，而每个源策略都针对特定任务进行训练。

在训练阶段，在每次 RL 运行期间，研究人员都会对随机任务进行采样，并使用多历史的子序列进行训练，从而使学习到的策略与任务无关。

在实践中，模型的上下文窗口长度是有限的，因此它应该足够短以构建多历史记录。为了学习接近最优的上下文强化学习算法，需要 2 到 4 个多上下文。上下文强化学习的出现需要足够长的上下文。

与三个基线相比，包括ED（专家蒸馏，用专家轨迹而不是学习历史进行行为克隆）、源策略（用于生成UCB蒸馏的轨迹）、RL^2（2017年提出的在线强化学习算法，作为上限用于比较）。 AD算法虽然只使用离线强化学习，但其性能接近RL^2，并且学习速度比其他基线快得多。当以源策略的部分训练历史为条件时，AD 的改进速度也比 ED 基线快得多。

下图7是AD、ED、源策略和RL^2的对比。

组件 2：内存

作者表示本章借用了起草的帮助。我们来看看这部分的具体内容。

内存类型

记忆类型分为三类：知觉记忆、短期记忆（STM）或工作记忆以及长期记忆（LTM）。

知觉记忆：这是记忆的早期阶段，是在原始刺激结束后保留感官信息（视觉、听觉等）印象的能力。知觉记忆通常只持续几秒钟。它的子类包括图像记忆（视觉）、回声记忆（听觉）和触觉记忆（触觉）。

短期记忆（STM）或工作记忆：短期记忆存储我们当前已知的信息，以及执行学习和推理等复杂认知任务所需的信息。一般来说，短期记忆持续20-30秒。

长期记忆：长期记忆可以长时间存储信息，从几天到几十年，其存储容量基本上是无限的。 LTM 有两种子类型：

人类记忆的分类

参考人类记忆的分类，我们可以得到如下映射：

最大内积搜索 (MIPS)

外部记忆可以缓解注意力的一些局限性。为了更好地处理外部存储器，常见的做法是将信息的嵌入表示保存到向量存储数据库中，该数据库可以支持快速最大内积搜索（MIPS）。为了优化检索速度，研究人员经常使用近似最近邻（ANN，）算法。

在加速MIPS时，经常使用的ANN算法包括：

局部敏感哈希（LSH）：它引入了一种哈希函数，使得相似的输入项以高概率映射到相同的项，其数量远小于输入的数量。

近似最近邻（ANNOY）：该方法的核心数据结构是随机投影树（Trees），它是一组二叉树，其中每个非叶子节点代表一个超平面，它将输入空间分为两部分，每个叶子A节点存储一个数据点。树是独立且随机构建的，因此它们有点类似于哈希函数。这个想法与 KD 树（一种在空间中单独存储点的树状数据结构）密切相关，但更具可扩展性。

分层可引导小世界（HNSW，Small World）：该方法受到小世界网络（small world，这是一种图结构）的启发，其中大多数节点可以通过很少的步骤连接到其他节点。 HNSW 构建了这些小世界图的层次结构，其中底层包含实际数据点，中间层创建快捷方式以加快搜索速度。在执行搜索时，HNSW从顶层的随机节点开始，向目标节点导航，当无法再接近目标时，向下移动到下一层，直到到达底层。上层所做的每一步都有可能在数据空间中覆盖很长的距离，而下层所做的每一步都会增加搜索的精度。

AI（现在的meta AI）团队的开源库FAISS：FAISS操作的基本假设是在高维空间中，节点之间的距离遵循高斯分布，因此应该存在数据点的聚类。 FAISS 通过将向量空间划分为簇并在簇内执行量化来应用向量量化。

可扩展最近邻（ScaNN）：ScaNN 的主要创新是各向异性矢量量化（AVQ），它将数据点 x_i 量化为

，使得内积尽可能接近原始距离，从而减少数据点之间的距离误差。

MIPS算法比较。

第 3 部分：使用工具

使用工具是人类的一个显着特征。我们创建、修改和使用外部对象来探索和感知现实世界。同样，为法学硕士配备外部工具可以极大地扩展模型的功能。

一张海獭漂浮在水中时用岩石打开贝壳的照片。虽然其他一些动物可以使用工具，但它们的复杂性无法与人类相比。图片来源：使用工具

MRKL（等人，2022）是一种用于自主代理的神经符号（神经）架构，以模块化推理（）、知识（）和语言（）的缩写命名。每个 MRKL 系统都包含一些“专家”模块，通用 LLM 充当路由器，负责将查询路由到最合适的专家模块。这些模块可以是神经模块（如深度学习模型）或符号模块（如数学计算器、货币转换器、天气 API）。

MRKL 的研究团队进行了一项实验，以数学计算作为测试用例来微调 LLM 呼叫计算器。由于LLM（7B-大型模型）无法可靠地提取基本计算的正确性，因此该实验表明，解决口语中简单陈述的数学问题比明确陈述的数学问题更困难。该实验的结果强调了了解何时以及如何使用外部符号工具以及它们可靠工作的至关重要性，这取决于法学硕士的能力。

另外两项研究 TALM（等人，2022 年）和（等人，2023 年）都对语言模型 (LM) 进行了微调，以使用外部工具 API 进行学习。根据新添加的API调用注释是否提高模型的输出质量来扩展数据集。

插件和 API 函数调用是 LLM 使用工具进行增强的能力的主要示例。工具API集可以由其他开发人员提供（插件）或定制（函数调用）。

(Shen et al. 2023)是一个用作任务规划器的框架，它根据模型描述选择平台中可用的模型，并根据执行结果总结响应。

工作原理示意图。资料来源：沉等人。 2023年

该系统由4个阶段组成：

（1）任务规划：LLM充当大脑，将用户请求解析为多个任务。每个任务都有四个关联的属性：任务类型、任务 ID、依赖项和参数。研究团队使用少量的例子来指导法学硕士进行任务解析和规划。

The AI assistant can parse user input to several tasks: [{"task": task, "id", task_id, "dep": dependency_task_ids, "args": {"text": text, "image": URL, "audio": URL, "video": URL}}]. The "dep" field denotes the id of the previous task which generates a new resource that the current task relies on. A special tag "-task_id" refers to the generated text image, audio and video in the dependency task with id as task_id. The task MUST be selected from the following options: {{ Available Task List }}. There is a logical relationship between tasks, please note their order. If the user input can't be parsed, you need to reply empty JSON. Here are several cases for your reference: {{ Demonstrations }}. The chat history is recorded as {{ Chat History }}. From this chat history, you can find the path of the user-mentioned resources for your task planning.

（2）模型选择：LLM将从模型列表中选择模型，并将任务分配给专家模型。由于上下文长度有限，需要根据任务类型进行过滤。

Given the user request and the call command, the AI assistant helps the user to select a suitable model from a list of models to process the user request. The AI assistant merely outputs the model id of the most appropriate model. The output must be in a strict JSON format: "id": "id", "reason": "your detail reason for the choice". We have a list of models for you to choose from {{ Candidate Models }}. Please select one model from the list.

(3)任务执行：专家模型执行具体任务并记录执行结果。

With the input and the inference results, the AI assistant needs to describe the process and results. The previous stages can be formed as - User Input: {{ User Input }}, Task Planning: {{ Tasks }}, Model Selection: {{ Model Assignment }}, Task Execution: {{ Predictions }}. You must first answer the user's request in a straightforward manner. Then describe the task process and show your analysis and model inference results to the user in the first person. If inference results contain a file path, must tell the user the complete file path.

(4)响应生成：LLM接收执行结果并将总体结果提供给用户。

为了将其投入实际使用，需要解决几个挑战：（1）需要提高效率，因为LLM推理以及与其他模型的交互会减慢进程；（2）依赖长上下文窗口来传达复杂的任务内容；（3）提高LLM输出和外部模型服务的稳定性。

API-Bank（Li et al. 2023）是评估工具增强法学硕士性能的基准。它包含 53 个常用的 API 工具、完整的工具增强型 LLM 工作流程以及涉及 568 个 API 调用的 264 个带注释的对话。 API-Bank 基准测试中可以选择的 API 相当多样化，包括搜索引擎、计算器、日历查询、智能家居控制、日历管理等等。 LLM可以先通过API搜索引擎找到合适的API来调用，然后利用相关文档来调用API。

LLM 在 API-BANK 中调用 API 的伪代码。（图片来源：Li et al. 2023）

在API-Bank的工作流程中，LLM需要做出一些决定，包括：

该基准测试从三个层面评估代理的工具使用能力：

案例分析

科学发现的推动者

它是一种通过大语言模型（LLM）设计的化学试剂，旨在完成有机合成、药物发现和材料设计等任务。通过整合 17 个专家设计的工具，法学硕士在化学方面的表现得到了增强，并产生了新的功能。

对此，一个有趣的观察是，尽管基于 LLM 的评估结果得出结论，GPT-4 和 . 这意味着使用法学硕士来评估自己在需要深厚专业知识的领域的表现可能存在潜在问题。缺乏专业知识可能会导致LLM意识不到自己的缺陷，从而无法很好地判断任务结果的正确性。

Boiko 等人的论文。检查人工智能代理的科学发现，用于处理复杂科学实验的自主设计、规划和执行。该代理可以使用工具浏览互联网、阅读文档、执行代码、调用机器人实验 API 以及利用其他法学硕士。

例如，当智能体收到提示“一种新药（开发一种新的抗癌药物）”时，其推理步骤如下：

生产代理人

生成代理将 LLM 与记忆、规划和反思机制相结合，使代理能够根据过去的经验做出响应并与其他代理交互。

生成代理架构图。

概念证明示例

这里作者提到了（自主人工智能），人类可以在无人干预的情况下自主完成任务。还称赞道：“它是工程的下一个前沿。”

具体来说，相当于给基于GPT的模型赋予了内存和主体。有了它，你可以给人工智能代理一项任务，让它自主制定计划，然后执行该计划。它还具有互联网访问、长期和短期内存管理、用于文本生成的 GPT-4 实例以及用于文件存储和摘要的 GPT-3.5。它可用于多种用途，例如分析市场并提出交易策略、提供客户服务、进行营销以及其他需要不断更新的任务。

另外，作者还列出了GPT-项目，它类似于一个代码生成工具，可以根据提示生成代码库（）。前面说过，只要你提出合理的要求，GPT-就可以完成。

挑战

在了解了构建以LLM为中心的代理的关键思想和演示之后，我们还应该看到一些局限性：

有限的上下文长度：法学硕士处理上下文信息的能力有限，尽管自我等机制可以从过去的错误中学习，但更长或无限的上下文窗口将带来巨大的好处。虽然向量存储和检索可以提供对更大知识库的访问，但它们的表示能力不如充分关注那么强大。

LLM在长期规划和任务分解方面的挑战：LLM在面对意外错误时很难调整规划并进行纠正。与人类可以不断试错相比，LLM的稳健性还是比较差的。

自然语言接口的可靠性：当前的代理系统依赖自然语言作为法学硕士与外部组件（例如内存和工具）之间的接口。然而，模型输出的可靠性值得怀疑，因为法学硕士可能格式错误，并且偶尔会表现出叛逆行为（例如，拒绝遵循指示）。

标签： 智能算法上下文 api接口

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

推荐图文

推荐资讯

点击排行