对参与者的输出进行评价。具体来说它将生成的轨迹也被称作短期记忆作为输入并输出奖励分数。根据物的不同使用不同的奖励函数决策任务使用和基于规则的启发式奖励。 自我反思-i这个角色由语言模型承担能够为未来的试验提供宝贵的反馈。自我反思模型利用奖励信号当前轨迹和其持久记忆生成具体且相的反馈并存储在记忆组件中。会利用这些经验存储在长期记忆中来快速改进决策。 因此i模式非常适合以下情况 模型需要从尝试和错误中学习自我反思旨在通过反思过去的错误并将这些知识纳入未来的决策来帮助智能体提高表现。这非常适合模型需要通过反复试验来学习的任务例如决策推理和编程。 传统的强化学习方法失效传统的强化学习方法通常需要量的训练数据和昂贵的模型微调。自我反思提供了种轻量级替代方案不需要微调底层语言模型从而使其在数据和计算资源方面更加高效。 需要细致入微的反馈自我反思利用语言反馈这比传统强化学习中使用的标量奖励更加细致和具体。这让模型能够更好地了解自己的错误并在后续的试验中做出更有针对性的改进。 后续风叔也会专门写篇文章来详细介绍i框架。可能是目前最强的推理框架 全称是   说的更直白些 =       i。 i的原理在前文都做了介绍这里不再赘述详细介绍下 。  是种树搜索算法 使用蒙特卡罗树搜索算法通过平衡探索和利用找到最优决策路径。 蒙特卡罗树搜索则是种基于树结构的蒙特卡罗方法。它在整个 ^ 为决策次数即树深度空间中进行启发式搜索通过反馈机制寻找最优路径。 的五个主要核心部分是 树结构每个叶子节点到根节点的路径都对应个解解空间小为 ^。 蒙特卡罗方法通过随机统计方法获取观测结果驱动搜索过程。 损失评估函数设计个可量化的损失函数提供反馈评估解的优劣。 反向传播线性优化采用反向传播对路径上的所有节点进行优化。 启发式搜索策略遵循损失最小化原则在整个搜索空间上进行启发式搜索。  的每个循环包括四个步骤 选择从根节点开始按照最化某种启发式价值选择子节点直到到达叶子节点。使用上置信区间算法选择子节点。 扩展如果叶子节点不是终止节点扩展该节点添加个或多个子节点。 仿真从新扩展的节点开始进行随机模拟直到到达终止状态。 反向传播将模拟结果沿着路径反向传播更新每个节点的统计信息。 的工作流程如下图所示包括以下步骤 选择 即从根节点开始使用上置信区树 ( 算法选择具有最高  值的子节点进行扩展。 扩展 通过从预训练语言模型 ( 中采样  个动作

类似文章