使用语言代理树搜索 (LATS)和GPT-4o解决复杂的LLM决策问题

2024年09月12日 由 alex 发表 73 0

大型语言模型(LLM)在执行涉及复杂推理的自然语言任务方面表现出了非凡的能力。因此,这些模型已经发展成为能够规划、制定战略和解决复杂问题的代理。然而,当需要在不确定的情况下做出决策时,当结果不确定时,当需要在不断变化的环境中做出适应性决策时,尤其是在多步骤情景中,每一步都会影响下一步时,挑战依然存在。


这正是 GPT-4 的高级推理能力和语言代理树搜索(LATS)共同应对这些挑战的地方。LATS 融合了一种基于树的动态搜索方法,增强了 GPT-4O 的推理能力。通过将蒙特卡洛树搜索(MCTS)与语言代理树搜索(LLM)相结合,LATS 将推理、行动和规划统一起来,创建了一个更深思熟虑、适应性更强的问题解决框架。这种强大的组合可以改进决策,更稳健地处理复杂任务,为部署语言模型作为自主代理设定了新标准。


搜索是 GenAI 解决问题过程中缺失的部分吗?


2


计算问题求解可广义地定义为 “在组合问题空间中的搜索”,以树形结构表示。深度优先搜索(DFS)和广度优先搜索(BFS)是探索此类解空间的基本方法。AlphaGo 的 “第 37 步 ”就是深度搜索能力的一个显著例子,它展示了如何通过广泛的探索产生创新的、超越人类的解决方案。


与遵循预定路径的传统方法不同,LLM 可以根据上下文预测潜在的结果、策略或行动,从而在解决方案空间内动态生成新的分支。这种能力使 LLM 不仅能导航,还能扩展问题空间,因此在问题结构不完全已知、持续演化或高度复杂的情况下,LLM 的功能异常强大。


使用元生成算法(MGA)进行推理时推理


3


在训练过程中扩展计算量能够提高模型性能,这一点已得到广泛认可。但在推理过程中扩展计算量的好处仍未得到充分探索。元生成算法(MGA)通过在推理过程中放大计算资源,提供了一种新颖的方法...


与传统的标记级生成方法不同,元生成算法采用了更高阶的控制结构,如规划、多模型调用循环、自我反省、任务分解和动态调节。这些机制允许模型端到端地执行任务,模仿通常被称为系统-2思维的高层次认知过程。


4


因此,单向元生成算法可以通过将搜索整合到生成过程中来增强 LLM 推理能力。在推理过程中,元生成算法会动态地探索更广阔的解决方案空间,使模型能够对潜在结果进行推理,并实时调整策略。通过生成多种路径并评估其可行性,元生成算法使 LLM 能够模拟更深入、更复杂的推理,类似于传统的搜索方法。这种方法不仅能提高模型生成新见解的能力,还能在信息不完整或不断变化的情况下改进决策。


思维树(ToT)和思维图(GoT)等技术被用来高效地浏览组合解决方案空间。

  • ToT (2*) 通过将潜在结果结构化为树枝,促进探索多种路径,从而实现分层决策。
  • GoT(6*)映射了想法之间的复杂关系,允许模型动态调整和优化其推理路径。
  • CoT(5*)提供逐步推理,将连续的想法联系起来,提高了生成的连贯性和深度。


为什么 MCTS 更好?

在思维树(ToT)方法中,深度优先搜索(DFS)或广度优先搜索(BFS)等传统方法可以浏览这棵树,但它们的计算成本很高,因为它们要系统地、穷尽地探索每一条可能的路径。


蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)在此基础上进行了改进,它模拟不同的行动结果,并根据这些模拟结果更新树。它使用一个 “选择 ”过程,在这个过程中,它使用一种平衡探索(尝试新路径)和利用(选择已知的好路径)的策略来选择决策节点。这一过程由一个名为 “置信度上限(UCB)”的公式指导。


UCB 公式有两个关键部分:

  1. 探索项: 这代表选择节点的潜在回报,通过模拟计算得出。
  2. 开发项: 这意味着,如果一条路径被过度探索,算法可能会转向探索程度较低的路径,即使这条路径最初看起来不那么有希望。


通过使用 UCB 选择节点、使用 LLM 模拟结果(奖励)并将奖励反向传播到树上,MCTS 可以有效地在探索新策略和利用已知成功策略之间取得平衡。


UCB 公式的第二部分是 “利用项”,它会随着探索特定路径的深入而减少。这种减少可能会导致选择算法切换到决策树中的另一条路径,即使这条路径的直接奖励较低,因为当这条路径探索较少时,开发项仍然较高。


利用 UCB 进行节点选择、利用 LLM 模拟进行奖励计算以及反向传播是 MCTS 的精髓所在。


实施 - 财务决策...


5


为了便于演示,我们将使用 LATS 来解决一个具有挑战性的问题,即在当今宏观经济环境下制定最佳投资策略。我们将以 “国际货币基金组织(IMF)世界经济展望报告 ”为背景,向 LLM 提供宏观经济状况,并对文件进行简单总结。不使用 RAG。下面是一个示例,说明 LATS 如何在求解空间中进行搜索...


迭代 1:

1. 选择: 我们从根节点开始,由于这是 LATS 的第一次迭代,我们将选择 LLM 生成的所有初始决策节点(A、B 和 C 节点),并模拟它们的结果。

2. 模拟和反向传播: 接下来,LLM 将根据所掌握的情况 “模拟 ”每个策略,并为每个 “节点 ”分配以下 “奖励”--投资回报。

  • 策略 A:5000 美元
  • 策略 B:7,000 美元
  • 策略 C:4,000 美元

3. 扩展: 根据选择结果,策略 B 的 UCB1 值最高(因为所有节点的深度相同),因此我们只对策略 B 进行扩展,模拟其子节点。


6


迭代 2:

1. 选择: 由于 B1 和 B2 策略未被模拟,因此它们的 UCB 分数相同,两个节点都将被模拟。

2. 模拟两个节点:

  • 模拟 B1: LLM 预测 B1 的收益为 8,500 美元。
  • 模拟 B2: LLM 预测 B2 的收益为 7500 美元。

3. 反向传播:

每次模拟后,模拟结果都会在树上反向传播,更新父节点的值。这一步骤可确保新信息的影响在整个树中得到反映。


更新策略 B 的值: 策略 B 现在需要反映 B1 和 B2 的结果。一种常见的方法是平均 B1 和 B2 的奖励来更新策略 B 的值。现在,根据子节点的结果,策略 B 的更新值为 8,000 美元。


7


4. 重新计算 UCB 分数:

反向传播后,重新计算树中所有节点的 UCB 分数。这种重新计算使用更新值(平均奖励)和访问次数,确保每个节点的 UCB1 分数都能准确反映其潜在奖励和被探索的程度。


UCB(s) = (探索/奖励项)+ (开发项)


请再次注意,对于不断深入探索的路径上的所有节点,开发项都会减少。


5. 下一步选择和模拟:

选择 B1 进一步扩展(因为它的奖励更高)到子节点:

  • B1a:"投资人工智能公司
  • B1b:“投资绿色科技”。


8


6. 反向传播:


9


B1 奖励更新为 (9200 + 6800) / 2 = 8000


B 级奖励更新为 (8000 + 7500) / 2 = 7750


7.UCB 计算

反向传播后,重新计算所有节点的 UCB 值。假设由于探索因子的衰减,B2 现在的 UCB 分数高于 B1a 和 B1b。如果 B1 已被大量探索,减少了其子节点的探索项,就会出现这种情况。算法不会继续扩展 B1 的子节点,而是转回探索 B2,因为 B2 的未开发潜力(即更高的开发值)变得更具吸引力。


10


这个例子说明了 MCTS 如何根据新信息动态调整搜索路径,确保算法在前进过程中保持高效,并专注于最有前途的策略。


使用 Azure OpenAI GPT-4o 实现

接下来,我们将使用 GPT-4o 构建一个 “财务顾问”,实现 LATS。


代码利用 graphviz 库来直观地表示投资策略模拟执行过程中生成的决策树。决策树太宽,无法用一张图片表示,因此我在下面添加了决策树的外观片段。


11


12


以下是 LATS 推断出的最佳策略...


Optimal Strategy Summary: The optimal investment strategy is structured around several key steps influenced by the IMF report. Here's a concise summary of each step and its significance:
1. **Diversification Across Geographies and Sectors:**
 - **Geographic Diversification:** This involves spreading investments across regions to mitigate risk and tap into different growth potentials. Advanced economies like the U.S. remain essential due to their robust consumer spending and resilient labor market, but the portfolio should include cautious weighting to manage risks. Simultaneously, emerging markets in Asia, such as India and Vietnam, are highlighted for their higher growth potential, providing opportunities for higher returns.
 - **Sector Diversification:** Incorporating investments in sectors like green energy and sustainability reflects the growing global emphasis on renewable energy and environmentally friendly technologies. This also aligns with regulatory changes and consumer preferences, creating future growth opportunities.
2. **Green Energy and Sustainability:**
 - Investing in green energy demonstrates foresight into the global shift toward reducing carbon footprints and reliance on fossil fuels. This is significant due to increased governmental supports, such as subsidies and policy incentives, which are likely to propel growth within this sector.
3. **Fintech and E-Commerce:**
 - Allocating capital towards fintech and e-commerce companies capitalizes on the digital transformation accelerated by the global shift towards digital platforms. This sector is expected to grow due to increased adoption of online services and digital payment systems, thus presenting promising investment opportunities.


结论

通过整合 LATS,我们利用 LLM 的推理能力来动态模拟和评估潜在策略。通过这种结合,我们可以构建决策树,它不仅代表了决策的逻辑进展,而且还能适应不断变化的环境和 LLM 通过模拟和反思提供的见解。


文章来源:https://towardsdatascience.com/tackle-complex-llm-decision-making-with-language-agent-tree-search-lats-gpt4-o-0bc648c46ea4
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消