multi agents 论文调研

Posted on 2025-12-02 Edited on 2025-12-03

智能体

Agent是一个能感知环境、做出决策、执行动作，并通过经验学习改进自身行为的自主实体。现在LLM出来过后，Agent的研究领域基本上采取大模型来作为大脑构建LLM + Agent

这个的话我知道的有Reflection和RAG等机制

Reflection机制为自我反思机制，大模型自己判断自己的思路是否正确。这个玩意我看过的有在 gemini 解决IMO题目的时候看到过

多智能体系统

多智能体系统工程应用
- 多智能体的分布式问题求解机制
- 多智能体的可扩展性
- 多智能体的鲁棒性
多智能体的控制理论
- 有限时间容错控制
- 多智能体间的通信，激励设计
多智能体RL
- 多智能体奖励分配
- 多智能体表征学习

LLM与多智能体系统

大模型赋能的智能体团队 这种系统在这篇survey里面的说法是现在主流的研究在开发这种多智能体系统上，尤其是针对某个具体场景开发多智能体系统。文章里面说这种多智能体系统包括 > - 智能体（Agents）：具有角色、能力、行为和知识模型的核心行动者。其能力包括学习、规划、推理和决策等，这些能力赋予智能体及整个系统以智能。 > - 环境（Environment）：智能体所处的外部世界，智能体可以感知该环境并对其采取行动。环境可以是模拟的，也可以是物理空间，例如工厂、道路、电网等。 > - 交互（Interactions）：智能体之间通过标准的智能体通信语言进行交流。根据系统需求，智能体之间的交互可包括合作、协调、协商等多种形式。 > - 组织结构（Organization）：智能体既可以采用层级化控制结构，也可以基于涌现行为进行自组织。

里面的环境这块就说明这种多智能体系统的玩意主要是在某个具体场景进行落地，然后来发论文

e.g. 金融方面的：TradingAgents: Multi-Agents LLM Financial Trading Framework 法律方面的：LawLuo: A Multi-Agent Collaborative Framework for Multi-Round Chinese Legal Consultation 安全方面的：AI-Driven Multi-Agent System for Real-Time Security Analysis of Software Releases

多智能体的基础设施建设 AgentScope: A Flexible yet Robust Multi-Agent Platform 然后还有langgraph langchain AutoGen这块。 多智能体协作

协作类型又分为合作，竞争，合作竞争 合作方面：各个智能体的目标基本对齐到一个共同目标 G，强调分工与配合。如AgentVerse 竞争方面：智能体之间存在冲突目标，让 LLM 智能体相互对抗以优化决策。比方说提供一个游戏环境，让LLM互相打。如LLMArena ACL 2024 合作竞争相结合的。这个一般出现在社科类研究，这里就没写。

多智能体控制理论

AI智能体博弈方面的问题

这里的话就是多智能体=可学习的博弈参与者，所以就有一堆围绕策略收敛、均衡概念、合作/对抗机制的工作。一些比较新的综述把 MARL 明确放在"博弈论 + 机器学习"的交叉位置，讨论不同奖励结构下的合作、对抗、混合博弈；多智能体场景特有的问题：非平稳性、信用分配、可扩展性等。综述A Survey of Progress on Cooperative Multi-agent Reinforcement Learning e.g. 多个智能体共同博弈学习，最终达到某个稳态: 像下面这篇论文就是在带状态扰动/对抗者的马尔可夫博弈里，定义了一个均衡并给出 Q-learning 收敛条件。 Robust Multi-Agent Reinforcement Learning with State Uncertainty

多智能体间的通信，激励设计

Multi-Agent Incentive Communication (AAAI 2023) 在强化学习框架下，每个智能体可发送"激励信号"给其他智能体，该信号直接加到接收方的局部Q值上，引导其行为朝向全局最优； Efficient Communication in Multi-Agent Reinforcement Learning with Consensus-guided Messages(AAAI 2024)

多智能体系统可扩展性的研究

比如一个系统能够在10个agent下运行，那么100个，1900个能不能稳定运行这种，去找系统的负载的类型的文章 e.g. The scalability impact on Organization-based Multi-Agent Systems

多智能体强化学习

对AI系统方面某个agent所作出的工作

因为在合作 MARL/MAS 中，只有一个团队奖励，怎么知道哪个 agent 在什么时候贡献了多少？或者在奖励非常稀疏的时候，又如何让学习收敛，然后就有了这种类型的工作 FACMAC: Factored Multi-Agent Centralised Policy Gradients(NeurIPS 2021)

ndividual Reward Assisted Multi-Agent Reinforcement Learning（ICML 2022）

STAS: Spatial-Temporal Return Decomposition for Solving Sparse Rewards Problems in MARL（AAAI 2024）

多智能体表征学习

这个主要是为了让后续的值分解/策略学习更容易。这种学习又分为三类，分别是基于角色的表征，使用图结构的表征，关系建模的表征。和为值分解门优化的 latent 表征。

基于角色的表征

ROMA: Multi-Agent Reinforcement Learning with Emergent Roles (ICML 2020) 这篇论文就通过引入了入一个角色embedding空间，每个 agent 在其中采样一个 role，policy 以 role 为条件。通过互信息和正则项，让同一角色的 agent 行为相似，可以共享经验；不同角色的 agent 行为差异大，有任务分工。 #### 使用GNN的表征 MAGNet: Multi-agent Graph Network for Deep MARL #### 为值分解专门优化的latent表征 UNSR：Unit-wise Attentive State Representation 先用 transformer 学一个更 disentangled 的 unit-wise state 表征，再增强 MIXING 网络中的 credit assignment