Co-Scientist 论文阅读

发表于 2026-07-02

Co Scientist 这个系统构造了一个带有 self-play 性质的自我改进闭环：不断生成假设、审查假设、让假设彼此竞争、再从竞争结果中继续演化出更好的假设和研究提案。论文里把这种过程概括成一种更贴近科研流程的 generate -> debate -> ra...

Co Scientist

这个系统构造了一个带有 self-play 性质的自我改进闭环：不断生成假设、审查假设、让假设彼此竞争、再从竞争结果中继续演化出更好的假设和研究提案。论文里把这种过程概括成一种更贴近科研流程的 generate -> debate -> rank -> evolve 范式。

根据论文，这套 Co-Scientist 的工作流为：

Generation
- 通过网络搜索的文献探索。代理会迭代式地进行网络搜索、检索和阅读相关研究文章，把已有工作整理成一个可供后续推理使用的事实背景。在这个基础上，它不是简单复述文献，而是试图沿着“已有证据支持但尚未被充分提出”的方向生成新的假设和研究计划。
- 模拟科学辩论。生成代理会使用 self-critique 和 self-play 的方式，模拟不同专家之间围绕同一问题展开的多轮科学辩论。这个过程有点像让模型先提出，再反驳，再修正，最后沉淀出一个更精炼、更经得起推敲的假设。
- 迭代假设识别。代理会先识别一批“如果成立，就可能导向新发现”的中间假设，再把这些中间假设继续拆成更基础的子假设，通过多跳条件推理把它们串起来，最终聚合为完整的研究假设。这个设计的意义在于：它不是直接赌一个大结论，而是先沿着一串可测试的前提往前推进。
- 研究扩展。为了避免只在一个局部方向上打转，生成代理还会回看现有假设，以及上一轮 Meta-review agent 产出的研究概述和反馈，从中识别“哪些方向已经探索过、哪些区域仍然空白”，据此扩展到更少被覆盖的假设空间。
Reflection
- 初始审查。基于 Co-Scientist 默认的评估标准，Reflection agent 会先做一次轻量级筛查，考察假设的正确性、质量、新颖性，以及初步的安全/伦理风险。这个阶段不调用外部搜索工具，目标是快速排除明显有缺陷、缺乏新意、或者根本不适合推进的假设。
- 全面审查。如果一个假设通过了初筛，Reflection agent 会进入完整审查，调用外部工具和网络搜索去找相关论文、已有实验结果和支持/反对证据。此时它会更系统地检查：推理链条是否扎实、前提是否成立、与现有文献相比到底新在哪。论文里特别强调，这一步对“新颖性”的判断高度依赖外部检索，否则很容易把“看起来新”误判成“真正没被做过”。
- 深度验证审查。 Reflection agent 还会把一个复杂假设拆成若干组成性假设，再进一步拆成更基础的子假设，并把它们从原上下文中抽离出来单独验证。这样做的目的是识别真正导致假设失效的关键错误，比如推理漏洞、机制假设不成立、实验设计不准确等。论文还特别指出：发现错误并不一定意味着整个假设报废，关键在于判断这个错误是不是“基础性错误”；如果不是，后续仍然可以通过 Evolution 阶段继续修补。
- 观察评论。除了判断“这个假设对不对”，Reflection agent 还会追问：这个假设能不能解释既有实验里那些长期没有被解释好的 long-tail observations。如果它能为某些零散、边角、过去解释不充分的观察现象提供更强的上位解释，那么这个假设的价值就会上升。论文里说，正向发现会被附加到该假设后面，作为进一步支持材料。
- 模拟审查。 Reflection agent 还会做逐步模拟，例如模拟某个作用机制、模拟某个实验方案的执行过程，进而暴露可能失败的步骤、隐藏前提和潜在故障场景。作者这里的一个隐含假设是：前沿大模型可能已经形成了某种“科学世界模型”，因此可以在一定程度上对机制或实验流程进行近似演绎。
- 经常性/锦标赛回顾。 Reflection agent 不只是一次次独立审稿，它还会读取 Ranking agent 组织的锦标赛结果，分析哪些问题反复出现、哪些类型的假设总是被打败、哪些审查角度最容易漏掉关键点。于是它后续的 review 会越来越“带经验”，形成一个逐轮增强的评审器。
Ranking 这个设计很关键，因为科学假设并没有一个天然、可靠的绝对分数。论文的处理方式不是直接“打总分”，而是把假设放进一个 Elo-based tournament 里做相对比较，问的是：在有限时间和资源下，哪一个更值得优先投入。

输入：研究目标 G 候选假设集合 H 每个假设的当前 Elo 分数假设之间的 proximity graph 已有的 review 与 tournament history

1. 对每个新加入的假设赋予初始 Elo = 1200。

2. 根据 proximity graph 选择待比较的假设对。
   优先比较语义相近的假设，因为它们更适合直接竞争。
   同时优先让“新假设”和“当前高排名假设”尽快进入比赛。

3. 对高排名假设对，启动多轮 scientific debate。
   重点比较新颖性、正确性、可测试性，以及与研究目标的契合度。

4. 对较低排名假设对，执行单轮 pairwise comparison。
   用更便宜的比较方式快速决定谁更值得保留。

5. Ranking agent 输出本场比赛的胜者，并给出 supporting rationale。

6. 根据比赛结果更新两个假设的 Elo 分数。
   胜者上升，败者下降；如果低分假设击败高分假设，分数变化会更明显。

7. 重复步骤 2 到 6，直到计算预算耗尽或达到终止条件。

8. 按 Elo 分数从高到低输出最终 ranked hypotheses。

Proximity Proximity agent 负责计算研究假设和研究提案之间的相似度，并结合具体研究目标构建一个 proximity graph。它本身不直接生成假设，但会帮助 Ranking agent 更高效地组织锦标赛：一方面让相近想法优先对打，另一方面又能帮助系统展示与目标相关但彼此不同的一组思路。论文里还强调，这个图不仅用于“找近邻”，也用于去重和更全面地探索问题空间。
Evolution（这一部分在论文里面被隐藏了。如果要复现只能是认为是简单的prompt进化）
- 通过基础增强。这里的思路是“补地基”。智能体会先找出一个假设薄弱的地方，再主动生成搜索查询，检索和阅读相关文献，补足事实依据、填平推理缺口、把本来只是一个轮廓的想法做得更扎实。
- 一致性、实用性和可行性改进。智能体会专门处理假设中的不一致、不可操作、难验证等问题，把假设改写得更连贯、更像一个能真正落地做实验的研究方案。论文里把 feasibility 单独拎出来，说明它不只是追求“有趣”，也在追求“做得出来”。
- 从现有假设中获得灵感。它可以从一个或多个高排名假设中抽取关键结构，再派生出新的假设。也就是说，Evolution 不只是修旧答案，也会从好答案里长出新分支。
- 组合。它会尝试把多个顶级假设各自最强的部分拼接起来，形成一个新的候选假设。这有点像科研里常见的“把不同文献中的局部正确拼成一个更完整的框架”。
- 简化。复杂假设往往难证伪、难测试，因此智能体还会主动把假设做简化，尽量压缩为更容易验证的版本。
- 开箱即用的思维。论文里对应的是 out-of-box thinking。也就是故意偏离当前主流假设簇，生成更发散、甚至有点反常规的候选思路，防止搜索过程过早收敛。

Evolution agent 的一个重要设计是：它生成的是新的假设，而不是直接修改旧假设。 这样做的好处是，不会因为一次失败的“修补”破坏掉当前高排名结果；任何改进版都必须重新进入锦标赛竞争。

Meta-review Meta-review agent 本质上不是审某一个具体假设，而是站在更高一层，总结一轮 review 和 debate 中反复出现的问题模式，把这些模式提炼成对其他代理都能复用的反馈。
- 研究概述生成。在计算结束时，它会把高排名假设整合成一份 research overview，给出未来可继续推进的研究方向、每个方向为什么重要，以及可以配套做哪些实验。论文里强调，这个 overview 不只是最终汇总，也会在下一轮作为 Generation agent 的输入，帮助系统更清楚地描画“当前知识边界”。
- 联系人识别。它还会基于先前的文献检索，推荐适合评审这些假设或适合潜在合作的领域专家，并给出推荐理由。这个输出会被附在研究概述里，作用更偏向“把后续合作路径也一并组织出来”。
Human Expert in Loop > 人类科学家在 Co-Scientist 的运行过程中起到的作用有：
定义研究目标。研究者先写一个比较细的目标提示，里面可以包括研究问题、约束条件、偏好的解空间、希望输出具备的属性，以及相关背景文献或数据。
目标优化。在看到中间产物和研究概述之后，研究者可以继续改写目标，引导系统转向更具体或更可行的方向。
提供 review 的审查。人类专家可以手工写 review，系统会把它吸收进后续的评估与改进流程。
提供自己的想法和假设纳入 Tournament。界面允许科学家把自己的假设直接放进锦标赛，与系统生成的假设一起排序、比较、甚至组合。
最后评审和选择。系统跑完之后，专家面对的是“按优先级排好的假设列表 + 一份综合研究概述”，然后再决定哪些值得进入真正的实验验证。

论文给了一个很有意思的时间量级：在 AML 药物再利用实验中，专家用于定义初始目标的时间不到 1 小时，而在系统完成复杂推理之后，最终筛选可进湿实验的候选只花了大约 3 小时。作者的判断是，这类系统可以把原本需要科学家几天甚至几周做的整理、发散和比较工作压缩到一个更可控的流程里。

选择使用的工具主要工具还是网络搜索和检索，这决定了它不是封闭地“靠记忆猜”，而是持续从外部知识里取材。对于那种解空间本来就受限的任务，系统也会调用特定领域工具来约束搜索范围。例如：开放数据库、给定药物清单、指定受体列表等。另外，Co-Scientist 还可以索引并搜索科学家提供的私有论文仓库和实验数据；在某些任务里，它还可以结合专门的 AI 模型反馈，例如论文提到的 AlphaFold。

根据他们的消融实验，可以得到这几个比较关键的结论：

Agent ablation analysis: - 给 Reflection agent 接入外部搜索工具非常重要。没有搜索时，它会把很多“看起来新、其实不靠谱”的想法误判为新颖；论文里在一个已发表想法数据集上给出的结果是，新颖性自动评分从 6.14/10 降到 2.38/10，反而更接近真实情况。同时，已知正确想法的 correctness 自动评分从 7.4/10 提高到 8.46/10。 - Ranking agent 使用“科学辩论式提示”而不是简单比较提示，能显著提升高质量假设的排序准确性，并减少位置偏差（positional bias）。 - Evolution agent 的迭代改进确实有效。在 GPQA 上，precision 从 70.9% 提高到 75.4%；在他们构造的研究假设数据集上，平均质量分数从 4.7 提高到 5.6。 - Proximity agent 的语义相似度和真实质量差异之间存在较强相关性，因此它并不只是一个“展示模块”，而是实实在在帮助系统更全面地探索问题空间。 - Meta-review agent 也有量化收益：用于预测正确解的 correctness review AUC，在构造数据集上从 0.521 提高到 0.597，在 GPQA diamond 上从 0.629 提高到 0.634。

使用科学辩论提示，而不是简单比较提示，可以显著提高生成假设的质量判断和排名准确性。这其实很符合直觉，因为科研里的优劣判断往往不是一眼看“像不像”，而是在对抗式比较里逼出真正的弱点和优势。

缩放测试时计算可改善科学推理。 Co-Scientist 的假设和建议被按生成时间切成 10 个等大小的时间桶，每个桶对应整个生成过程中的连续 10% 时间段。作者在 203 个研究目标上统计了两个指标：top-10 hypotheses 的平均 Elo，以及单个最佳假设的 best Elo。结果是，这两个指标都会随着推理时间增加而持续上升，说明系统确实在“越想越好”，而不是只是在前面把好答案一次性吐出来。

在 15 个由生物医学专家精心设计的困难目标上，这个趋势依然成立，而且 Co-Scientist 最终在 Elo 上显著超过了同时期的其他前沿推理模型。论文里还特别提到，他们没有观察到明显的性能饱和，这意味着只要研究目标本身适合这种“搜索 + 探索 + 反馈”范式，继续增加 test-time compute 仍可能带来收益。

另外，在 11 个专家评估的研究目标上，Co-Scientist 的输出也被人类专家整体上评得更好：平均偏好排序是 2.36，新颖性评分 3.64/5，影响力评分 3.09/5。这部分当然还是主观评估，但至少说明 Elo 这个内部指标和专家直觉并不是完全脱节的。

AML 药物再利用候选物的 Wet-lab 验证： - 系统被限制在一个由 2300 个已批准药物、34 类癌症构成的受限搜索空间里做药物再利用推理，然后再交给肿瘤学专家筛选。 - 专家先从 30 个高排名候选里选出更值得进实验的药物。首轮进入 AML 湿实验的 5 个候选是 Binimetinib、Pacritinib、Cerivastatin、Pravastatin 和 Dimethyl fumarate (DMF)。 - 结果上，Binimetinib、Pacritinib 和 Cerivastatin 显示出抑制细胞活性的效果。其中 Binimetinib 在多数 AML 细胞系中的 IC50 低到 2 nM，而在非 AML 对照细胞系 TK6 中明显更高，说明它至少在体外表现出一定的选择性信号。 - 论文还进一步测试了完全由系统自主提出、且没有先前该适应症证据支持的单药候选。专家选了 Nanvuranlat、KIRA6、Leflunomide 做验证，其中 KIRA6 在多个 AML 细胞系里表现出更有希望的抑制效果。 - 组合疗法方面，系统又提出了 7 个 AML 联合用药方案。在 MOLM-13 细胞里，多数组合呈现协同；而在 KG-1a 里，协同与拮抗并存，提示不同 AML 亚型对组合疗法的反应非常依赖分子背景。