Co-Scientist 论文阅读

Co Scientist

这个系统构造了一个带有 self-play 性质的自我改进闭环:不断生成假设、审查假设、让假设彼此竞争、再从竞争结果中继续演化出更好的假设和研究提案。论文里把这种过程概括成一种更贴近科研流程的 generate -> debate -> rank -> evolve 范式。

根据论文,这套 Co-Scientist 的工作流为:

  • Generation
    • 通过网络搜索的文献探索。 代理会迭代式地进行网络搜索、检索和阅读相关研究文章,把已有工作整理成一个可供后续推理使用的事实背景。在这个基础上,它不是简单复述文献,而是试图沿着“已有证据支持但尚未被充分提出”的方向生成新的假设和研究计划。
    • 模拟科学辩论。 生成代理会使用 self-critiqueself-play 的方式,模拟不同专家之间围绕同一问题展开的多轮科学辩论。这个过程有点像让模型先提出,再反驳,再修正,最后沉淀出一个更精炼、更经得起推敲的假设。
    • 迭代假设识别。 代理会先识别一批“如果成立,就可能导向新发现”的中间假设,再把这些中间假设继续拆成更基础的子假设,通过多跳条件推理把它们串起来,最终聚合为完整的研究假设。这个设计的意义在于:它不是直接赌一个大结论,而是先沿着一串可测试的前提往前推进。
    • 研究扩展。 为了避免只在一个局部方向上打转,生成代理还会回看现有假设,以及上一轮 Meta-review agent 产出的研究概述和反馈,从中识别“哪些方向已经探索过、哪些区域仍然空白”,据此扩展到更少被覆盖的假设空间。
  • Reflection
    • 初始审查。 基于 Co-Scientist 默认的评估标准,Reflection agent 会先做一次轻量级筛查,考察假设的正确性、质量、新颖性,以及初步的安全/伦理风险。这个阶段不调用外部搜索工具,目标是快速排除明显有缺陷、缺乏新意、或者根本不适合推进的假设。

    • 全面审查。 如果一个假设通过了初筛,Reflection agent 会进入完整审查,调用外部工具和网络搜索去找相关论文、已有实验结果和支持/反对证据。此时它会更系统地检查:推理链条是否扎实、前提是否成立、与现有文献相比到底新在哪。论文里特别强调,这一步对“新颖性”的判断高度依赖外部检索,否则很容易把“看起来新”误判成“真正没被做过”。

    • 深度验证审查。 Reflection agent 还会把一个复杂假设拆成若干组成性假设,再进一步拆成更基础的子假设,并把它们从原上下文中抽离出来单独验证。这样做的目的是识别真正导致假设失效的关键错误,比如推理漏洞、机制假设不成立、实验设计不准确等。论文还特别指出:发现错误并不一定意味着整个假设报废,关键在于判断这个错误是不是“基础性错误”;如果不是,后续仍然可以通过 Evolution 阶段继续修补。

    • 观察评论。 除了判断“这个假设对不对”,Reflection agent 还会追问:这个假设能不能解释既有实验里那些长期没有被解释好的 long-tail observations。如果它能为某些零散、边角、过去解释不充分的观察现象提供更强的上位解释,那么这个假设的价值就会上升。论文里说,正向发现会被附加到该假设后面,作为进一步支持材料。

    • 模拟审查。 Reflection agent 还会做逐步模拟,例如模拟某个作用机制、模拟某个实验方案的执行过程,进而暴露可能失败的步骤、隐藏前提和潜在故障场景。作者这里的一个隐含假设是:前沿大模型可能已经形成了某种“科学世界模型”,因此可以在一定程度上对机制或实验流程进行近似演绎。

    • 经常性/锦标赛回顾。 Reflection agent 不只是一次次独立审稿,它还会读取 Ranking agent 组织的锦标赛结果,分析哪些问题反复出现、哪些类型的假设总是被打败、哪些审查角度最容易漏掉关键点。于是它后续的 review 会越来越“带经验”,形成一个逐轮增强的评审器。

  • Ranking 这个设计很关键,因为科学假设并没有一个天然、可靠的绝对分数。论文的处理方式不是直接“打总分”,而是把假设放进一个 Elo-based tournament 里做相对比较,问的是:在有限时间和资源下,哪一个更值得优先投入。

输入: 研究目标 G 候选假设集合 H 每个假设的当前 Elo 分数 假设之间的 proximity graph 已有的 reviewtournament history

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1. 对每个新加入的假设赋予初始 Elo = 1200。

2. 根据 proximity graph 选择待比较的假设对。
优先比较语义相近的假设,因为它们更适合直接竞争。
同时优先让“新假设”和“当前高排名假设”尽快进入比赛。

3. 对高排名假设对,启动多轮 scientific debate。
重点比较新颖性、正确性、可测试性,以及与研究目标的契合度。

4. 对较低排名假设对,执行单轮 pairwise comparison。
用更便宜的比较方式快速决定谁更值得保留。

5. Ranking agent 输出本场比赛的胜者,并给出 supporting rationale。

6. 根据比赛结果更新两个假设的 Elo 分数。
胜者上升,败者下降;如果低分假设击败高分假设,分数变化会更明显。

7. 重复步骤 2 到 6,直到计算预算耗尽或达到终止条件。

8. 按 Elo 分数从高到低输出最终 ranked hypotheses。
  • Proximity Proximity agent 负责计算研究假设和研究提案之间的相似度,并结合具体研究目标构建一个 proximity graph。它本身不直接生成假设,但会帮助 Ranking agent 更高效地组织锦标赛:一方面让相近想法优先对打,另一方面又能帮助系统展示与目标相关但彼此不同的一组思路。论文里还强调,这个图不仅用于“找近邻”,也用于去重和更全面地探索问题空间。

  • Evolution(这一部分在论文里面被隐藏了。如果要复现只能是认为是简单的prompt进化)

    • 通过基础增强。 这里的思路是“补地基”。智能体会先找出一个假设薄弱的地方,再主动生成搜索查询,检索和阅读相关文献,补足事实依据、填平推理缺口、把本来只是一个轮廓的想法做得更扎实。

    • 一致性、实用性和可行性改进。 智能体会专门处理假设中的不一致、不可操作、难验证等问题,把假设改写得更连贯、更像一个能真正落地做实验的研究方案。论文里把 feasibility 单独拎出来,说明它不只是追求“有趣”,也在追求“做得出来”。

    • 从现有假设中获得灵感。 它可以从一个或多个高排名假设中抽取关键结构,再派生出新的假设。也就是说,Evolution 不只是修旧答案,也会从好答案里长出新分支。

    • 组合。 它会尝试把多个顶级假设各自最强的部分拼接起来,形成一个新的候选假设。这有点像科研里常见的“把不同文献中的局部正确拼成一个更完整的框架”。

    • 简化。 复杂假设往往难证伪、难测试,因此智能体还会主动把假设做简化,尽量压缩为更容易验证的版本。

    • 开箱即用的思维。 论文里对应的是 out-of-box thinking。也就是故意偏离当前主流假设簇,生成更发散、甚至有点反常规的候选思路,防止搜索过程过早收敛。

Evolution agent 的一个重要设计是:它生成的是新的假设,而不是直接修改旧假设。 这样做的好处是,不会因为一次失败的“修补”破坏掉当前高排名结果;任何改进版都必须重新进入锦标赛竞争。

  • Meta-review Meta-review agent 本质上不是审某一个具体假设,而是站在更高一层,总结一轮 reviewdebate 中反复出现的问题模式,把这些模式提炼成对其他代理都能复用的反馈。

    • 研究概述生成。 在计算结束时,它会把高排名假设整合成一份 research overview,给出未来可继续推进的研究方向、每个方向为什么重要,以及可以配套做哪些实验。论文里强调,这个 overview 不只是最终汇总,也会在下一轮作为 Generation agent 的输入,帮助系统更清楚地描画“当前知识边界”。
    • 联系人识别。 它还会基于先前的文献检索,推荐适合评审这些假设或适合潜在合作的领域专家,并给出推荐理由。这个输出会被附在研究概述里,作用更偏向“把后续合作路径也一并组织出来”。
  • Human Expert in Loop > 人类科学家在 Co-Scientist 的运行过程中起到的作用有:

  • 定义研究目标。 研究者先写一个比较细的目标提示,里面可以包括研究问题、约束条件、偏好的解空间、希望输出具备的属性,以及相关背景文献或数据。

  • 目标优化。 在看到中间产物和研究概述之后,研究者可以继续改写目标,引导系统转向更具体或更可行的方向。

  • 提供 review 的审查。 人类专家可以手工写 review,系统会把它吸收进后续的评估与改进流程。

  • 提供自己的想法和假设纳入 Tournament。 界面允许科学家把自己的假设直接放进锦标赛,与系统生成的假设一起排序、比较、甚至组合。

  • 最后评审和选择。 系统跑完之后,专家面对的是“按优先级排好的假设列表 + 一份综合研究概述”,然后再决定哪些值得进入真正的实验验证。

论文给了一个很有意思的时间量级:在 AML 药物再利用实验中,专家用于定义初始目标的时间不到 1 小时,而在系统完成复杂推理之后,最终筛选可进湿实验的候选只花了大约 3 小时。作者的判断是,这类系统可以把原本需要科学家几天甚至几周做的整理、发散和比较工作压缩到一个更可控的流程里。

  • 选择使用的工具 主要工具还是网络搜索和检索,这决定了它不是封闭地“靠记忆猜”,而是持续从外部知识里取材。 对于那种解空间本来就受限的任务,系统也会调用特定领域工具来约束搜索范围。例如:开放数据库、给定药物清单、指定受体列表等。 另外,Co-Scientist 还可以索引并搜索科学家提供的私有论文仓库和实验数据;在某些任务里,它还可以结合专门的 AI 模型反馈,例如论文提到的 AlphaFold

根据他们的消融实验,可以得到这几个比较关键的结论:

Agent ablation analysis: - 给 Reflection agent 接入外部搜索工具非常重要。没有搜索时,它会把很多“看起来新、其实不靠谱”的想法误判为新颖;论文里在一个已发表想法数据集上给出的结果是,新颖性自动评分从 6.14/10 降到 2.38/10,反而更接近真实情况。同时,已知正确想法的 correctness 自动评分从 7.4/10 提高到 8.46/10。 - Ranking agent 使用“科学辩论式提示”而不是简单比较提示,能显著提升高质量假设的排序准确性,并减少位置偏差(positional bias)。 - Evolution agent 的迭代改进确实有效。在 GPQA 上,precision 从 70.9% 提高到 75.4%;在他们构造的研究假设数据集上,平均质量分数从 4.7 提高到 5.6。 - Proximity agent 的语义相似度和真实质量差异之间存在较强相关性,因此它并不只是一个“展示模块”,而是实实在在帮助系统更全面地探索问题空间。 - Meta-review agent 也有量化收益:用于预测正确解的 correctness review AUC,在构造数据集上从 0.521 提高到 0.597,在 GPQA diamond 上从 0.629 提高到 0.634

使用科学辩论提示,而不是简单比较提示,可以显著提高生成假设的质量判断和排名准确性。这其实很符合直觉,因为科研里的优劣判断往往不是一眼看“像不像”,而是在对抗式比较里逼出真正的弱点和优势。

缩放测试时计算可改善科学推理。 Co-Scientist 的假设和建议被按生成时间切成 10 个等大小的时间桶,每个桶对应整个生成过程中的连续 10% 时间段。作者在 203 个研究目标上统计了两个指标:top-10 hypotheses 的平均 Elo,以及单个最佳假设的 best Elo。结果是,这两个指标都会随着推理时间增加而持续上升,说明系统确实在“越想越好”,而不是只是在前面把好答案一次性吐出来。

15 个由生物医学专家精心设计的困难目标上,这个趋势依然成立,而且 Co-Scientist 最终在 Elo 上显著超过了同时期的其他前沿推理模型。论文里还特别提到,他们没有观察到明显的性能饱和,这意味着只要研究目标本身适合这种“搜索 + 探索 + 反馈”范式,继续增加 test-time compute 仍可能带来收益。

另外,在 11 个专家评估的研究目标上,Co-Scientist 的输出也被人类专家整体上评得更好:平均偏好排序是 2.36,新颖性评分 3.64/5,影响力评分 3.09/5。这部分当然还是主观评估,但至少说明 Elo 这个内部指标和专家直觉并不是完全脱节的。

AML 药物再利用候选物的 Wet-lab 验证: - 系统被限制在一个由 2300 个已批准药物、34 类癌症构成的受限搜索空间里做药物再利用推理,然后再交给肿瘤学专家筛选。 - 专家先从 30 个高排名候选里选出更值得进实验的药物。首轮进入 AML 湿实验的 5 个候选是 BinimetinibPacritinibCerivastatinPravastatinDimethyl fumarate (DMF)。 - 结果上,BinimetinibPacritinibCerivastatin 显示出抑制细胞活性的效果。其中 Binimetinib 在多数 AML 细胞系中的 IC50 低到 2 nM,而在非 AML 对照细胞系 TK6 中明显更高,说明它至少在体外表现出一定的选择性信号。 - 论文还进一步测试了完全由系统自主提出、且没有先前该适应症证据支持的单药候选。专家选了 NanvuranlatKIRA6Leflunomide 做验证,其中 KIRA6 在多个 AML 细胞系里表现出更有希望的抑制效果。 - 组合疗法方面,系统又提出了 7 个 AML 联合用药方案。在 MOLM-13 细胞里,多数组合呈现协同;而在 KG-1a 里,协同与拮抗并存,提示不同 AML 亚型对组合疗法的反应非常依赖分子背景。