Co-Scientist 论文阅读
Co Scientist
这个系统构造了一个带有 self-play
性质的自我改进闭环:不断生成假设、审查假设、让假设彼此竞争、再从竞争结果中继续演化出更好的假设和研究提案。论文里把这种过程概括成一种更贴近科研流程的
generate -> debate -> rank -> evolve 范式。
根据论文,这套 Co-Scientist 的工作流为:
- Generation
- 通过网络搜索的文献探索。 代理会迭代式地进行网络搜索、检索和阅读相关研究文章,把已有工作整理成一个可供后续推理使用的事实背景。在这个基础上,它不是简单复述文献,而是试图沿着“已有证据支持但尚未被充分提出”的方向生成新的假设和研究计划。
- 模拟科学辩论。 生成代理会使用
self-critique和self-play的方式,模拟不同专家之间围绕同一问题展开的多轮科学辩论。这个过程有点像让模型先提出,再反驳,再修正,最后沉淀出一个更精炼、更经得起推敲的假设。 - 迭代假设识别。 代理会先识别一批“如果成立,就可能导向新发现”的中间假设,再把这些中间假设继续拆成更基础的子假设,通过多跳条件推理把它们串起来,最终聚合为完整的研究假设。这个设计的意义在于:它不是直接赌一个大结论,而是先沿着一串可测试的前提往前推进。
- 研究扩展。
为了避免只在一个局部方向上打转,生成代理还会回看现有假设,以及上一轮
Meta-review agent产出的研究概述和反馈,从中识别“哪些方向已经探索过、哪些区域仍然空白”,据此扩展到更少被覆盖的假设空间。
- Reflection
初始审查。 基于
Co-Scientist默认的评估标准,Reflection agent会先做一次轻量级筛查,考察假设的正确性、质量、新颖性,以及初步的安全/伦理风险。这个阶段不调用外部搜索工具,目标是快速排除明显有缺陷、缺乏新意、或者根本不适合推进的假设。全面审查。 如果一个假设通过了初筛,
Reflection agent会进入完整审查,调用外部工具和网络搜索去找相关论文、已有实验结果和支持/反对证据。此时它会更系统地检查:推理链条是否扎实、前提是否成立、与现有文献相比到底新在哪。论文里特别强调,这一步对“新颖性”的判断高度依赖外部检索,否则很容易把“看起来新”误判成“真正没被做过”。深度验证审查。
Reflection agent还会把一个复杂假设拆成若干组成性假设,再进一步拆成更基础的子假设,并把它们从原上下文中抽离出来单独验证。这样做的目的是识别真正导致假设失效的关键错误,比如推理漏洞、机制假设不成立、实验设计不准确等。论文还特别指出:发现错误并不一定意味着整个假设报废,关键在于判断这个错误是不是“基础性错误”;如果不是,后续仍然可以通过Evolution阶段继续修补。观察评论。 除了判断“这个假设对不对”,
Reflection agent还会追问:这个假设能不能解释既有实验里那些长期没有被解释好的long-tail observations。如果它能为某些零散、边角、过去解释不充分的观察现象提供更强的上位解释,那么这个假设的价值就会上升。论文里说,正向发现会被附加到该假设后面,作为进一步支持材料。模拟审查。
Reflection agent还会做逐步模拟,例如模拟某个作用机制、模拟某个实验方案的执行过程,进而暴露可能失败的步骤、隐藏前提和潜在故障场景。作者这里的一个隐含假设是:前沿大模型可能已经形成了某种“科学世界模型”,因此可以在一定程度上对机制或实验流程进行近似演绎。经常性/锦标赛回顾。
Reflection agent不只是一次次独立审稿,它还会读取Ranking agent组织的锦标赛结果,分析哪些问题反复出现、哪些类型的假设总是被打败、哪些审查角度最容易漏掉关键点。于是它后续的 review 会越来越“带经验”,形成一个逐轮增强的评审器。
- Ranking
这个设计很关键,因为科学假设并没有一个天然、可靠的绝对分数。论文的处理方式不是直接“打总分”,而是把假设放进一个
Elo-based tournament里做相对比较,问的是:在有限时间和资源下,哪一个更值得优先投入。
输入: 研究目标
G候选假设集合H每个假设的当前Elo分数 假设之间的proximity graph已有的review与tournament history
1 | 1. 对每个新加入的假设赋予初始 Elo = 1200。 |
Proximity
Proximity agent负责计算研究假设和研究提案之间的相似度,并结合具体研究目标构建一个proximity graph。它本身不直接生成假设,但会帮助Ranking agent更高效地组织锦标赛:一方面让相近想法优先对打,另一方面又能帮助系统展示与目标相关但彼此不同的一组思路。论文里还强调,这个图不仅用于“找近邻”,也用于去重和更全面地探索问题空间。Evolution(这一部分在论文里面被隐藏了。如果要复现只能是认为是简单的prompt进化)
通过基础增强。 这里的思路是“补地基”。智能体会先找出一个假设薄弱的地方,再主动生成搜索查询,检索和阅读相关文献,补足事实依据、填平推理缺口、把本来只是一个轮廓的想法做得更扎实。
一致性、实用性和可行性改进。 智能体会专门处理假设中的不一致、不可操作、难验证等问题,把假设改写得更连贯、更像一个能真正落地做实验的研究方案。论文里把
feasibility单独拎出来,说明它不只是追求“有趣”,也在追求“做得出来”。从现有假设中获得灵感。 它可以从一个或多个高排名假设中抽取关键结构,再派生出新的假设。也就是说,
Evolution不只是修旧答案,也会从好答案里长出新分支。组合。 它会尝试把多个顶级假设各自最强的部分拼接起来,形成一个新的候选假设。这有点像科研里常见的“把不同文献中的局部正确拼成一个更完整的框架”。
简化。 复杂假设往往难证伪、难测试,因此智能体还会主动把假设做简化,尽量压缩为更容易验证的版本。
开箱即用的思维。 论文里对应的是
out-of-box thinking。也就是故意偏离当前主流假设簇,生成更发散、甚至有点反常规的候选思路,防止搜索过程过早收敛。
Evolution agent
的一个重要设计是:它生成的是新的假设,而不是直接修改旧假设。
这样做的好处是,不会因为一次失败的“修补”破坏掉当前高排名结果;任何改进版都必须重新进入锦标赛竞争。
Meta-review
Meta-review agent本质上不是审某一个具体假设,而是站在更高一层,总结一轮review和debate中反复出现的问题模式,把这些模式提炼成对其他代理都能复用的反馈。- 研究概述生成。 在计算结束时,它会把高排名假设整合成一份
research overview,给出未来可继续推进的研究方向、每个方向为什么重要,以及可以配套做哪些实验。论文里强调,这个 overview 不只是最终汇总,也会在下一轮作为Generation agent的输入,帮助系统更清楚地描画“当前知识边界”。 - 联系人识别。 它还会基于先前的文献检索,推荐适合评审这些假设或适合潜在合作的领域专家,并给出推荐理由。这个输出会被附在研究概述里,作用更偏向“把后续合作路径也一并组织出来”。
- 研究概述生成。 在计算结束时,它会把高排名假设整合成一份
Human Expert in Loop > 人类科学家在
Co-Scientist的运行过程中起到的作用有:定义研究目标。 研究者先写一个比较细的目标提示,里面可以包括研究问题、约束条件、偏好的解空间、希望输出具备的属性,以及相关背景文献或数据。
目标优化。 在看到中间产物和研究概述之后,研究者可以继续改写目标,引导系统转向更具体或更可行的方向。
提供 review 的审查。 人类专家可以手工写 review,系统会把它吸收进后续的评估与改进流程。
提供自己的想法和假设纳入 Tournament。 界面允许科学家把自己的假设直接放进锦标赛,与系统生成的假设一起排序、比较、甚至组合。
最后评审和选择。 系统跑完之后,专家面对的是“按优先级排好的假设列表 + 一份综合研究概述”,然后再决定哪些值得进入真正的实验验证。
论文给了一个很有意思的时间量级:在 AML
药物再利用实验中,专家用于定义初始目标的时间不到 1
小时,而在系统完成复杂推理之后,最终筛选可进湿实验的候选只花了大约
3
小时。作者的判断是,这类系统可以把原本需要科学家几天甚至几周做的整理、发散和比较工作压缩到一个更可控的流程里。
- 选择使用的工具
主要工具还是网络搜索和检索,这决定了它不是封闭地“靠记忆猜”,而是持续从外部知识里取材。
对于那种解空间本来就受限的任务,系统也会调用特定领域工具来约束搜索范围。例如:开放数据库、给定药物清单、指定受体列表等。
另外,
Co-Scientist还可以索引并搜索科学家提供的私有论文仓库和实验数据;在某些任务里,它还可以结合专门的 AI 模型反馈,例如论文提到的AlphaFold。
根据他们的消融实验,可以得到这几个比较关键的结论:
Agent ablation analysis: - 给 Reflection agent
接入外部搜索工具非常重要。没有搜索时,它会把很多“看起来新、其实不靠谱”的想法误判为新颖;论文里在一个已发表想法数据集上给出的结果是,新颖性自动评分从
6.14/10 降到
2.38/10,反而更接近真实情况。同时,已知正确想法的
correctness 自动评分从 7.4/10 提高到 8.46/10。
- Ranking agent
使用“科学辩论式提示”而不是简单比较提示,能显著提升高质量假设的排序准确性,并减少位置偏差(positional
bias)。 - Evolution agent 的迭代改进确实有效。在 GPQA
上,precision 从 70.9% 提高到
75.4%;在他们构造的研究假设数据集上,平均质量分数从
4.7 提高到 5.6。 -
Proximity agent
的语义相似度和真实质量差异之间存在较强相关性,因此它并不只是一个“展示模块”,而是实实在在帮助系统更全面地探索问题空间。
- Meta-review agent 也有量化收益:用于预测正确解的
correctness review AUC,在构造数据集上从 0.521 提高到
0.597,在 GPQA diamond 上从 0.629
提高到 0.634。
使用科学辩论提示,而不是简单比较提示,可以显著提高生成假设的质量判断和排名准确性。这其实很符合直觉,因为科研里的优劣判断往往不是一眼看“像不像”,而是在对抗式比较里逼出真正的弱点和优势。
缩放测试时计算可改善科学推理。 Co-Scientist
的假设和建议被按生成时间切成 10
个等大小的时间桶,每个桶对应整个生成过程中的连续 10%
时间段。作者在 203
个研究目标上统计了两个指标:top-10 hypotheses 的平均
Elo,以及单个最佳假设的
best Elo。结果是,这两个指标都会随着推理时间增加而持续上升,说明系统确实在“越想越好”,而不是只是在前面把好答案一次性吐出来。
在 15
个由生物医学专家精心设计的困难目标上,这个趋势依然成立,而且
Co-Scientist 最终在 Elo
上显著超过了同时期的其他前沿推理模型。论文里还特别提到,他们没有观察到明显的性能饱和,这意味着只要研究目标本身适合这种“搜索
+ 探索 + 反馈”范式,继续增加 test-time compute 仍可能带来收益。
另外,在 11
个专家评估的研究目标上,Co-Scientist
的输出也被人类专家整体上评得更好:平均偏好排序是
2.36,新颖性评分 3.64/5,影响力评分
3.09/5。这部分当然还是主观评估,但至少说明 Elo
这个内部指标和专家直觉并不是完全脱节的。
AML 药物再利用候选物的 Wet-lab 验证: - 系统被限制在一个由
2300 个已批准药物、34
类癌症构成的受限搜索空间里做药物再利用推理,然后再交给肿瘤学专家筛选。 -
专家先从 30 个高排名候选里选出更值得进实验的药物。首轮进入
AML 湿实验的 5 个候选是
Binimetinib、Pacritinib、Cerivastatin、Pravastatin
和 Dimethyl fumarate (DMF)。 -
结果上,Binimetinib、Pacritinib 和
Cerivastatin 显示出抑制细胞活性的效果。其中
Binimetinib 在多数 AML 细胞系中的 IC50 低到
2 nM,而在非 AML 对照细胞系 TK6
中明显更高,说明它至少在体外表现出一定的选择性信号。 -
论文还进一步测试了完全由系统自主提出、且没有先前该适应症证据支持的单药候选。专家选了
Nanvuranlat、KIRA6、Leflunomide
做验证,其中 KIRA6 在多个 AML
细胞系里表现出更有希望的抑制效果。 - 组合疗法方面,系统又提出了
7 个 AML 联合用药方案。在 MOLM-13
细胞里,多数组合呈现协同;而在 KG-1a
里,协同与拮抗并存,提示不同 AML
亚型对组合疗法的反应非常依赖分子背景。