AI4S 和AI4 R search survey的阅读概览

发表于 2026-07-01

AI scientist 对于现在的 AI research，主要有两种方式：一种是纯粹的 workflow。另外一种是 agent 协作模式。多个 agent 分别执行不同 role，来实现半自动甚至全自动的协作模式。另外还有 Agent 虚拟实验室。根据 survey...

AI scientist

对于现在的 AI research，主要有两种方式：

一种是纯粹的 workflow。
另外一种是 agent 协作模式。多个 agent 分别执行不同 role，来实现半自动甚至全自动的协作模式。

另外还有 Agent 虚拟实验室。

根据 survey，AI4Research 大概分为 5 个领域：

科学理解
学术调查
科学发现
学术写作
学术同行评议

科学理解 AI for Scientific Comprehension

利用从原始文档 DSC 中提取的知识 K，来最大化科学理解。这里的目标可以粗略理解为两点：

Coherence：理解结果和原文档之间的逻辑一致性
Coverage：理解结果对原文档关键概念的覆盖程度

文本科学理解

对于当前的科学理解部分，按照自动化程度，可以分成半自动和全自动两类。

半自动科学理解

人类引导的科学理解
- 就是 Human in the Loop。
- 研究者和模型通过迭代对话，一步步把复杂科学问题讲清楚。
- 这种方法的好处是可靠性更高，也更容易暴露隐藏假设；缺点是人机交互成本比较高。

工具增强的科学理解

指的是研究人员的查询超过语言模型的知识库或其上下文窗口限制的情况。
这里可以进一步分成三类：
- 知识检索增强工具：把模型训练数据之外的知识补进来。
- 事实检查工具：降低幻觉和事实性错误。
- 推理增强工具：补足模型在逻辑推理、公式推导、精确计算上的短板。
survey 里这一类其实很重要，因为它把“读论文”从纯聊天变成了工具驱动的研究工作流。

工具名	功能
DomainClassifier	判断问题属于物理、化学、数学、生物等哪个领域
VariableExtractor	从自然语言中抽取变量、数值和单位
FormulaRetriever	根据问题类型检索候选公式
EquationSolver	解代数方程或符号方程
Calculator	做精确数值计算
UnitChecker	检查单位维度是否一致
Verifier	判断结果是否合理

自主引导的科学理解
- 这一类是针对单轮查询，模型直接给出关于论文内容的完整、上下文敏感的回答。
- 重点在于长上下文论文理解，以及和具体学科术语、表达习惯对齐。
- survey 里也提到它正逐步走向论文级、多模态的整体理解，而不只是局部问答。

全自动科学理解

摘要引导的自动科学理解
- 用摘要来组织对冗长科学文本的整体理解。
- survey 里提到可以让多个 agent 分工做摘要、校对、结果提炼，最后形成更完整的理解结果。
自我提问、自我反思的自动科学理解
- AI 自己提出问题、自己回答问题，或者进行反思，来加深对科学内容的理解。
- 这类方法和自我批评、自我改进、苏格拉底式拆解问题比较接近。
- 对于这部分，后面如果要继续做，可以重点看问题生成器 + 答案评估器这类 pipeline。

表格与图表科学理解

对于查阅文献内容的理解，除了纯文本，还有表格理解和图表理解两个部分。

表格理解

可以使用 MMTab 这类数据集进行评估。
相关工作不只是“看懂表格”，还包括对表格的推理过程建模。
survey 里提到的几个点：
- Table-LLaVA：直接在表格图像上推理
- Chain-of-Table：在推理链中逐步构建和更新表格
- Tree-of-Table：把大表格压缩成树状结构，方便推理
- TableMaster：在文本推理和符号推理之间切换

图表理解

图表理解更多是让多模态模型直接处理论文里的图表图像，支持问答、摘要等任务。
survey 里也强调了图表数据集和指令数据集的重要性。
这里可以继续顺着这个数据集方向看：有个数据集
另外还有 FDV 这种把图表转成结构化文本表示的方法，适合做更深层的理解。

学术调查 AI for Academic Survey

目标是最大化获取的调查质量。

这里有一个问题，调查质量如何评估？

survey 里面给了三个维度：

相关度 Relevance：度量文档与目标主题之间的匹配
覆盖率 Coverage：评估领域的广度和深度
清晰度 Clarity：反映生成综述和需求之间的综合表示是否连贯、抽象质量是否足够、是否实用

也就是：相关度、覆盖率、清晰度。

AI for Academic Survey 主要包括两个大阶段：

概述报告生成

基于检索到的数据，自动生成结构化、连贯的综述报告。按照 survey 里的写作顺序，这部分可以进一步分成三步：

研究路线图绘制

研究路线图映射是先把一个研究主题的发展轨迹整理出来。
它的价值在于更系统地识别新趋势、未解决空白和未来方向。
survey 里还提到，把综述组织成分层结构，会显著提高整体连贯性。

Section 级别的相关工作生成

提取相关工作
- 早期方法偏抽取式，从多篇论文里抽句子，再重组为一个 section。
- 这里有一个 SurveyBench。从文章里的表格看，他们现在的质量已经比较高了，似乎在一些维度上已经接近人类写作水平。
生成相关工作
- 这一类更多是直接生成整段相关工作，而不是只抽句子。
- 主要可以分成三类：
  - 人类引导的生成：给关键词、摘要、论文分组等
  - 图引导生成：基于书目图、引文图来组织生成
  - 模型引导生成：模型自主完成任务
- 这里使用 fine-tuning，说明应该有相关的数据集和标注范式。
- survey 里还提到有 LoRA 微调、修辞结构建模、多阶段管道（检索、引文提取、上下文聚合、润色）等做法。

文件级别的 Survey 生成

这一层是完整生成一篇 survey。
survey 里提到的代表性系统包括 AutoSurvey、SurveyX、SurveyForge、STORM 等。
这部分已经不只是“写相关工作”，而是在做完整文档级组织、章节衔接和迭代细化。

科学发现 AI for Scientific Discovery

这个是用于生成和验证新的科学假设或想法，并进行实验或模拟。

AI4SD 的目标是最大化所产生创新的总发现质量。

这里可以按 survey 的定义拆成三个维度：

Novelty：评估创新性
Validity：评估实验和理论上的合理性
Significance：反映研究的后续影响

这一部分在第 5 章有一些 benchmark 和模型对比，但有些模型已经比较老，参考性不一定强。
另外它给出了一个 LiveIdeaBench 来评估 LLM 的创造力，这个比单看 survey 里的旧表格更值得参考。

survey 对 AI for Scientific Discovery 的划分比当前草稿更细，主要有五块：

想法挖掘
新颖性与重要性评估
理论分析
科学实验执行
全自动发现

想法挖掘

从内部知识进行想法挖掘

利用 LLM 参数里的潜在知识和生成能力，不依赖外部数据来生成新想法。
这一类更像直接利用模型内部知识空间产出创意。

从外部信号中挖掘想法

从外部知识中挖掘创意
- 这里比较适合做 A+B 式创新。
- 典型做法是把论文元数据、引文网络、知识图谱等结构化知识注入进来。
从外部环境反馈中挖掘创意
- 这一类比单纯依靠外部知识更靠谱一点。
- 它把 idea mining 变成一个交互循环：提出实验、拿到反馈、再修正下一轮想法。
- 这一方向和多智能体自主研究系统关系很近。

从团队讨论中挖掘想法

AI-AI 协作
- 反馈引导挖掘：代理在不同研究阶段交换评论，通过反馈来提炼想法。
- 团队讨论引导挖掘：把不同角色的多个代理组起来，模拟人类研究团队动态。
- survey 里提到一个 Chain-of-Ideas（CoI）agent：
  - 把文献组织成顺序链，反映主题演进
  - 能以比较低的成本生成与小型研究团队相近质量的输出
  - 这个值得单独调研
人机协作
- 人先挑选、策划中间产物，再让模型重组和精炼。
- 这种方式往往更容易把控方向和质量。

新颖性与重要性评估

传统方法
- 例如对论文词汇分布、概念层次、相似度等做分析。
利用 LLM
- 这一类现在越来越多，但容易高估创造性，或者产生同质化判断。
人类和 AI 协作
- 这里的评估方法，我们需要找到里面效果最好的人类和 AI 协作方法，以及单纯利用 LLM 的最好方法。

理论分析

这一块在 survey 里实际上不只三个点，而是四个部分：

科学主张形式化
- 把自然语言里的论断转成可验证的结构化表示。
科学证据收集
- 系统检索、整理支持或反驳某个主张的证据。
科学验证分析
- 看主张是否逻辑一致、事实一致、推理稳健。
定理证明
- 这个更偏数学领域。
- 这里需要单独调研一下现在最好的定理证明器，以及常用 benchmark。

科学实验执行

实验设计

半自动：人类-AI 协作创建实验计划
全自动：agent 自动调度实验、根据新数据更新实验协议

实验前估计

评估性预测
- 预测实验结果的定量值或趋势
- 深度学习 model 进行直接预测
- LLM-Augmented 预测
探索性预测
- 利用人工智能预测实验结果、生成新化合物、设计反应路径或组合方案

实验管理

开环管理
闭环管理
这一部分更接近自动驾驶实验室、机器人实验平台、闭环优化。
这部分相对前沿，对本次比赛未必直接有用，可以不做过多展开。

实验执行 Experiment Conduction

自动化机器学习实验执行
- 这一类更偏代码生成、训练、调参、调试、复现实验。
- 这里可以重点看 ScienceAgentBench。
真实世界实验模拟与执行
- 包括自我改进、多智能体交互、外部工具集成、领域微调等方向。

实验分析

自动评估
理论一致性分析
探索性分析

全自动发现

全自动发现就是把假设生成、实验设计、自主执行、结果分析、反馈迭代闭环起来。
这也是 AI Scientist、Zochi、Agent Laboratory 这类系统真正想做的终点。

学术写作 AI for Academic Writing

根据 survey 里面的定义，写作阶段是利用科学发现阶段的所有信息：

idea
exp
code
data
以及模型参数和领域内的先验知识

在这些信息基础上，再使用特定的写作算法，完成三件事：

准备手稿结构
生成原稿内容
完成最后的语法矫正、表达修改、逻辑修改

目标是最大限度地提高手稿的写作质量和有效性。
如果按 survey 里的指标来拆，大概可以看成：

Consistency：逻辑流畅性和内部连贯性
Readability：语言清晰度和可理解性
Compliance：对格式和风格要求的遵守程度

学术写作方面包括：

半自动化写作
全自动化写作

半自动化写作

survey 里把半自动化写作分成三个阶段，不只是“初稿前后”这么粗：

稿件准备阶段

标题拟定与优化
- 这部分原草稿里没写，但 survey 里明确单列了。
- 本质上是先给多个候选标题，再从新颖性、复杂性、潜在影响力等维度筛。
整体逻辑结构指导
- 给模型章节标题、子标题、段落提纲，让它检查顺序是否合理、是否有重复、是否缺东西。

稿件写作阶段

图表绘制
- 这是这里面最重要的一块。
- 一个方向是直接 AI 生成。
- 另一个方向是使用 Python、SVG 或 tikz 编程生成科学图表，以获得更好的图形质量。
- survey 里还补了图注生成这一层，不只是画图，还包括 caption 生成和质量检查。
公式转录
- 有 pdf 里的公式转 LaTeX 的相关研究。
- 这部分本质上是 OCR + 结构化表达式还原 + 迭代纠错。
引文推荐与整合
- 这是学术写作里一个很关键的辅助能力。
- 这里需要重点查看 PaSa
- survey 里还提到了 ScholarCopilot 这类能动态检索并嵌入参考文献的系统。

稿件完成后的辅助

语法校检
- 识别拼写错误、不正确的标点符号、重复措辞和字符编码问题，并提供相应的修订建议。
表达与逻辑修订
- 自我引导修订：模型自己分析草稿并提出修改
- 人工引导修订：用户指定修改区域或提出明确指令
- Human-in-the-loop 修订：AI 建议、人工反馈、文档更新循环进行
- 这一块其实很适合接 Overleaf 一类写作环境

全自动化写作

这一类是让 AI 无需人工干预直接生成完整科学手稿。
survey 里主要是多智能体、模块化、自反馈架构。
AI Scientist、Agent Laboratory、Zochi 都属于这个方向。
但 survey 也明确说了，现阶段还没有系统真正消除人工编辑，尤其是在正确引用文献这件事上。

AI 同行评议 AI for Academic Peer Review

目标是基于稿件的评审结果，最大化评审质量。

这里的问题是评审结果如何进行量化。

survey 里给了三个核心维度：

Correctness：评论能否正确反映研究的优缺点
Helpfulness：反馈是否有深度、是否有建设性、是否真正有用
Consistency：评论是否与既定评价标准和领域规范一致

也就是可以把评审质量理解成：正确性、有用性、一致性。

而且 peer review 这一块，survey 的结构其实比现在草稿更完整，分成三阶段：

评审前 Pre-Review

初审 Desk-Review
- 用 AI 做关键词提取、主题匹配、初步评分、范围判断。
审稿人匹配 Reviewer Matching
- 核心目标是最大化评审质量、公平性和工作负荷平衡。
- 这里还会涉及利益冲突检测和跨学科审稿人团队配置。

评审中 In-Review

同行评审生成 Peer-Review Generation
- 分数预测：预测创新性、清晰度等维度的分数
- 评论生成：自动生成自然语言评审意见
- 统一生成：把文本评论和数值评分整合成一份完整评审
- survey 里还提到，现成 LLM 往往更重技术有效性，容易低估新颖性，这一点要注意
元评审生成 Meta-Review Generation
- 把多位评审人的意见综合成一份更客观、更全面的总结
- 重点是平衡不同观点、减少偏见、发现矛盾

评审后 Post-Review

影响力分析
- 预测未来引用、研究影响力和后续学术意义
推广增强
- 自动生成海报、通俗摘要、视频等传播材料，扩大成果传播范围

--- 这后面是纯粹的AI了--- ## 第 8 章补充：多学科应用与 benchmark

第 8 章本身更偏“AI4Research 在不同学科里的应用展开”，benchmark 和数据集主要集中在第 9 章资源部分。
所以这里按“应用方向 + 可参考 benchmark / 数据集 / 工具”的方式补充，后面如果要继续展开，可以直接从这里接着查。

自然科学方向

物理学研究

典型应用
- 物理世界模拟
  - PINNs
  - Hamiltonian Neural Networks
  - Lagrangian Neural Networks
- 自动定律发现
  - AI-Newton
  - DrSR
  - LLM-Feynman
  - 利用视觉提示和领域知识发现高维数据中的物理坐标与控制方程
可参考 benchmark / 数据集
- LLM-SRBench：偏科学方程发现，和“自动定律发现”这条线最相关
- TheoremQA：偏定理应用能力评估，适合和理论分析部分联动看
- MiniF2F / FIMO / MUSTARDSAUCE：偏形式化证明与定理证明
这里的一个判断
- 物理方向在 survey 里更强调“从数据发现规律”和“理论一致性”，所以比起通用问答 benchmark，更值得优先看方程发现、证明、验证这类基准。

生物学与医学研究

典型应用
- 蛋白质发现与结构预测
  - AlphaFold 2
  - AlphaFold 3
- 细胞与基因建模
- 药物发现
  - 分子设计
  - 多智能体协同药物识别
  - 药物重定位
- 临床诊断
  - 临床大脑
  - 多智能体医院模拟
  - 交互式物理执行
可参考 benchmark / 数据集
- BioProBench：生物协议理解与推理
- LLMEval-Med：医生验证的真实临床 benchmark
- BioKGBench / BioMaze：偏生物医学知识图谱检查和生物通路推理
- MedMCQA：医学问答
- AutoBio：偏生物实验室环境中的机器人自动化评估
如果后面要落到比赛方案
- 生医方向最有价值的不是单一聊天能力，而是“检索 + 协议理解 + 实验设计 + 临床/实验验证”的串联能力。

化学与材料研究

典型应用
- 自动分析
- 自动发现
- 全人类-AI 协作流程管理
- 机器人平台 + 高通量实验 + 实时决策
可参考 benchmark / 数据集
- 面向真实世界药物发现应用的化合物活性预测 benchmark
- BioProBench：如果任务包含实验协议理解，也可以借来用
- DiscoveryBench / DiscoveryWorld：如果想评估端到端发现能力，这两个更接近完整科研流程
- ScienceAgentBench / Curie / BaisBench：适合看“AI scientist”式系统在发现任务上的总体表现
这里需要注意
- 化学、材料方向的 benchmark 往往不是单纯 QA，而是实验设计、候选生成、实验闭环、自动化平台协同。

应用科学与工程方向

机器人与控制

典型应用
- 自主设计与优化
- 端到端基于视觉的控制
- 模拟到现实的鲁棒性与安全性
- 多任务与多智能体控制框架
可参考 benchmark / 数据集
- 这一块在 survey 里更偏应用综述，统一 benchmark 写得没有科学发现那部分集中
- 如果从“研究智能体执行能力”角度看，可以旁接：
  - ScienceAgentBench
  - DiscoveryWorld
  - DiscoveryBench
- 如果从“实验执行与代码实现”角度看，可以旁接：
  - MLGym-Bench
  - MLE-Bench
  - MLAgent-Bench
我的理解
- 机器人与控制这一块，更像是“AI4Research 能不能进入真实物理闭环”的试金石。

软件工程

典型应用
- 代码生成
- 端到端软件开发
- 多智能体开发、调试、代码审查、测试
可参考 benchmark / 数据集
- MLAgent-Bench
- MLE-Bench
- MLRC-Bench
- DS-Bench
- MLR-Bench
- ResearchCodeBench
- AutoReproduce
- SciReproduce-Bench
- DO Challenge
这一组 benchmark 的意义
- 它们更接近真实 research workflow，不只是让模型写一个函数，而是看它能不能完成复现、调试、训练、评估、分析这一整套流程。

社会科学方向

社会学与心理学

典型应用
- AI 辅助实验与访谈研究
- 社会现象的大规模模拟
- 潜在风险讨论
- 数字心理健康干预与情感叙事生成
可参考 benchmark / 数据集
- 这一块在 survey 里应用很多，但标准 benchmark 相对没自然科学和代码实验那么成体系
- 可以关注：
  - MimiTalk：AI 主导访谈
  - 经济现场实验预测相关任务
  - 与心理健康资源、叙事生成相关的评估任务
这里的难点
- 社会科学里，预测方向和强度并不等于真正理解社会机制，所以这类 benchmark 的外推性要谨慎看。

可直接补进前文的 benchmark 清单

如果后面要把这份笔记继续整理成“综述 + 方案储备”，下面这些 benchmark 可以优先保留：

科学理解
- ScienceQA
- LitQA / LitQA2
- ScholarChemQA
- ArXivQA
- MMSci
- MultimodalArxiv
- SPIQA
- M3SciQA
- SciDQA
- MMTab
- ChartQA
- CharXiv
- ChartX
- TableBench
- SCITOOLBENCH
学术调查
- OARelatedWork
- OAG-Bench
- Cochrane
- MS2
- SurveyBench
- SurveyX
- AutoSurvey
- SciReviewGen
- SurveyEval
科学发现
- LiveIdeaBench
- ResearchBench
- Genome-Bench
- AI Idea Bench 2025
- HypoBench
- BLADE
- FV-Generalization Benchmark
- XClaimCheck
- SciVer
- MiniF2F
- FIMO
- BioProBench
- LLMEval-Med
- ScienceAgentBench
- DiscoveryWorld
- DiscoveryBench
- Curie
- BaisBench
学术写作
- FigGen
- SciCapenter
- TikZero
- CITEWORTH
- CiteBART
- ScholarCopilot
- AWE
- AAAR-1
同行评议
- PeerRead
- NLPeer
- ReviewEval
- PeerArg
- ORSUM
- AI-Peer-Review-Detection-Benchmark
- TRIED