文献综述:仍然是最痛苦的部分
在启动一个新项目之前,每位生物学家都必须经历一个繁琐的仪式:文献综述。
这个过程通常是:
-
在 PubMed 中输入关键词(希望是正确的 MeSH 术语)
-
浏览数百个标题
-
下载可能相关的 PDF
-
阅读全文(或至少摘要)
-
提取关键信息:样本量、方法、主要发现
-
组织成一个表格或叙事综述
对于一个小项目来说,这可能需要数天。对于一个系统评价或 meta 分析,花费数周甚至数月是很常见的。更糟糕的是,在你综述完成之前,可能已经发表了新的论文。
AI 工具正在改变这一局面。在 2025-2026 年,两款工具脱颖而出:Elicit(用于智能文献搜索和数据提取)和 ResearchRabbit(用于文献网络的探索和可视化)。当结合使用时,它们构成了“文献综述 2.0”的工作流。
Elicit:你的智能研究助理
Elicit(elicit.com)是一个由 AI 驱动的文献综述平台。与普通搜索引擎不同,Elicit 尝试回答问题而不是返回文档列表。
Elicit 的核心功能
功能 1:语义搜索,不仅仅是关键字
输入一个完整的问题,例如:
"Does PD-1 expression correlate with response to anti-PD-1 therapy in non-small cell lung cancer?"
传统的 PubMed 搜索会返回包含这些单词的论文。Elicit 理解意图,返回直接相关的论文(即使它们使用了同义词或不同的表达方式)。
技术背后:Elicit 使用大型语言模型嵌入论文的全文(或至少标题和摘要),并根据语义相似性进行检索,而不是词袋模型。
功能 2:自动提取表格
这是 Elicit 的必杀技。给定一个问题,Elicit 会:
-
找到最相关的 20-100 篇论文
-
从每篇论文中提取关键信息(样本量、方法、结果、P 值等)
-
整理成一个可排序的表格
例如,对于上面的问题,Elicit 可能生成一个表格,列包括:论文、样本量、PD-1 表达检测方法、OR(比值比)、95% CI、结论。
提示: Elicit 在提取数值数据时可能有错误,特别是当论文使用非标准格式时(例如,"p=0.03" 可能被提取为 "0.03" 或遗漏)。始终双重检查从 PDF 提取的数据。
功能 3:系统评价的自动化工作流
Elicit 支持系统评价的 PRISMA 工作流:
-
去重:自动删除在不同数据库中找到的重复论文
-
筛选:提供类似 Tinder 的界面,快速排除不相关的论文
-
数据提取:批量提取预定义字段
-
风险偏倚评估:手动工具,AI 提供建议但不完全自动化
Elicit 的局限性
-
并非所有 PDF 都可以免费获取:Elicit 可以找到开放获取论文的全文,但对于付费墙后的内容,它只能使用标题和摘要,这会降低提取质量。
-
没有内置的全文存储:你需要自己下载 PDF 并上传(对于付费内容)。
-
批量处理有限:免费版本限制每天 20 个“任务”,专业版本更贵(教育有折扣)。
ResearchRabbit:探索文献的社交网络
如果说 Elicit 回答“已知的问题”,那么 ResearchRabbit 回答“我错过了什么?”和“谁在引用谁?”
ResearchRabbit(researchrabbit.ai)专注于文献网络的发现。它的界面类似于 Spotify 的“推荐歌曲”或 Netflix 的“因为你看了...”
ResearchRabbit 的核心功能
功能 1:引用网络可视化
从一篇“种子论文”开始,ResearchRabbit 构建一个网络,显示:
-
先前的作品:种子论文引用的论文(蓝色)
-
后续的作品:引用种子论文的论文(红色)
-
共同引用:与种子论文经常被一起引用的论文(绿色)
结果是一个交互式网络图,节点是论文,边是引用关系。你可以点击任何节点,扩展网络,或导出到引用管理器。
功能 2:“相似的工作”推荐
基于文本相似性和共引模式,ResearchRabbit 推荐你感兴趣的论文,而这些论文可能没有通过关键词搜索找到。这类似于“如果一个生态学家阅读了这篇论文,他们也喜欢那篇”的群体智慧。
功能 3:收藏和协作
-
创建收藏(类似播放列表),分组论文用于不同的项目。
-
与同事分享收藏和评论。
-
设置新论文提醒:当新的论文引用你的种子论文或与你的收藏相似时,ResearchRabbit 通过电子邮件通知你。
功能 4:与 Zotero 的集成
一键将论文从 ResearchRabbit 导出到 Zotero(或 Mendeley、EndNote)。所有元数据(DOI、作者、期刊)都被填充,包括你添加的笔记和标记。
综合工作流:如何进行更好的文献综述
以下是结合 Elicit 和 ResearchRabbit 的一个成熟的系统评价工作流:
第一阶段:设置和探索(第 1-2 天)
-
确定种子论文:找到 3-5 篇你认为高度相关的论文(通过初步 PubMed 搜索或导师推荐)。
-
导入 ResearchRabbit:构建从这些种子论文开始的引用网络。探索引用树。你可能会发现一篇关键的 2019 年综述,它总结了整个领域,或者一篇 2022 年的论文提供了一个新的分类法。
-
创建初始收藏:将 20-30 篇看起来最重要的论文添加到 ResearchRabbit 收藏中。
第二阶段:结构化搜索(第 2-3 天)
-
在 Elicit 中形成具体问题:将你的宽泛问题分解为 3-5 个具体问题,例如:
-
"What is the effect size of PD-1 expression on overall survival in NSCLC?"
-
"Which cutoffs for PD-1 expression are most commonly used?"
-
"What are the reported adverse events in anti-PD-1 trials?"
-
-
运行 Elicit 任务:对于每个问题,让 Elicit 提取一个表格。你可能需要尝试不同的问题措辞以获得更好的结果。
-
导入 Elicit 结果到 ResearchRabbit:Elicit 可以以 RIS 或 BibTeX 格式导出。将这些导入到 ResearchRabbit 中。有趣的是,ResearchRabbit 可能会发现新的联系:例如,Elicit 发现的论文 A 和 B 都引用了一篇你还没有读过的论文 C。
第三阶段:筛选和数据提取(第 3-7 天)
-
去重和筛选:在您的引用管理器(如 Zotero)中合并来自 Elicit 和 ResearchRabbit 的参考文献,使用内置的去重功能。快速筛选标题和摘要。
-
全文检索:对于含纳入的论文(约 50-200 篇),通过机构访问获取 PDF。上传 PDF 到 Elicit。
-
深度数据提取:对于每篇论文,提取特定的数据字段(如样本量、组分配、结果测量)。Elicit 可以批量进行,但需要手动验证。创建一个数据提取表格。
第四阶段:合成和写作(第 8-14 天)
-
在 ResearchRabbit 中识别研究空白:检查你的收藏,是否有 2021-2022 年出现了大量的论文,但 2023-2024 年减少了?这表明该领域可能已经饱和。相反,是否有 2020 年的一篇论文被引用了 500 次,但 2023 年之后只有 10 次引用?这表明它可能被一个更新的发现所取代。
-
写作辅助:使用 AI 写作工具(如 Cursor 中的 LLM)生成综述的初稿大纲,基于你提取的表格。但不要逐字复制 AI 生成的文本,因为这可能构成自我抄袭或版权问题。相反,将 AI 输出作为结构化数据的起点,用自己的话重写。
-
保持最新:在你的论文在评审期间,保持 ResearchRabbit 的提醒开启。如果出现了新的相关论文,在 proofs 阶段将其添加为“更新说明”。
更专业一点:半自动化的系统评价
对于正式的系统评价(例如 Cochrane 综述),建议采用更谨慎的“半自动化”方法:
-
双重筛选:两名评审员独立筛选标题和摘要。AI(如 Elicit 的筛选助手)可以提供排序,但不能替代人工判断。
-
数据提取的一致性:对于关键结果(如死亡率、严重不良事件),使用两名独立评审员进行数据提取,并计算一致性(κ 统计量)。Elicit 的自动提取可以作为一种“第三只手”来解决分歧。
-
偏倚风险:Cochrane RoB 2 工具需要人工判断(随机化过程、偏离预期干预等)。AI 可以提供建议,但不应是最终决定。
案例研究:用 AI 完成博士文献综述
(案例基于 2025 年一位生物学博士生的实际经验)
目标:撰写关于“肿瘤相关成纤维细胞(CAFs)在胰腺癌免疫治疗抵抗中的作用”的文献综述,用于博士资格考试的文献综述部分。从零开始,时间:4 周。
方法:
-
第 1 周:使用 ResearchRabbit,从 5 篇关键论文开始(已知的 CAF 标记物论文、两篇单细胞研究、两篇免疫治疗研究)。扩展到 150 篇论文的候选集合。
-
第 2 周:使用 Elicit 自动化数据提取,针对三个子问题:“CAF 亚型分类”、“CAF 与免疫细胞的相互作用”、“CAF 相关生物标志物的临床预后”。
-
第 3 周:手动验证 Elicit 提取的表格,发现约 90% 的准确性,但需要修正一些错误(例如,将 95% CI 与 OR 混淆)。
-
第 4 周:撰写综述。使用 ChatGPT 生成大纲和草稿段落,但在提交前进行了大量的重写和事实核查。
成果:
-
在 4 周内完成了一篇包含 154 篇引用文献的综述(传统方式需要 10-12 周)
-
博士资格考试委员会评价“特别全面和结构良好”
-
综述后来被一个中等影响因子的期刊接受,作为 mini-review 发表
****学习经验总结**:
-
不要完全相信 Elicit 的数字提取,至少需要 10% 的抽检
-
ResearchRabbit 的推荐引擎找到了 5 篇在 PubMed 关键词搜索中没有出现的相关论文(有一个不同的术语)
-
AI 不能代替理解合成概念;博士生仍然需要阅读大约 30 篇最重要的论文的全文
未来:综合 AI 系统
在 2026-2027 年,可能会出现更强大的工具:
-
从问题到草稿:输入一个研究问题,AI 生成一篇完整的系统评价初稿(包括 PRISMA 流程图、提取数据的表格、叙述性合成和偏倚风险评估)。人类角色的工作不是从零开始写作,而是验证、修正和增强 AI 的输出。
-
实时证据监测:系统持续扫描 PubMed、bioRxiv 和临床试验注册库。当累积证据足够丰富以至于改变结论时,它会主动提醒研究人员(类似于“当新的随机对照试验将总生存期的风险比从 0.75 改变为 0.85 时通知我”)。
-
因果图谱的自动化生成:AI 不仅可以总结关联,还可以从文献中推断因果结构(例如,“X 导致 Y 通过 Z 介导”),并以有向图的形式呈现。这被称为“自动化的系统评价和 meta 分析因果推断”,虽然仍处于早期阶段。
总结:AI 增强了,但没有取代系统评价者
Elicit 和 ResearchRabbit 代表了文献综述范式的转变。它们将耗时的手动筛选和数据提取变为(半)自动化的过程,大大缩短了从问题到综述的时间。
但它们并不是取代系统评价者的理由。偏倚风险评估、关于纳入哪些论文的上下文判断、合成不同研究之间相互矛盾的结果、以及识别研究设计的严重缺陷——这些都需要人类判断。
一个有用的比喻是:Elicit 和 ResearchRabbit 是文献综述的显微镜和望远镜。显微镜(Elicit)允许你以更高的分辨率和数量级看到单个研究的数据。望远镜(ResearchRabbit)揭示了文献的结构和联系,这些联系在近距离是无法看到的。但你自己必须决定往哪里看和这些发现意味着什么。