如何利用 Elicit 与 ResearchRabbit 进行自动化系统评价

2026-04-25 13:32 生物行阅读 0

核心摘要： 文献综述仍然是最痛苦的部分在启动一个新项目之前每位生物学家都必须经历一个繁琐的仪式文献综述这个过程通常是在 PubMed 中输入关键词希望是正确的 MeSH 术语浏览数百个标题下载可关键词：PD1、如何利用

文献综述：仍然是最痛苦的部分

在启动一个新项目之前，每位生物学家都必须经历一个繁琐的仪式：文献综述。

这个过程通常是：

在 PubMed 中输入关键词（希望是正确的 MeSH 术语）
浏览数百个标题
下载可能相关的 PDF
阅读全文（或至少摘要）
提取关键信息：样本量、方法、主要发现
组织成一个表格或叙事综述

对于一个小项目来说，这可能需要数天。对于一个系统评价或 meta 分析，花费数周甚至数月是很常见的。更糟糕的是，在你综述完成之前，可能已经发表了新的论文。

AI 工具正在改变这一局面。在 2025-2026 年，两款工具脱颖而出：Elicit（用于智能文献搜索和数据提取）和 ResearchRabbit（用于文献网络的探索和可视化）。当结合使用时，它们构成了“文献综述 2.0”的工作流。

Elicit：你的智能研究助理

Elicit（elicit.com）是一个由 AI 驱动的文献综述平台。与普通搜索引擎不同，Elicit 尝试回答问题而不是返回文档列表。

Elicit 的核心功能

功能 1：语义搜索，不仅仅是关键字

输入一个完整的问题，例如：

"Does PD-1 expression correlate with response to anti-PD-1 therapy in non-small cell lung cancer?"

传统的 PubMed 搜索会返回包含这些单词的论文。Elicit 理解意图，返回直接相关的论文（即使它们使用了同义词或不同的表达方式）。

技术背后：Elicit 使用大型语言模型嵌入论文的全文（或至少标题和摘要），并根据语义相似性进行检索，而不是词袋模型。

功能 2：自动提取表格

这是 Elicit 的必杀技。给定一个问题，Elicit 会：

找到最相关的 20-100 篇论文
从每篇论文中提取关键信息（样本量、方法、结果、P 值等）
整理成一个可排序的表格

例如，对于上面的问题，Elicit 可能生成一个表格，列包括：论文、样本量、PD-1 表达检测方法、OR（比值比）、95% CI、结论。

提示： Elicit 在提取数值数据时可能有错误，特别是当论文使用非标准格式时（例如，"p=0.03" 可能被提取为 "0.03" 或遗漏）。始终双重检查从 PDF 提取的数据。

功能 3：系统评价的自动化工作流

Elicit 支持系统评价的 PRISMA 工作流：

去重：自动删除在不同数据库中找到的重复论文
筛选：提供类似 Tinder 的界面，快速排除不相关的论文
数据提取：批量提取预定义字段
风险偏倚评估：手动工具，AI 提供建议但不完全自动化

Elicit 的局限性

并非所有 PDF 都可以免费获取：Elicit 可以找到开放获取论文的全文，但对于付费墙后的内容，它只能使用标题和摘要，这会降低提取质量。
没有内置的全文存储：你需要自己下载 PDF 并上传（对于付费内容）。
批量处理有限：免费版本限制每天 20 个“任务”，专业版本更贵（教育有折扣）。

ResearchRabbit：探索文献的社交网络

如果说 Elicit 回答“已知的问题”，那么 ResearchRabbit 回答“我错过了什么？”和“谁在引用谁？”

ResearchRabbit（researchrabbit.ai）专注于文献网络的发现。它的界面类似于 Spotify 的“推荐歌曲”或 Netflix 的“因为你看了...”

ResearchRabbit 的核心功能

功能 1：引用网络可视化

从一篇“种子论文”开始，ResearchRabbit 构建一个网络，显示：

先前的作品：种子论文引用的论文（蓝色）
后续的作品：引用种子论文的论文（红色）
共同引用：与种子论文经常被一起引用的论文（绿色）

结果是一个交互式网络图，节点是论文，边是引用关系。你可以点击任何节点，扩展网络，或导出到引用管理器。

功能 2：“相似的工作”推荐

基于文本相似性和共引模式，ResearchRabbit 推荐你感兴趣的论文，而这些论文可能没有通过关键词搜索找到。这类似于“如果一个生态学家阅读了这篇论文，他们也喜欢那篇”的群体智慧。

功能 3：收藏和协作

创建收藏（类似播放列表），分组论文用于不同的项目。
与同事分享收藏和评论。
设置新论文提醒：当新的论文引用你的种子论文或与你的收藏相似时，ResearchRabbit 通过电子邮件通知你。

功能 4：与 Zotero 的集成

一键将论文从 ResearchRabbit 导出到 Zotero（或 Mendeley、EndNote）。所有元数据（DOI、作者、期刊）都被填充，包括你添加的笔记和标记。

综合工作流：如何进行更好的文献综述

以下是结合 Elicit 和 ResearchRabbit 的一个成熟的系统评价工作流：

第一阶段：设置和探索（第 1-2 天）

确定种子论文：找到 3-5 篇你认为高度相关的论文（通过初步 PubMed 搜索或导师推荐）。
导入 ResearchRabbit：构建从这些种子论文开始的引用网络。探索引用树。你可能会发现一篇关键的 2019 年综述，它总结了整个领域，或者一篇 2022 年的论文提供了一个新的分类法。
创建初始收藏：将 20-30 篇看起来最重要的论文添加到 ResearchRabbit 收藏中。

第二阶段：结构化搜索（第 2-3 天）

在 Elicit 中形成具体问题：将你的宽泛问题分解为 3-5 个具体问题，例如：
- "What is the effect size of PD-1 expression on overall survival in NSCLC?"
- "Which cutoffs for PD-1 expression are most commonly used?"
- "What are the reported adverse events in anti-PD-1 trials?"
运行 Elicit 任务：对于每个问题，让 Elicit 提取一个表格。你可能需要尝试不同的问题措辞以获得更好的结果。
导入 Elicit 结果到 ResearchRabbit：Elicit 可以以 RIS 或 BibTeX 格式导出。将这些导入到 ResearchRabbit 中。有趣的是，ResearchRabbit 可能会发现新的联系：例如，Elicit 发现的论文 A 和 B 都引用了一篇你还没有读过的论文 C。

第三阶段：筛选和数据提取（第 3-7 天）

去重和筛选：在您的引用管理器（如 Zotero）中合并来自 Elicit 和 ResearchRabbit 的参考文献，使用内置的去重功能。快速筛选标题和摘要。
全文检索：对于含纳入的论文（约 50-200 篇），通过机构访问获取 PDF。上传 PDF 到 Elicit。
深度数据提取：对于每篇论文，提取特定的数据字段（如样本量、组分配、结果测量）。Elicit 可以批量进行，但需要手动验证。创建一个数据提取表格。

第四阶段：合成和写作（第 8-14 天）

在 ResearchRabbit 中识别研究空白：检查你的收藏，是否有 2021-2022 年出现了大量的论文，但 2023-2024 年减少了？这表明该领域可能已经饱和。相反，是否有 2020 年的一篇论文被引用了 500 次，但 2023 年之后只有 10 次引用？这表明它可能被一个更新的发现所取代。
写作辅助：使用 AI 写作工具（如 Cursor 中的 LLM）生成综述的初稿大纲，基于你提取的表格。但不要逐字复制 AI 生成的文本，因为这可能构成自我抄袭或版权问题。相反，将 AI 输出作为结构化数据的起点，用自己的话重写。
保持最新：在你的论文在评审期间，保持 ResearchRabbit 的提醒开启。如果出现了新的相关论文，在 proofs 阶段将其添加为“更新说明”。

更专业一点：半自动化的系统评价

对于正式的系统评价（例如 Cochrane 综述），建议采用更谨慎的“半自动化”方法：

双重筛选：两名评审员独立筛选标题和摘要。AI（如 Elicit 的筛选助手）可以提供排序，但不能替代人工判断。
数据提取的一致性：对于关键结果（如死亡率、严重不良事件），使用两名独立评审员进行数据提取，并计算一致性（κ 统计量）。Elicit 的自动提取可以作为一种“第三只手”来解决分歧。
偏倚风险：Cochrane RoB 2 工具需要人工判断（随机化过程、偏离预期干预等）。AI 可以提供建议，但不应是最终决定。

案例研究：用 AI 完成博士文献综述

（案例基于 2025 年一位生物学博士生的实际经验）

目标：撰写关于“肿瘤相关成纤维细胞（CAFs）在胰腺癌免疫治疗抵抗中的作用”的文献综述，用于博士资格考试的文献综述部分。从零开始，时间：4 周。

方法：

第 1 周：使用 ResearchRabbit，从 5 篇关键论文开始（已知的 CAF 标记物论文、两篇单细胞研究、两篇免疫治疗研究）。扩展到 150 篇论文的候选集合。
第 2 周：使用 Elicit 自动化数据提取，针对三个子问题：“CAF 亚型分类”、“CAF 与免疫细胞的相互作用”、“CAF 相关生物标志物的临床预后”。
第 3 周：手动验证 Elicit 提取的表格，发现约 90% 的准确性，但需要修正一些错误（例如，将 95% CI 与 OR 混淆）。
第 4 周：撰写综述。使用 ChatGPT 生成大纲和草稿段落，但在提交前进行了大量的重写和事实核查。

成果：

在 4 周内完成了一篇包含 154 篇引用文献的综述（传统方式需要 10-12 周）
博士资格考试委员会评价“特别全面和结构良好”
综述后来被一个中等影响因子的期刊接受，作为 mini-review 发表

****学习经验总结**：

不要完全相信 Elicit 的数字提取，至少需要 10% 的抽检
ResearchRabbit 的推荐引擎找到了 5 篇在 PubMed 关键词搜索中没有出现的相关论文（有一个不同的术语）
AI 不能代替理解合成概念；博士生仍然需要阅读大约 30 篇最重要的论文的全文

未来：综合 AI 系统

在 2026-2027 年，可能会出现更强大的工具：

从问题到草稿：输入一个研究问题，AI 生成一篇完整的系统评价初稿（包括 PRISMA 流程图、提取数据的表格、叙述性合成和偏倚风险评估）。人类角色的工作不是从零开始写作，而是验证、修正和增强 AI 的输出。
实时证据监测：系统持续扫描 PubMed、bioRxiv 和临床试验注册库。当累积证据足够丰富以至于改变结论时，它会主动提醒研究人员（类似于“当新的随机对照试验将总生存期的风险比从 0.75 改变为 0.85 时通知我”）。
因果图谱的自动化生成：AI 不仅可以总结关联，还可以从文献中推断因果结构（例如，“X 导致 Y 通过 Z 介导”），并以有向图的形式呈现。这被称为“自动化的系统评价和 meta 分析因果推断”，虽然仍处于早期阶段。

总结：AI 增强了，但没有取代系统评价者

Elicit 和 ResearchRabbit 代表了文献综述范式的转变。它们将耗时的手动筛选和数据提取变为（半）自动化的过程，大大缩短了从问题到综述的时间。

但它们并不是取代系统评价者的理由。偏倚风险评估、关于纳入哪些论文的上下文判断、合成不同研究之间相互矛盾的结果、以及识别研究设计的严重缺陷——这些都需要人类判断。

一个有用的比喻是：Elicit 和 ResearchRabbit 是文献综述的显微镜和望远镜。显微镜（Elicit）允许你以更高的分辨率和数量级看到单个研究的数据。望远镜（ResearchRabbit）揭示了文献的结构和联系，这些联系在近距离是无法看到的。但你自己必须决定往哪里看和这些发现意味着什么。

TAGS: PD1 Elicit

发表评论

上一篇：AI 在空间转录组学与数字病理学整合中的角色

下一篇：2026 年值得关注的五个计算生物学 AI 智能体