科学论文将被取代？AI催生知识单元革命

在科学论文出现之前，主导学术交流的是长篇论著。开普勒的《新天文学》将十年观测、错误尝试与方法论争论熔于一炉；牛顿的《原理》则凝聚了自1660年代以来的思想精华。这种节奏在1665年《皇家学会哲学汇刊》创刊后被打破——科学家开始以紧凑形式快速分享初步发现，将可发表的知识单元大幅缩小。就连达尔文也曾担忧这种短篇科学缺乏严谨性，抱怨自己的理论“很难在不提供事实的情况下变得科学”。

然而，以巨著发布发现最终成为例外而非规则。爱因斯坦1905年在《物理学年鉴》上发表的四篇革命性论文，以及沃森和克里克1953年在《自然》上用不到1000字揭示DNA结构，都证明了论文这一创新形式的价值。它使研究者能近乎实时地相互借鉴，加速了发现进程，并孕育了现代科学出版基础设施。

如今，这一基础设施正承受巨大压力，而人工智能（AI）正使情况恶化。去年12月《科学》杂志上的一项研究发现，使用大语言模型的研究者论文发表量显著增加。萨里大学健康数据分析研究员、《科学报告》副编辑Matt Spick自2024年以来，几乎每天收到一篇高度雷同的稿件——均基于同一公开美国健康数据集，仅略作改写以规避查重。与此同时，谷歌团队今年4月发布的Paper Orchestra系统，可将研究者的原始实验笔记通过五个专门AI智能体，在约40分钟内生成带图表和验证引用的LaTeX稿件。AI驱动的产出洪流正压垮同行评审系统：编辑找不到足够合格的审稿人，而现有审稿人也在越来越多地求助AI——今年国际学习表征会议（ICLR）上，约21%的评审完全由AI生成。

面对自动化狂潮，标准回应是加固现有系统。但越来越多研究者开始追问一个不同的问题：问题是否不在于如何修复科学出版，而在于AI的能力是否正迫使科学交流单元再次进化？这种转变可能对神经科学等跨尺度领域产生重大影响——其研究范围从分子到行为，多样数据常因论文格式限制而彼此孤立。

加州理工学院的Lior Pachter团队提出了最具体的方案之一。在2月发布的预印本中，他们描述了OpenEval系统，能将科学论文解构为组成部分：单个声明、支持证据及其评估。团队对《eLife》全部论文运行该系统，从约1.6万篇论文中提取了近200万个离散声明，并由AI逐一评估。AI与人类评审的一致性达81%，但更引人注目的是覆盖率：OpenEval评估了给定稿件中93%的声明，而人类同行评审平均仅覆盖68%。对于包含100个经验声明的论文，两三位忙碌的教授在短时间内根本无法进行全面系统评估。

Pachter团队认为，科学出版应区分论文当前捆绑的两个功能：结果传播与思想交流。结果应以显式、可机器读取的形式发布，而叙事则作为结构化基础之上的解释层。论文仍将存在，但将成为更深层、可查询记录的一种视图。神经科学可能比其他领域获益更多——该学科从分子生物学到功能成像再到行为心理学，一个层面的发现常影响另一层面，但连接因信息过载而深埋。结构化、可查询的结果记录将首次使这些连接可见。OpenEval已展示其发现隐藏连接的能力：两篇独立研究不同脑回路中时序依赖性长时程抑制（tLTD）机制的《eLife》论文，一篇显示tLTD可在有无NMDA受体情况下发生，另一篇则显示NMDA受体通过非离子通道信号介导tLTD。两篇论文未相互引用，但综合起来表明NMDA受体参与tLTD具有回路依赖性和机制多样性——这种互补性发现可能重塑对机制的理解，但神经科学文献的碎片化使其保持隐形。

意大利物理学家Francesca Colaiori提出了更激进的自适应知识网络概念，其中基本科学贡献单元是“知识对象”——单个声明、数据集、方法或开放问题，通过信息链接相互连接，出版更像编辑共享维基而非提交完稿。另一端，《NEJM AI》编辑已启动邀请制人机混合评审流程：人类编辑独立评审稿件，两个大语言模型分别生成结构化评审，统计学家与AI合作完成全面统计评审。从提交到临时接受：七天。去年年底，他们通过该系统发表了两篇论文，并附上完整AI评审和作者回应，邀请读者自行判断质量。

这种解绑已有先例。2023年，数学家Timothy Gowers、Ben Green、Frederick Manners和Terence Tao证明多项式Freiman-Ruzsa猜想的关键情形时，以传统论文形式报告，但三周内，一个贡献者团队也将证明翻译成Lean证明助手，其社区维护的mathlib库包含超过25万个机器验证定理。机器验证过程发现了一个人类遗漏的小错误。现在结果以两种形式存在：一篇解释证明重要性、直觉和挑战的论文，以及一个保证每一步都正确的机器验证版本。两者服务不同目的，不可相互替代。Pachter团队将mathlib视为模型，但类比不完美——经验科学无法像数学证明那样逻辑验证。更广泛的观点是：叙事对于向人类传达思想仍然至关重要，但机器可读性可使结果以被锁定在散文中无法实现的方式变得可重用、可组合和可验证。

对于神经科学实验室，实际场景可能是：按常规提交论文，但同时以结构化格式存放声明和结果，每个链接到特定图表、统计检验和数据集。评审者评估单个结果，而非试图在脑中把握整篇稿件。跨论文的相关结果自动被发现，包括从未读过且未相互引用的论文。在更激进版本中，论文变得可选，成为结构化知识对象的“叙事视图”。这种结构对发表偏倚有重要影响：如果主要科学记录存在于网络中，专业意义信用以此分配，那么单个精心设计的重复或精确表述的阴性结果将计入职业发展，而非在某人电脑上沉寂多年。

然而，更激进版本也存在陷阱。科学写作本身是一种思考形式，阐述发现的挣扎迫使你直面推理中的空白。如果写作是科学家弄清科学意义的过程，那么将论文写作视为形式化声明之上的装饰层，可能从写作过程中移除重要的思考工作。谷歌的PaperOrchestra设计上消除了科学家花费数周挣扎于阐述、发现某个结果并不像预期那样顺畅地从上一个结果推导出来、或在引言写到一半时意识到问题框架与文献细读不一致的过程。如果这种挣扎是部分科学洞察的来源，那么将其自动化将以发表指标无法体现的方式损害科学。论文作为数据容器可能效率低下，但它也在做着与科学进步密切相关的认知工作。

我认为机器可读性倡导者尚未充分解决这一潜在权衡。但这也不是无限期维持现状的理由。从论著到论文的转变涉及真实损失。达尔文知道他的思想需要数百页才能充分展开其严谨论证。科学史学家Alex Csiszar认为，将知识碎片化为“破碎的事实片段”带来了真正的认知成本。然而，更小的单元实现了论著无法实现的目标：快速、迭代、累积的记录改变了科学事业所能取得的成就。1925至1927年的量子力学革命——一个完整理论在短短两年内通过哥廷根、哥本哈根、剑桥和苏黎世之间交换的一系列短篇期刊论文涌现——或许在论著时代不会发生。

问题是科学界是否处于类似的转折点。事实是，尽管AI可能是变革催化剂，但科学论文本身早已无法容纳科学。今天所谓的论文，实际上是补充文件比手稿还长、数据集存入仓库却很少被重用、代码上传GitHub却无文档的弗兰肯斯坦式拼凑物。论文在实践中已被混乱取代。对于神经科学这样的领域——两个小组可以独立发现不同回路中同一突触机制的基本原理却从未找到彼此的工作——结构化转型与无序转型之间的区别并非学术问题。神经科学长期以来是一个任何个人都无法全面调查的领域，因此科学交流的下一种形式可能决定下一代是依据地图工作，还是凭感觉在领地中摸索。