一项最新研究表明,大型语言模型(LLMs)在预测神经科学研究结果方面比人类专家更为准确,其准确率达到81%,而神经科学家的准确率仅为63%。研究人员使用名为BrainBench的工具测试了LLMs和人类专家在识别真实与虚构研究摘要方面的表现,发现即使神经科学家具备领域专业知识,AI模型的表现依然更优。此外,专注于神经科学的定制化LLM——BrainGPT,其预测准确率更是高达86%。
这项研究凸显了AI在设计实验、预测结果以及加速跨学科科学进展方面的潜力。
关键发现
-
LLMs在预测研究结果方面优于人类神经科学家(81% vs. 63%)。
-
神经科学专用LLM——BrainGPT的预测准确率达到86%。
-
AI工具有望改进实验设计和科学创新。
研究背景
由伦敦大学学院(UCL)领导的研究团队发现,大型语言模型(LLMs)能够比人类专家更准确地预测拟议的神经科学研究结果。这项发表在《自然·人类行为》上的研究表明,经过大量文本数据集训练的LLMs能够从科学文献中提炼出规律,从而以超人的准确性预测科学结果。
研究团队表示,这凸显了LLMs作为加速研究的强大工具的潜力,其功能远不止于知识检索。
研究方法
研究团队开发了名为BrainBench的工具,用于评估LLMs在预测神经科学研究结果方面的表现。BrainBench包含多对神经科学研究摘要,每对中一篇是真实的研究摘要,另一篇的背景和方法相同,但结果被相关领域的专家修改为看似合理但错误的版本。
研究人员测试了15种不同的通用LLMs和171名人类神经科学专家(均通过筛选测试以确认其专业知识),要求他们判断哪篇摘要是真实的。结果显示,所有LLMs的表现均优于人类专家,LLMs的平均准确率为81%,而人类专家的平均准确率为63%。
即使将人类专家的范围限制在特定神经科学领域的最高水平(基于自我报告的专业知识),其准确率也仅为66%,仍低于LLMs。
研究结果
研究人员还发现,当LLMs对其决策更有信心时,其判断更可能是正确的。这一发现为未来人类专家与经过良好校准的模型合作铺平了道路。
此外,研究人员通过专门训练现有LLM(开源模型Mistral的版本)来适应神经科学文献,开发了名为BrainGPT的神经科学专用LLM。BrainGPT在预测研究结果方面表现更优,准确率达到86%,优于通用版Mistral的83%。
研究意义
资深作者、UCL心理学与语言科学教授Bradley Love表示:“我们的研究结果表明,科学家们很快将使用AI工具来设计最有效的实验。尽管我们的研究聚焦于神经科学,但这种方法具有普适性,应能成功应用于所有科学领域。”
研究的主要作者、UCL心理学与语言科学博士Ken Luo补充道:“基于我们的研究结果,我们正在开发辅助研究人员的AI工具。我们设想未来研究人员可以输入他们的实验设计和预期发现,AI将提供各种结果可能性的预测,从而加快实验设计的迭代速度并提高决策的科学性。”
研究支持
该研究得到了经济与社会研究理事会(ESRC)、微软和皇家学会Wolfson研究奖的支持,并涉及来自伦敦大学学院、剑桥大学、牛津大学、马克斯·普朗克神经行为研究所(德国)、比尔肯特大学(土耳其)以及其他英国、美国、瑞士、俄罗斯、德国、比利时、丹麦、加拿大、西班牙和澳大利亚机构的研究人员。
关于AI与神经科学研究
-
作者:Chris Lane
-
来源:UCL
-
联系人:Chris Lane – UCL
原创研究:开放获取。
“Large language models surpass human experts in predicting neuroscience results” by Ken Luo et al. Nature Human Behavior