神经科学界日益认识到,改善数据共享的努力至少在原则上是好主意。共享实验生成的数据对于可重复性至关重要,并使可能花费数年收集的数据得以重用。共享用于将数据转化为科学结果的代码也至关重要,既能提高可重复性,又能减少学员开发这些工具的时间。但以有用的方式共享神经科学数据是困难的,通常需要大量努力,却获得有限的官方认可或奖励。因此,几乎没有激励措施来引发社区的广泛行为改变。这种情况可能很快就会改变,得益于美国国立卫生研究院赞助的一项新努力——数据共享指数挑战。该挑战提供100万美元奖金,奖励给对如何量化共享提出最佳想法的个人或团体。目标是提供一个简单的指标,使招聘和晋升委员会以及资助者能够识别和奖励共享。本文基于《The Transmitter》的观点文章,系统解析数据共享的障碍、S指数的潜力以及仍需解决的更广泛问题。
一、数据共享的障碍
| 障碍 | 描述 |
|---|---|
| 决定共享什么 | 应共享哪些数据(原始、预处理,还是仅论文图中的数字)?选择极大地影响共享数据的实用性 |
| 打包数据 | 需要用他人可理解的方式打包数据,包括包含关键实验元素的所有元数据 |
| 代码可理解性 | 为得出结果而编写的代码与对他人有用的代码可能非常不同;实验室中编写的许多代码只有作者自己能理解(有时甚至作者自己也不行) |
| 缺乏优先级 | 共享通常是事后考虑——仅在结果准备发表时才开始 |
| 缺乏验证 | 通常没有人检查共享的数据和代码是否可理解和可用 |
| 技术专长 | 许多实验室不具备构建或采用共享软件基础设施的专业知识 |
| 资金限制 | 存储库、标准和工具需要持续支持以保持最新;当前资金水平不足以让实验室聘请所需的数据科学家 |
二、S指数挑战
| 参数 | 描述 |
|---|---|
| 发起者 | 美国国立卫生研究院 |
| 目标 | 开发量化数据共享的指标 |
| 奖励 | 100万美元 |
| 目的 | 使招聘和晋升委员会以及资助者能够识别和奖励共享 |
| 理想特征 | 不仅考虑共享了多少数据集或软件存储库,还考虑它们对社区的有用程度 |
三、S指数的潜在特征
| 特征 | 描述 |
|---|---|
| 数据集使用追踪 | 追踪数据集或代码何时被他人使用 |
| 出版物计数 | 追踪使用转化为一篇或多篇出版物的频率 |
| 影响力评估 | 超越简单计数,评估共享对领域的实际影响 |
| 质量调整 | 考虑数据的质量、元数据的完整性、可重用性 |
| 代码质量 | 评估共享代码的可理解性、文档和可重用性 |
四、仍需解决的更广泛问题
| 问题 | 描述 |
|---|---|
| 数据共享工具的资金 | 存储库、标准和开源工具需要持续支持,但获得这种支持很困难 |
| 技术专长差距 | 许多实验室无法聘请所需的数据科学家 |
| 强制执行不足 | 数据共享计划通常不被强制执行;大多数期刊和审稿人通常不检查共享的数据和代码是否可理解和可用 |
| 无资金支持的任务 | 共享在很大程度上仍然是一个无资金支持的任务,强加给已经在日益具有挑战性的环境中难以找到时间做科学的实验室负责人 |
五、前进之路
| 步骤 | 描述 |
|---|---|
| 成功的S指数 | 开发可工作的指标以激励共享 |
| 资助者认可 | 资助者必须认识到支持这些努力的重要性 |
| 工具和培训 | 为下一代科学家提供他们需要的工具和支持 |
| 文化转变 | 从将共享视为“事后考虑”转变为将其视为科学过程的组成部分 |
六、结论:从激励到基础设施
S指数挑战是朝着正确方向迈出的一步,有可能提供急需的激励,使科学家从研究开始就考虑数据共享。然而,指标本身并不能解决所有问题。我们仍然需要:
-
存储库、标准和工具的持续资金
-
帮助实验室采用这些工具的技术专长
-
强制执行数据共享要求的期刊和资助者
-
将共享视为科学过程组成部分的文化转变
核心信息:
-
以有用的方式共享数据是困难的,但重要的。
-
目前几乎没有激励措施来引发广泛的行为改变。
-
S指数挑战(100万美元奖金)旨在开发量化共享的指标。
-
指标应不仅考虑数量,还考虑有用性。
-
仍存在重大障碍:资金有限、技术专长差距、强制执行不足。
-
共享在很大程度上仍然是无资金支持的任务。