一项发表于《自然·通讯》的研究首次在单神经元放电水平上,揭示了大脑腹侧中央前回(vPCG)如何编码不同的语音模式(默念、耳语、正常说话、大声说话)和响度。研究显示,vPCG的神经元放电率会随着尝试的语音模式和响度而显著变化。在神经群体水平上,语音模式/响度和音位内容是在不同的神经子空间中编码的。研究人员成功地从vPCG中解码了尝试的语音模式和响度,两位参与者的解码准确率分别达到94%和89%。此外,在语音开始前,相应的神经准备活动(分别为640毫秒和270毫秒)也实现了80%的解码准确率。基于这些发现,团队开发了一个闭环响度解码器,能够根据尝试的响度,在线调节脑-机接口文字输出,准确率达到94%。
研究背景与意义
人类语言交流的表现力在很大程度上依赖于改变语音模式和响度的能力。然而,此前尚未有研究在神经元放电率的分辨率上,探究腹侧中央前回(vPCG)如何编码这些行为。本研究利用两名因临床言语神经假体试验而在vPCG植入皮层内微电极阵列的参与者,填补了这一空白。
核心发现
- 神经元编码:vPCG中的神经元放电率会随着参与者尝试的语音模式(默念、耳语、正常、大声)而显著变化。
- 神经子空间分离:在神经群体活动层面,语音模式/响度与音位内容(说话的具体内容)是在不同的神经子空间中编码的。这意味着大脑能够并行处理“说什么”和“怎么说”。
- 高精度解码:仅从vPCG的神经活动,就能以94%和89%的准确率解码两位参与者尝试的语音模式和响度。
- 准备电位:在语音开始前,研究者检测到了与模式/响度相关的神经准备活动(分别为640毫秒和270毫秒),并可达到80%的解码准确率,这为实时预测语音特征提供了可能。
- 闭环应用:研究团队成功构建了一个闭环响度解码器。该解码器能根据参与者尝试发出的响度,实时调节脑-机接口的文字输出,在线准确率高达94%。
研究结论与展望
这项研究首次证实了从人类vPCG解码语音模式和响度的可行性。通过证明大脑在处理言语内容的同时,也在一个分离的神经子空间中编码言语的副语言特征(如响度和模式),该研究为开发能够合成更具表现力、更自然交流语音的下一代言语神经假体铺平了道路。
参考文献
Srinivasan, A., Wairagkar, M., Iacobacci, C., Hou, X., Card, N. S., Jacques, B. G., ... & Stavisky, S. D. (2026). Encoding of speech modes and loudness in ventral precentral gyrus. Nature Communications. https://doi.org/10.1038/s41467-026-71284-4
该研究数据已公开在Dryad数据库(https://doi.org/10.5061/dryad.2547d7x5w),分析代码可在GitHub上获取(https://github.com/Neuroprosthetics-Lab/srinivasan-speech-modes)。研究得到了美国国家科学基金会、A.P. Giannini基金会、国防部ALS研究计划、NIH主任办公室(DP2)、Searle学者计划以及Burroughs Wellcome基金会的资助。