首页»行业  »   语音识别  »   正文

利用AI等技术将大脑信号直接转换为可理解的语音

利用AI等技术将大脑信号直接转换为可理解的语音

哥伦比亚神经工程师开发了一个系统,可将思想转化为可理解、可识别的语音。通过监控某人的大脑活动,该技术可以以前所未有的清晰度重建一个人听到的单词。这一突破利用了语音合成器和AI的强大功能,可以为计算机直接与大脑通信提供新的途径,它还能够帮助不能说话的人重新建立与外界的沟通。

这些研究结果发表于《Scientific Reports》。该论文的资深作者和首席研究员Nima Mesgarani博士说,“我们的声音有助于将我们与朋友,家人和周围的世界联系起来,这就是因伤害或疾病而失去声音是如此具有破坏性的原因,通过今天的研究,我们有了可以恢复这种力量的潜在方法。通过正确的技术,这些人的想法可以被任何听众解读和理解。”

几十年的研究表明,当人们说话甚至想象在说话时,大脑中会出现明显的活动模式。当我们倾听某人说话或想象聆听时,也会出现明显可识别的信号模式。专家们试图记录和解码这些模式,也许在未来,思想不需要隐藏在大脑中,而是可以随意转换成口头语言。

但实现这一壮举十分困难。Mesgarani博士及其他人早期解决脑部信号的工作主要集中在分析频谱图的简单计算机模型上,这些频谱图是声音频率的视觉表示。

但由于这种方法未能产生任何类似于可理解语音的东西,Mesgarani博士的团队转而使用声码器,这是一种计算机算法,在用人们说话的录音训练后可以合成语音。

为了教声码器解释大脑活动,Mesgarani博士与Northwell Health Physician Partners神经科学研究所神经外科医生Ashesh Dinesh Mehta合作。Mehta博士治疗癫痫患者,其中一些人必须定期接受手术。

“与Mehta博士合作,让已经接受过脑部手术的患者听不同人说的句子,同时测量大脑活动的模式,这些神经模式训练了声码器。”Mesgarani博士说。

接下来,研究人员让这些病人听讲话者背诵0到9之间的数字,同时记录大脑信号,这些信号可以通过声码器播放。声码器对这些信号发出的声音被神经网络分析和清理,这是一种模仿生物大脑神经元结构的AI。

最终结果是一个如同机器人发出的声音背诵一系列数字。为了测试录音的准确性,团队要求个人听取录音并报告他们听到的内容。

Mesgarani博士说,“我们发现人们可以以75%准确性理解并重复这些声音,这远远超过以往任何尝试,在将新记录与早期基于频谱图的尝试进行比较时,可理解度的提高尤为明显。敏感的声码器和强大的神经网络代表了患者最初听到的声音,达到了惊人的准确性。”

Mesgarani博士和他的团队计划接下来测试更复杂的单词和句子,他们希望对一个人讲话或想象说话时发出的大脑信号进行相同的测试。最终,他们希望他们的系统可以成为植入物的一部分,将佩戴者的思想直接转化为文字。

Mesgarani博士表示,“在这种情况下,如果佩戴者想到’我需要一杯水’,我们的系统可以接受这种想法产生的大脑信号,并将它们转化为合成的口头语言,如果实现这一点,将改变游戏规则。它会让任何失去讲话能力的人,重新获得与周围世界联系的机会。”

论文:dx.doi.org/10.1038/s41598-018-37359-z

欢迎关注ATYUN官方公众号,商务合作及内容投稿请联系邮箱:bd@atyun.com

发表评论