首页»行业  »   医疗  »   正文

AI通过视觉和听觉预估抑郁症的严重程度

AI通过视觉和听觉预估抑郁症的严重程度

用AI进行情绪识别是目前较为热门的领域,像Beyond Verbal,Affectiva和Cogito等初创公司正在利用自然语言处理从声音中检测情绪唤起。但现在有一种观点认为,单凭言语无法诊断抑郁症,更不用说判断其严重程度了。

印度理工学院巴特那大学和卡昂诺曼底大学科学家的新论文“The Verbal and Non Verbal Signals of Depression — Combining Acoustics, Text and Visuals for Estimating Depression Level”,探讨非语言标志和视觉可以大大提高对抑郁水平的估计。

抑郁症和精神疾病不断增加,这样的研究可以推动更先进,个性化和自动化技术发展,抑郁症检测是一个具有挑战性的问题,因为它的许多症状都是隐蔽的。

研究人员对七种模式进行了编码,包括头部向下倾斜、眼睛凝视、微笑的持续时间和强度、自我触摸以及文字和语言暗示,它们被输入到机器学习模型,将它们融合成向量。

然后,将这些融合的载体传递到第二个系统,该系统基于个人健康问卷抑郁量表(PHQ-8)预测抑郁的严重程度,PHQ-8是一种常用于大型临床心理学研究的诊断测试。

AI通过视觉和听觉预估抑郁症的严重程度

为了训练各种系统,研究人员选择了AIC-WOZ,这是一个抑郁症数据集,包含注释的音频片段,录像和189个临床访谈的问卷回答,支持对焦虑、抑郁和创伤后应激障碍等心理状况的诊断。

每个样本都包含大量数据,包括原始音频文件,以及受访者的68个面部坐标文件(带有时间戳,置信度分数和检测成功标志),两个文件都含有参与者的头部姿势和眼睛注视特征,谈话记录文件等。

在几个预处理步骤和模型训练之后,团队使用三个指标比较AI系统的结果:均方根误差(RMSE),平均绝对误差(MAE)和可解释的方差分数(EVS)。

报告说,声学,文本和视觉这三种方式的融合有助于给出最准确的抑郁水平估计,在RMSE上表现优于现有技术7.17%,在MAE上表现超出现有技术8.08%。

未来,他们计划研究多任务学习架构,并深入挖掘文本数据的新颖表示。如果这一研究取得成果,那么对于现阶段患有抑郁症的3亿多人来说,这将是一个充满希望的方向。

欢迎关注ATYUN官方公众号,商务合作及内容投稿请联系邮箱:bd@atyun.com

发表评论