数据集:

lj_speech

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

unlicense
英文

数据集卡片:lj_speech

数据集概述

这是一个公共领域的语音数据集,包含了一位演讲者朗读7本英文非小说书籍的13,100个短音频片段。每个片段都有相应的转录文本。这些片段的长度从1秒到10秒不等,总长度约为24小时。

这些文本书籍发表于1884年至1964年之间,属于公共领域。这些音频是由LibriVox项目于2016-17年录制的,同样属于公共领域。

支持的任务和排行榜

该数据集可用于训练自动语音识别(ASR)或文本到语音(TTS)模型。

  • other:automatic-speech-recognition:ASR模型给定音频文件,并被要求将音频文件转录为书面文本。最常见的ASR评估指标是词错误率(WER)。
  • other:text-to-speech:TTS模型给定自然语言的书面文本,并被要求生成语音音频文件。音频质量的一个合理评估指标是平均意见分数(MOS)。该数据集有一个活动的排行榜,可以在 https://paperswithcode.com/sota/text-to-speech-synthesis-on-ljspeech 中找到。

语言

转录和音频为英文。

数据集结构

数据实例

一个数据点包括音频文件的路径,称为file,以及其转录,称为text。还提供了文本的归一化版本。

{
    'id': 'LJ002-0026',
    'file': '/datasets/downloads/extracted/05bfe561f096e4c52667e3639af495226afe4e5d08763f2d76d069e7a453c543/LJSpeech-1.1/wavs/LJ002-0026.wav',
    'audio': {'path': '/datasets/downloads/extracted/05bfe561f096e4c52667e3639af495226afe4e5d08763f2d76d069e7a453c543/LJSpeech-1.1/wavs/LJ002-0026.wav',
      'array': array([-0.00048828, -0.00018311, -0.00137329, ...,  0.00079346,
              0.00091553,  0.00085449], dtype=float32),
      'sampling_rate': 22050},
    'text': 'in the three years between 1813 and 1816,'
    'normalized_text': 'in the three years between eighteen thirteen and eighteen sixteen,',
}

每个音频文件是单声道的16位PCM WAV,采样率为22050 Hz。

数据字段

  • id:数据样本的唯一ID。

  • file:下载的音频文件的路径,以.wav格式。

  • audio:包含下载的音频文件路径、解码的音频数组和采样率的字典。注意,在访问音频列时:dataset[0]["audio"],音频文件会自动解码和重新采样到dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要相当长的时间。因此,首先查询样本索引,然后再访问"audio"列,即dataset[0]["audio"]应始终优先于dataset["audio"][0]。

  • text:音频文件的转录。

  • normalized_text:将数字、序数词和货币单位展开为完整单词的转录。

数据拆分

该数据集未进行预先拆分。一些统计信息:

  • 总片段数:13,100个
  • 总单词数:225,715个
  • 总字符数:1,308,678个
  • 总时长:23:55:17
  • 平均片段时长:6.57秒
  • 最短片段时长:1.11秒
  • 最长片段时长:10.10秒
  • 每个片段平均单词数:17.23个
  • 不同的单词数:13,821个

数据集创建

策划理由

[需要更多信息]

源数据

Initial Data Collection and Normalization

该数据集包含以下作品的摘录:

  • Morris, William等人的《工艺美术论文》,1893年。
  • Griffiths, Arthur的《纽盖特编年史》,第2卷,1884年。
  • Roosevelt, Franklin D.的《富兰克林·德拉诺·罗斯福的壁炉边谈话》,1933-42年。
  • Harland, Marion的《初学者烹饪手册》,1893年。
  • Rolt-Wheeler, Francis的《宇宙的科学历史,第5卷:生物学》,1910年。
  • Banks, Edgar J.的《古代世界的七大奇迹》,1916年。
  • 总统肯尼迪遇刺调查委员会的《总统肯尼迪遇刺调查委员会报告》,1964年。

有关归一化的一些详细信息:

  • 归一化转录将数字、序数词和货币单位展开为完整单词(UTF-8)。
  • 19个转录包含非ASCII字符(例如,LJ016-0257包含"raison d'être")。
  • 以下缩写出现在文本中。它们可展开如下:
Abbreviation Expansion
Mr. Mister
Mrs. Misess (*)
Dr. Doctor
No. Number
St. Saint
Co. Company
Jr. Junior
Maj. Major
Gen. General
Drs. Doctors
Rev. Reverend
Lt. Lieutenant
Hon. Honorable
Sgt. Sergeant
Capt. Captain
Esq. Esquire
Ltd. Limited
Col. Colonel
Ft. Fort
(*) there's no standard expansion for "Mrs."
谁是源语言的制作人?

[需要更多信息]

注释

Annotation process
  • 音频片段的长度大约从1秒到10秒不等。它们是根据录音中的静音自动分割的。片段边界通常与句子或从句的边界对齐,但不总是如此。
  • 文本与音频的匹配是手动进行的,并进行了质量保证以确保文本准确匹配音频中的发音。
谁是注释者?

Linda Johnson在LibriVox录制,Keith Ito进行对齐和注释。

个人和敏感信息

该数据集包含在线捐赠他们声音的人们。您同意不会试图确定此数据集中发言者的身份。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

  • 原始的LibriVox录音以128 kbps的MP3文件形式分发。因此,它们可能包含MP3编码引入的伪像。

其他信息

数据集维护者

该数据集最初由Keith Ito和Linda Johnson创建。

许可信息

公共领域( LibriVox

引用信息

@misc{ljspeech17,
  author       = {Keith Ito and Linda Johnson},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/}},
  year         = 2017
}

贡献

感谢 @anton-l 添加了该数据集。