数据集:
lj_speech
任务:
语言:
计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
这是一个公共领域的语音数据集,包含了一位演讲者朗读7本英文非小说书籍的13,100个短音频片段。每个片段都有相应的转录文本。这些片段的长度从1秒到10秒不等,总长度约为24小时。
这些文本书籍发表于1884年至1964年之间,属于公共领域。这些音频是由LibriVox项目于2016-17年录制的,同样属于公共领域。
该数据集可用于训练自动语音识别(ASR)或文本到语音(TTS)模型。
转录和音频为英文。
一个数据点包括音频文件的路径,称为file,以及其转录,称为text。还提供了文本的归一化版本。
{ 'id': 'LJ002-0026', 'file': '/datasets/downloads/extracted/05bfe561f096e4c52667e3639af495226afe4e5d08763f2d76d069e7a453c543/LJSpeech-1.1/wavs/LJ002-0026.wav', 'audio': {'path': '/datasets/downloads/extracted/05bfe561f096e4c52667e3639af495226afe4e5d08763f2d76d069e7a453c543/LJSpeech-1.1/wavs/LJ002-0026.wav', 'array': array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), 'sampling_rate': 22050}, 'text': 'in the three years between 1813 and 1816,' 'normalized_text': 'in the three years between eighteen thirteen and eighteen sixteen,', }
每个音频文件是单声道的16位PCM WAV,采样率为22050 Hz。
id:数据样本的唯一ID。
file:下载的音频文件的路径,以.wav格式。
audio:包含下载的音频文件路径、解码的音频数组和采样率的字典。注意,在访问音频列时:dataset[0]["audio"],音频文件会自动解码和重新采样到dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要相当长的时间。因此,首先查询样本索引,然后再访问"audio"列,即dataset[0]["audio"]应始终优先于dataset["audio"][0]。
text:音频文件的转录。
normalized_text:将数字、序数词和货币单位展开为完整单词的转录。
该数据集未进行预先拆分。一些统计信息:
[需要更多信息]
该数据集包含以下作品的摘录:
有关归一化的一些详细信息:
Abbreviation | Expansion |
---|---|
Mr. | Mister |
Mrs. | Misess (*) |
Dr. | Doctor |
No. | Number |
St. | Saint |
Co. | Company |
Jr. | Junior |
Maj. | Major |
Gen. | General |
Drs. | Doctors |
Rev. | Reverend |
Lt. | Lieutenant |
Hon. | Honorable |
Sgt. | Sergeant |
Capt. | Captain |
Esq. | Esquire |
Ltd. | Limited |
Col. | Colonel |
Ft. | Fort |
(*) there's no standard expansion for "Mrs." |
[需要更多信息]
Linda Johnson在LibriVox录制,Keith Ito进行对齐和注释。
该数据集包含在线捐赠他们声音的人们。您同意不会试图确定此数据集中发言者的身份。
[需要更多信息]
[需要更多信息]
该数据集最初由Keith Ito和Linda Johnson创建。
公共领域( LibriVox )
@misc{ljspeech17, author = {Keith Ito and Linda Johnson}, title = {The LJ Speech Dataset}, howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/}}, year = 2017 }
感谢 @anton-l 添加了该数据集。