数据集:
timit_asr
任务:
语言:
计算机处理:
monolingual大小:
1K<n<10K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original许可:
TIMIT 读出的语音语料库旨在为声学-语音学研究、自动语音识别系统的开发和评估提供语音数据。TIMIT 包含了八个美国英语主要方言的 630 位发言者的宽带录音,每人朗读十个语音学丰富的句子。TIMIT 语料库包括经时间对齐的正字法、语音和词汇转录,以及每个语音的 16 位、16kHz 采样率的波形文件。该语料库的设计是麻省理工学院(MIT)、SRI International(SRI)和德州仪器公司(TI)的合作努力。语音录制在 TI 进行,转录在 MIT 进行,并由美国国家标准与技术研究所(NIST)进行验证和准备以制作 CD-ROM。
此数据集需要从 https://catalog.ldc.upenn.edu/LDC93S1 手动下载:
To use TIMIT you have to download it manually.
Please create an account and download the dataset from https://catalog.ldc.upenn.edu/LDC93S1
Then extract all files in one folder and load the dataset with:
`datasets.load_dataset('timit_asr', data_dir='path/to/folder/folder_name')`
音频为英语。TIMIT 语料库的转录已经经过手工验证。测试和训练子集经过了平衡,以保证了语音和方言的覆盖范围,同时还包括了表格化的可计算机搜索的信息以及书面文档。
典型的数据点包括音频文件的路径,通常称为文件和其转录,称为文本。还提供了关于说话人和包含转录的句子的一些额外信息。
{
'file': '/data/TRAIN/DR4/MMDM0/SI681.WAV',
'audio': {'path': '/data/TRAIN/DR4/MMDM0/SI681.WAV',
'array': array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32),
'sampling_rate': 16000},
'text': 'Would such an act of refusal be useful?',
'phonetic_detail': [{'start': '0', 'stop': '1960', 'utterance': 'h#'},
{'start': '1960', 'stop': '2466', 'utterance': 'w'},
{'start': '2466', 'stop': '3480', 'utterance': 'ix'},
{'start': '3480', 'stop': '4000', 'utterance': 'dcl'},
{'start': '4000', 'stop': '5960', 'utterance': 's'},
{'start': '5960', 'stop': '7480', 'utterance': 'ah'},
{'start': '7480', 'stop': '7880', 'utterance': 'tcl'},
{'start': '7880', 'stop': '9400', 'utterance': 'ch'},
{'start': '9400', 'stop': '9960', 'utterance': 'ix'},
{'start': '9960', 'stop': '10680', 'utterance': 'n'},
{'start': '10680', 'stop': '13480', 'utterance': 'ae'},
{'start': '13480', 'stop': '15680', 'utterance': 'kcl'},
{'start': '15680', 'stop': '15880', 'utterance': 't'},
{'start': '15880', 'stop': '16920', 'utterance': 'ix'},
{'start': '16920', 'stop': '18297', 'utterance': 'v'},
{'start': '18297', 'stop': '18882', 'utterance': 'r'},
{'start': '18882', 'stop': '19480', 'utterance': 'ix'},
{'start': '19480', 'stop': '21723', 'utterance': 'f'},
{'start': '21723', 'stop': '22516', 'utterance': 'y'},
{'start': '22516', 'stop': '24040', 'utterance': 'ux'},
{'start': '24040', 'stop': '25190', 'utterance': 'zh'},
{'start': '25190', 'stop': '27080', 'utterance': 'el'},
{'start': '27080', 'stop': '28160', 'utterance': 'bcl'},
{'start': '28160', 'stop': '28560', 'utterance': 'b'},
{'start': '28560', 'stop': '30120', 'utterance': 'iy'},
{'start': '30120', 'stop': '31832', 'utterance': 'y'},
{'start': '31832', 'stop': '33240', 'utterance': 'ux'},
{'start': '33240', 'stop': '34640', 'utterance': 's'},
{'start': '34640', 'stop': '35968', 'utterance': 'f'},
{'start': '35968', 'stop': '37720', 'utterance': 'el'},
{'start': '37720', 'stop': '39920', 'utterance': 'h#'}],
'word_detail': [{'start': '1960', 'stop': '4000', 'utterance': 'would'},
{'start': '4000', 'stop': '9400', 'utterance': 'such'},
{'start': '9400', 'stop': '10680', 'utterance': 'an'},
{'start': '10680', 'stop': '15880', 'utterance': 'act'},
{'start': '15880', 'stop': '18297', 'utterance': 'of'},
{'start': '18297', 'stop': '27080', 'utterance': 'refusal'},
{'start': '27080', 'stop': '30120', 'utterance': 'be'},
{'start': '30120', 'stop': '37720', 'utterance': 'useful'}],
'dialect_region': 'DR4',
'sentence_type': 'SI',
'speaker_id': 'MMDM0',
'id': 'SI681'
}
file:下载的音频文件的路径,格式为.wav。
audio:包含下载的音频文件的路径、解码后的音频数组和采样率的字典。请注意,当访问音频列时:dataset[0]["audio"],音频文件会自动解码并重新采样到dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此,最好在访问"audio"列之前先查询样本索引,即dataset[0]["audio"]应始终优先于dataset["audio"][0]。
text:音频文件的转录。
phonetic_detail:构成句子的音素。PHONCODE.DOC 包含了 TIMIT 词典中使用的所有音位和音标符号的表格。
word_detail:转录的词级拆分。
dialect_region:录音的方言代码。
sentence_type:句子的类型 - 'SA':方言、'SX':紧凑或'SI':多样。
speaker_id:发言人的唯一标识符。同一发言人的唯一标识符可能出现在多个数据样本中。
id:数据样本的ID。包含 .
语音材料已划分为训练和测试部分。默认的训练-测试拆分将在数据下载时提供。
仅测试数据集中包含一个核心部分,其中有 24 个发言人,每个方言区域有 2 名男性和 1 名女性。有关测试集的更多信息可以在 here 找到。
[需要更多信息]
[需要更多信息]
源语言制片人是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
该数据集包含通过线上捐赠声音的人。您同意不试图确定数据集中发言者的身份。
[需要更多信息]
[需要更多信息]
数据集仅供研究目的使用。请检查数据集许可证获取其他信息。
数据集由 John S. Garofolo, Lori F. Lamel, William M. Fisher, Jonathan G. Fiscus, David S. Pallett, Nancy L. Dahlgren, Victor Zue 创建。
LDC User Agreement for Non-Members
@inproceedings{
title={TIMIT Acoustic-Phonetic Continuous Speech Corpus},
author={Garofolo, John S., et al},
ldc_catalog_no={LDC93S1},
DOI={https://doi.org/10.35111/17gk-bn40},
journal={Linguistic Data Consortium, Philadelphia},
year={1983}
}
感谢 @vrindaprabhu 提供此数据集。