数据集:
NbAiLab/NPSC_test
《挪威议会演讲语料库》(NPSC)是用于训练挪威ASR(自动语音识别)模型的语料库。该语料库是由挪威国家图书馆的Språkbanken创建的。
NPSC基于挪威议会会议的声音记录。这些讲话按照挪威博克马尔语或挪威尼诺斯克语进行了正字法转录。除了实际包含在此数据集中的数据外,原始语料库还包含大量的元数据。通过演讲者标识符,可以获取有关演讲者的其他信息,例如性别、年龄和出生地(即方言)。通过议程标识符,可以将该语料库与会议的官方议程链接起来。
该语料库总共包含来自40天会议的声音记录。这相当于140小时的讲话,65,000个句子或1.2百万个词。
此语料库是原始语料库的一个适应版本,用于高效的ASR训练。为简单起见和可移植性,省略了一些原始数据集的功能,例如令牌转录。您可以在 the Resource Catalogue at Språkbanken 找到完整的数据集。
from datasets import load_dataset
data = load_dataset("nb/NPSC", streaming=True)
目前此存储库中包含两个版本。
此版本具有一组简短的元数据,并在数据集本身中包含音频(48k mp3),编码为float32数组。
当前数据加载器脚本与此版本相关联。
train.json中的一行如下所示:
{
"sentence_id": 7309,
"sentence_order": 0,
"speaker_id": 1,
"speaker_name": "Marit Nybakk",
"sentence_text": "Stortingets møte er lovlig satt",
"sentence_language_code": "nb-NO",
"text": "Stortingets møte er lovlig satt",
"start_time": 302650,
"end_time": 306000,
"normsentence_text": "Stortingets møte er lovlig satt",
"transsentence_text": "Stortingets møte er lovleg sett",
"translated": 1,
"audio": {
"path": "audio/20170207-095506_302650_306000.wav",
"array": [
24,
25,
50,
(...)
],
"sampling_rate": 48000
}
}
此版本不包含在数据集中编码的音频。相反,它将音频文件放置在子目录中。目前有clips_48k_wav和clips_16k_mp3中的样本。数据集中只涉及基本文件名。请注意,数据集既包含基于句子的音频片段,也包含基于会议的音频片段。数据集包含对两者的引用,后者还包括开始和结束时间。
train/metadata.json中的一行如下所示:
{
"meeting_date": "20170207",
"full_audio_file": "20170207-095506",
"proceedings_file": "20170207-095506.ref",
"duration": 4442474,
"transcriber_id": 1,
"reviewer_id": 2,
"data_split": "test",
"speaker_name": "Marit Nybakk",
"speaker_id": 1,
"sentence_id": 7309,
"sentence_language_code": "nb-NO",
"sentence_text": "Stortingets møte er lovlig satt",
"sentence_order": 0,
"audio_file": "20170207-095506_302650_306000",
"start_time": 302650,
"end_time": 306000,
"normsentence_text": "Stortingets møte er lovlig satt",
"transsentence_text": "Stortingets møte er lovleg sett",
"translated": 1
}
我们提供train、dev和test拆分。这与原始语料库相同。
构建日期:20012022
数据收集和整理数据集创建的过程在论文中有详细描述。
| Feature | Value |
|---|---|
| Duration, pauses included | 140,3 hours |
| Duration, pauses not included | 125,7 hours |
| Word count | 1,2 million |
| Sentence count | 64.531 |
| Language distribution | Nynorsk: 12,8% |
| Bokmål: 87,2%% | |
| Gender distribution | Female: 38,3% |
| Male: 61.7% |
该语料库包含语音数据,允许在挪威国家图书馆之外用于语音识别技术的目的。
请参阅我们的论文。
Per Erik Solberg
Freddy Wetjen,Andre Kaasen和Per Egil Kummervold对将其移植到Hugging Face数据集格式做出了贡献。
在挪威国家图书馆之外使用许可。
CC-ZERO( https://creativecommons.org/publicdomain/zero/1.0/ )
我们正在准备一篇详细介绍此语料库的文章。在发表之前,请引用我们关于该语料库第一个版本的论文:
ANDRE: TO BE DONE