数据集:
Bingsu/zeroth-korean
数据集包含韩语的转录音频数据。训练数据包含51.6小时的韩语音频数据(22,263个句子,105人,3000个句子),测试数据包含1.2小时的韩语音频数据(457个句子,10人)。该语料库还包含预训练/设计的语言模型、词典和基于形态素的分词器(morfessor)。Zeroth项目介绍了免费的韩语语音语料库,并旨在使韩语语音识别更广泛地供人使用。该项目是由Lucas Jo (@Atlas Guide Inc.) 和Wonkyum Lee (@Gridspace Inc.)合作开发的。
联系人:Lucas Jo (lucasjo@goodatlas.com),Wonkyum Lee (wonkyum@gridspace.com)
CC BY 4.0
>>> from datasets import load_dataset
>>> dataset = load_dataset("Bingsu/zeroth-korean")
>>> dataset
DatasetDict({
    train: Dataset({
        features: ['audio', 'text'],
        num_rows: 22263
    })
    test: Dataset({
        features: ['text', 'audio'],
        num_rows: 457
    })
})
 下载大小:2.68 GiB 生成大小:2.85 GiB 总大小:5.52 GiB
>>> dataset["train"][0]
{'audio': {'path': None,
  'array': array([-3.0517578e-05,  0.0000000e+00, -3.0517578e-05, ...,
          0.0000000e+00,  0.0000000e+00, -6.1035156e-05], dtype=float32),
  'sampling_rate': 16000},
 'text': '인사를 결정하는 과정에서 당 지도부가 우 원내대표 및 원내지도부와 충분한 상의를 거치지 않은 채 일방적으로 인사를 했다는 불만도 원내지도부를 중심으로 흘러나왔다'}
 | train | test | |
|---|---|---|
| # of data | 22263 | 457 |