Zeroth-Korean

数据集包含韩语的转录音频数据。训练数据包含51.6小时的韩语音频数据（22,263个句子，105人，3000个句子），测试数据包含1.2小时的韩语音频数据（457个句子，10人）。该语料库还包含预训练/设计的语言模型、词典和基于形态素的分词器（morfessor）。Zeroth项目介绍了免费的韩语语音语料库，并旨在使韩语语音识别更广泛地供人使用。该项目是由Lucas Jo (@Atlas Guide Inc.) 和Wonkyum Lee (@Gridspace Inc.)合作开发的。

联系人：Lucas Jo (lucasjo@goodatlas.com)，Wonkyum Lee (wonkyum@gridspace.com)

许可

CC BY 4.0

数据集结构

数据实例

>>> from datasets import load_dataset
>>> dataset = load_dataset("Bingsu/zeroth-korean")
>>> dataset
DatasetDict({
    train: Dataset({
        features: ['audio', 'text'],
        num_rows: 22263
    })
    test: Dataset({
        features: ['text', 'audio'],
        num_rows: 457
    })
})

数据大小

下载大小：2.68 GiB 生成大小：2.85 GiB 总大小：5.52 GiB

数据字段

audio：audio，采样率=16000
- 包含下载音频文件的路径、解码后的音频数组和采样率的字典。
- 请注意，访问音频列时：dataset[0]["audio"]自动解码和重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要相当长的时间。因此，在访问"audio"列之前，首先查询样本索引，即dataset[0]["audio"]应始终优先于dataset["audio"][0]。
text：string

>>> dataset["train"][0]
{'audio': {'path': None,
  'array': array([-3.0517578e-05,  0.0000000e+00, -3.0517578e-05, ...,
          0.0000000e+00,  0.0000000e+00, -6.1035156e-05], dtype=float32),
  'sampling_rate': 16000},
 'text': '인사를 결정하는 과정에서 당 지도부가 우 원내대표 및 원내지도부와 충분한 상의를 거치지 않은 채 일방적으로 인사를 했다는 불만도 원내지도부를 중심으로 흘러나왔다'}

数据拆分

train	test
# of data	22263	457

作者:

Bingsu

数据集大小:

2.68 GB