数据集:

bsd_ja_en

任务:

翻译

语言:

en ja

计算机处理:

translation

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original
英文

Business Scene Dialogue 数据集卡片

数据集摘要

这是 Business Scene Dialogue(BSD)数据集,一个包含了各种商业场景的日英平行语料库,其中包含了书面对话。

该数据集经过了以下3个步骤的构建:

  • 选择商业场景,
  • 根据选定的场景编写单语对话情景,以及
  • 将这些情景翻译成另一种语言。
  • 一半的单语对话情景用日语编写,另一半用英语编写。

    支持的任务和排行榜

    [需要更多信息]

    语言

    英语,日语。

    数据集结构

    数据实例

    每个实例包含一个对话标识符、表示其在对话中的位置的句子编号、英语和日语中的发言者姓名、英语和日语中的文本、原始语言、情景标签以及情景标题。

            {
          "id": "190315_E004_13",
                "no": 14,
                "speaker": "Mr. Sam Lee",
                "ja_speaker": "サム リーさん",
                "en_sentence": "Would you guys consider a different scheme?",
                "ja_sentence": "別の事業案も考慮されますか?",
                "original_language": "en",
                "tag": "phone call",
                "title": "Phone: Review spec and scheme"
            }
    

    数据字段

    • id: 对话标识符
    • no: 对话中的句子对编号
    • en_speaker: 英语中的发言者姓名
    • ja_speaker: 日语中的发言者姓名
    • en_sentence: 英语中的句子
    • ja_sentence: 日语中的句子
    • original_language: 编写单语对话情景的语言
    • tag: 情景
    • title: 情景标题

    数据拆分

    • 总共有24171个句子/808个商业情景。
    • 训练集:20000个句子/ 670个情景。
    • 验证集:2051个句子/ 69个情景。
    • 测试集:2120个句子/ 69个情景。

    数据集创建

    策划理由

    [需要更多信息]

    源数据

    初始数据收集和归一化

    [需要更多信息]

    谁是源语言的生成者?

    [需要更多信息]

    注释

    注释过程

    [需要更多信息]

    谁是注释者?

    [需要更多信息]

    个人和敏感信息

    [需要更多信息]

    使用数据的注意事项

    数据的社会影响

    [需要更多信息]

    偏见讨论

    [需要更多信息]

    其他已知限制

    此数据集仅供研究目的使用。请查看数据集许可证以获取更多信息。

    其他信息

    数据集创建者

    [需要更多信息]

    许可信息

    该数据集采用Creative Commons Attribution-NonCommercial-ShareAlike(CC BY-NC-SA)许可协议发布。

    引用信息

    @inproceedings{rikters-etal-2019-designing,
        title = "Designing the Business Conversation Corpus",
        author = "Rikters, Mat{\=\i}ss  and
          Ri, Ryokan  and
          Li, Tong  and
          Nakazawa, Toshiaki",
        booktitle = "Proceedings of the 6th Workshop on Asian Translation",
        month = nov,
        year = "2019",
        address = "Hong Kong, China",
        publisher = "Association for Computational Linguistics",
        url = "https://www.aclweb.org/anthology/D19-5204",
        doi = "10.18653/v1/D19-5204",
        pages = "54--61"
    }
    

    贡献

    感谢 @j-chim 添加了这个数据集。