数据集:

sakusakumura/databricks-dolly-15k-ja-scored

英文

For the English version, please click here .

概要

databricks-dolly-15k-ja-scored 是 kunishou/databricks-dolly-15k-ja 的派生,加入了由BERTScore提供的翻译质量评分。

这个数据集可以在学术和商业领域下符合条件 クリエイティブ・コモンズ 表示 - 継承 3.0 非移植ライセンス 使用。

翻译的质量评分

databricks-dolly-15k-ja 是对 databricks-dolly-15k 的机器翻译。调查了包含在databricks-dolly-15k-ja中的数据,发现存在以下质量较差的数据。

  • 输入(input)和输出(output)完全相同的数据
  • 输出(output)复制到了指示(instruction)中的数据
  • 由于拼写变化导致表达不一致的数据
  • 无法正确翻译专有名词等的数据
  • 另外,在databricks-dolly-15k中,

    • 符合 1. 的数据已被删除。
    • 符合 2. 的数据已删除指示(instruction),并更改了类别为open-qa。
    • 包含歧视内容的数据(1个)已被删除。

    因此,将这些数据从日语逆向翻译成英语,并通过 BertScore 检查其与原文的相似度。以下是精确度和召回率的调和平均值,也就是f1 score的直方图。

    通过使用这些分数来进行过滤,可以排除低质量的数据。这里有一些例子。

    `output`被复制到`instruction`中的数据
    index f1 score
    1151 0.599859416

    候选(databricks-dolly-15k-ja的逆向翻译数据)

    instruction input output
    Linda Hargreaves is a British actress who has appeared on both stage and screen, making her television debut on the BBC soap opera "Doctors," and has since returned to the soap in three different roles, most recently as a regular on Constance Buchanan. She has also appeared in various television series, including "Containment" and "Call the Midwife." About Linda Hargreaves Linda Hargreaves is a British actress who has appeared on both stage and screen, making her television debut on the BBC soap opera "Doctors," and has since returned to the soap in three different roles, most recently as a regular on Constance Buchanan. She has also appeared in various television series, including "Containment" and "Call the Midwife."

    参考(databricks-dolly-15k)

    instruction input output
    (empty) Who is Linda Hargreaves Linda Hargreaves is a British actress who has appeared on both stage and screen. She made her television debut in the BBC soap opera Doctors and has since returned to the soap on three separate occasions in different roles, most recently in the recurring role of Constance Buchanan. She has also appeared in various television series including Containment and Call the Midwife.

    json

    {
        "index": "1151",
        "instruction": "リンダ・ハーグリーヴスとは",
        "input": "リンダ・ハーグリーヴスはイギリスの女優で、舞台とスクリーンの両方に出演している。BBCのソープオペラ「ドクターズ」でテレビデビューし、その後、3度にわたって異なる役柄でソープに復帰し、最近ではコンスタンス・ブキャナンのレギュラー役を演じている。また、「Containment」や「Call the Midwife」など、さまざまなテレビシリーズにも出演している。",
        "output": "リンダ・ハーグリーヴスはイギリスの女優で、舞台とスクリーンの両方に出演している。BBCのソープオペラ「ドクターズ」でテレビデビューし、その後、3度にわたって異なる役柄でソープに復帰し、最近ではコンスタンス・ブキャナンのレギュラー役を演じている。また、「Containment」や「Call the Midwife」など、さまざまなテレビシリーズにも出演している。",
        "category": "summarization"
    }
    
    无法正确翻译专有名词等的数据
    index f1 score
    1157 0.580275774

    候选(databricks-dolly-15k-ja的逆向翻译数据)

    instruction input output
    (empty) Which type of fish? Mutsugoro and Afro mullet (hairstyle)

    参考(databricks-dolly-15k)

    instruction input output
    (empty) Which is a species of fish? Mullet or Afro Mullet

    源:

    {
        "index": "1157",
        "instruction": "魚の種類はどれ?ムツゴロウとアフロ",
        "input": "",
        "output": "マレット",
        "category": "classification"
    }
    

    注意事项

    推导出的分数会因用于英译日的服务和BertScore使用的模型而有所变化。即使是可用于训练的数据,由于英译日的准确性不同,分数也可能降低。

    index f1 score
    565 0.799999774

    候选(databricks-dolly-15k-ja的逆向翻译数据)

    instruction input output
    (empty) At the 64th Grammy Awards, the winner of the Best Album of the Year award was John Baptiste Wins Best Album of the Year at the 64th Annual Grammy Awards

    参考(databricks-dolly-15k)

    instruction input output
    (empty) In 64th Annual Grammy Awards, best album of the year award was given to Jon Batiste was awarded the best album of the year in 64th Annual Grammy Awards"

    源:

    {
        "index": "1157",
        "instruction": "魚の種類はどれ?ムツゴロウとアフロ",
        "input": "",
        "output": "マレット",
        "category": "classification"
    }
    

    源:

    {
        "index": "565",
        "instruction": "第64回グラミー賞で、年間最優秀アルバム賞を受賞したのは",
        "input": "",
        "output": "ジョン・バティスト、第64回グラミー賞で年間最優秀アルバム賞を受賞",
        "category": "open_qa"
    }
    

    各字段说明

    仅说明添加的部分和需要注意的项目。

    1. index

    数据的唯一标识符。原本用于指示翻译了databricks-dolly-15k的哪一行,但由于未反映databricks-dolly-15k中已删除的元素,因此实际行数与之不同。

    フィールド名 説明
    index データの一意の識別子

    2. bertscore

    BERT模型评分。包括召回率、准确率和f1-score三个指标。

    フィールド名 説明
    recall 再現率(正解テキストに含まれる情報が、生成されたテキストにどれだけ反映されているかを示す指標)
    precision 適合率(生成されたテキストの各部分が、正解テキストとどれだけ一致しているかを示す指標)
    f1 F1スコア(精度と再現率の調和平均。)

    3. translator

    使用的翻译服务信息。包括英语到日语(en_ja)和日语到英语(ja_en)两个字段,分别表示用于英译日和日译英的服务。

    フィールド名 説明
    en_ja 英語から日本語への翻訳に使用されたサービス
    ja_en 日本語から英語への翻訳に使用されたサービス

    致谢

    此数据集 databricks-dolly-15k-ja-scored 基于kun1em0n创建的databricks-dolly-15k-ja数据集。我非常感谢kun1em0n的宝贵工作和对社区的贡献。

    许可证/来源