数据集:

larryvrh/CCMatrix-v1-Ja_Zh-filtered

任务:

翻译

语言:

zh ja
英文

"CCMatrix-v1-Ja_Zh-filtered" 数据集卡片

经过过滤和修改的日语/中文语言对数据,来自 CCMatrix v1

处理步骤:

  • 基本的基于正则表达式的过滤/长度检查,以删除异常对。
  • 基于 sentence-transformers/LaBSE 的语义相似性过滤,阈值为0.6。
  • 使用 zhconv 将所有繁体中文句子转换为简体中文。
  • 以下はフィルタリングされ修正された日本語/中国語のペアデータです。データ元は CCMatrix v1 です。

    処理手順:

  • 正規表現に基づくフィルタリング/長さのチェックを行い、異常なペアを削除します。
  • sentence-transformers/LaBSE に基づくセマンティック類似性フィルタリングを行い、閾値は0.6です。
  • zhconv を使って、すべての繁体字中国語の文を簡体字中国語に変換します。