数据集:
shunk031/jsnli
从 日本語 SNLI(JSNLI) データセット - KUROHASHI-CHU-MURAWAKI LAB 中翻译:
这个数据集是将自然语言推理 (NLI) 的标准基准数据集 SNLI 翻译成日语的版本。
所有注释都以日语为主要语言。
数据以 TSV 格式存储,每行表示一个标签、前提和假设的三元组。前提和假设由 JUMAN++ 进行词法分析。下面是一个例子。
经过将 SNLI 数据集进行机器翻译,然后对评估数据进行精确的众包过滤,对训练数据进行自动计算机过滤,构建了该数据集。数据集分为两种类型:未经任何过滤的训练数据和经过过滤后精度最高的训练数据。数据集大小为未过滤的训练数据 548,014 对,过滤后的训练数据 533,005 对,评估数据 3,916 对。详细信息请参考引用文献。
谁是标记员?有关此数据集的问题,请发送电子邮件至 nl-resource @ nlp.ist.i.kyoto-u.ac.jp。
本数据集采用与 SNLI 相同的许可证 CC BY-SA 4.0 。有关 SNLI 的许可信息,请参考引用文献。
@article{吉越卓見 2020 機械翻訳を用いた自然言語推論データセットの多言語化,
title={機械翻訳を用いた自然言語推論データセットの多言語化},
author={吉越卓見 and 河原大輔 and 黒橋禎夫 and others},
journal={研究報告自然言語処理 (NL)},
volume={2020},
number={6},
pages={1--8},
year={2020}
}
@inproceedings{bowman2015large,
title={A large annotated corpus for learning natural language inference},
author={Bowman, Samuel and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
booktitle={Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing},
pages={632--642},
year={2015}
}
@article{young2014image,
title={From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions},
author={Young, Peter and Lai, Alice and Hodosh, Micah and Hockenmaier, Julia},
journal={Transactions of the Association for Computational Linguistics},
volume={2},
pages={67--78},
year={2014},
publisher={MIT Press}
}
衷心感谢提供 JSNLI 数据集的吉越卓见、河原大辅和黑橋禎夫。