数据集:
cawac
语言:
计算机处理:
monolingual大小:
10M<n<100M语言创建人:
found批注创建人:
no-annotation源数据集:
original许可:
caWaC 是一个包含 78 亿个标记的网络语料库,于 2013 年底从.cat 顶级域名构建而成。
【需要更多信息】
数据集以单语 Catalan 为主。
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
源语言生产者是谁?【需要更多信息】
【需要更多信息】
注释者是谁?【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
数据集根据 CC-BY-SA 3.0 许可证发布。
@inproceedings{DBLP:conf/lrec/LjubesicT14,
  author    = {Nikola Ljubesic and
               Antonio Toral},
  editor    = {Nicoletta Calzolari and
               Khalid Choukri and
               Thierry Declerck and
               Hrafn Loftsson and
               Bente Maegaard and
               Joseph Mariani and
               Asunci{\'{o}}n Moreno and
               Jan Odijk and
               Stelios Piperidis},
  title     = {caWaC - {A} web corpus of Catalan and its application to language
               modeling and machine translation},
  booktitle = {Proceedings of the Ninth International Conference on Language Resources
               and Evaluation, {LREC} 2014, Reykjavik, Iceland, May 26-31, 2014},
  pages     = {1728--1732},
  publisher = {European Language Resources Association {(ELRA)}},
  year      = {2014},
  url       = {http://www.lrec-conf.org/proceedings/lrec2014/summaries/841.html},
  timestamp = {Mon, 19 Aug 2019 15:23:35 +0200},
  biburl    = {https://dblp.org/rec/conf/lrec/LjubesicT14.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}
 感谢 @albertvillanova 添加了该数据集。