数据集:

ptb_text_only

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

other
英文

Penn Treebank数据集数据卡片

数据集概述

这是Penn Treebank项目的第二版CDROM,包含了1989年的《华尔街日报》素材共计一百万个单词。本版本中的罕见词已经用[token]替换,数字则用[token]替换。

支持的任务和排行榜

语言模型

语言

数据集中的文本为美式英语

数据集结构

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据划分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

原始数据收集和标准化

[需要更多信息]

源语言制作人是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏置讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

该数据集仅供研究目的使用,请查阅数据集许可证获取更多信息。

引用信息

@article{marcus-etal-1993-building, title = "Building a Large Annotated Corpus of {E}nglish: The {P}enn {T}reebank", author = "Marcus, Mitchell P. and Santorini, Beatrice and Marcinkiewicz, Mary Ann", journal = "Computational Linguistics", volume = "19", number = "2", year = "1993", url = " https://www.aclweb.org/anthology/J93-2004" , pages = "313--330",}

贡献

感谢 @harshalmittal4 添加了该数据集。