数据集:
chenghao/scielo_books
子任务:
language-modeling计算机处理:
multilingual大小:
n<1K语言创建人:
found批注创建人:
no-annotation源数据集:
original许可:
该数据集包含了 scielo.org 个开放访问的PDF文档的所有文本。截至2021年12月5日,可用的图书总数为962册。其中一些图书不是原生的PDF格式(例如扫描的图片)。
截至2021年12月5日,其中有902本葡萄牙语图书,55本西班牙语图书和5本英语图书。
提供一个以JSON格式的示例,并对数据集中典型实例进行简要描述。如果有的话,请提供进一步示例的链接。
{
   "sbid":"23pcw",
   "id":"23pcw",
   "shortname":"",
   "title":"Educa\u00e7\u00e3o, sa\u00fade e esporte: novos\tdesafios \u00e0 Educa\u00e7\u00e3o F\u00edsica",
   "eisbn":"9788574554907",
   "isbn":"9788574554273",
   "author":"Farias, Gelcemar Oliveira; Nascimento, Juarez Vieira do",
   "corporate_authors":"",
   "translators":"",
   "coordinators":"",
   "editors":"",
   "others":"",
   "organizers":"",
   "collaborators":"",
   "publisher":"Editus",
   "language":"pt",
   "year": 2016,
   "synopsis":"\"A colet\u00e2nea contempla cap\u00edtulos que discutem a Educa\u00e7\u00e3o F\u00edsica a partir dos pressupostos da Educa\u00e7\u00e3o, da Sa\u00fade e do Esporte, enquanto importante desafio do momento atual e diante dos avan\u00e7os e das mudan\u00e7as que se consolidaram na forma\u00e7\u00e3o inicial em Educa\u00e7\u00e3o F\u00edsica. A obra convida a todos para a realiza\u00e7\u00e3o de futuras investiga\u00e7\u00f5es, no sentido de concentrar esfor\u00e7os para o fortalecimento de n\u00facleos de estudos e a sistematiza\u00e7\u00e3o de linhas de pesquisa.\"",
   "format":"",
   "type":"book",
   "is_public":"true",
   "is_comercial":"false",
   "publication_date":"2018-11-07",
   "_version_":"1718206093473087488",
   "pdf_url":"http://books.scielo.org//id/23pcw/pdf/farias-9788574554907.pdf",
   "pdf_filename":"farias-9788574554907.pdf",
   "metadata_filename":"farias-9788574554907.json",
   "text":"..."
}
 所有字段都是字符串类型,除了年份(year)字段。
所有记录都在默认的训练集中。
这是为创建语言建模数据集的大科学努力的一部分。
所有PDF文档直接从网站下载,使用 pdftotext 库提取文本。
谁是源语言的生产者?无
没有可用的注释。
注释过程无
谁是注释者?无
无
无
无
无
如果有的话,请提供许可证和许可证网页的链接。
无