PinoyExchange(PEx)对话数据集
概述
PEx Conversations是一个由PinoyExchange.com收集的线程数据集(包含Tagalog,英语或Taglish回复)。
该语料库由8个子论坛的共计45K个抓取的线程组成。数据只包括用户消息,即在抓取过程中没有收集任何图像、视频、链接或任何嵌入式html。所有字符已转换为最近的ASCII表示,并修复了Unicode错误。
格式
数据按类别进行分类。列表中的对象由以下组成:
对话内部的线程具有递归结构,包括以下内容:
- 文本-这是响应/回复/提示
- 回复-这是对此提示的回复列表。列表中的回复具有相同文本和回复组件的结构。
子论坛百分比
每个子论坛的数据量如下:
- Small Talk-5K个对话,包含1.16M个话语
- 食物和饮料-8.2K个对话,包含273K个话语
- 健康与保健-6.3K个对话,包含93K个话语
- 身体与健身-3.9K个对话,包含94K个话语
- 家居与园艺-3.6K个对话,包含71K个话语
- 风格与时尚-9.7K个对话,包含197K个话语
- 旅行与休闲-7.3K个对话,包含431K个话语
- 签证与移民-1.1K个对话,包含99K个话语
模型研究
Tagalog DialoGPT