数据集:

shunk031/CAMERA

语言:

ja

计算机处理:

monolingual

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original
英文

CAMERA 数据集卡片 ?

数据集摘要

来自 the official README.md :

CAMERA(CyberAgent多模式广告文本生成评估)是日本的广告文本生成数据集。我们希望我们的数据集能够在实现更先进的广告文本生成模型的研究中发挥作用。

支持的任务和排行榜

[需要更多信息]

支持的任务

[需要更多信息]

排行榜

[需要更多信息]

语言

CAMERA 中的语言数据为日文 ( BCP-47 ja-JP )。

数据集结构

数据实例

在加载特定配置时,用户必须添加一个版本相关的后缀:

without-lp-images
from datasets import load_dataset

dataset = load_dataset("shunk031/CAMERA", name="without-lp-images")

print(dataset)
# DatasetDict({
#     train: Dataset({
#         features: ['asset_id', 'kw', 'lp_meta_description', 'title_org', 'title_ne1', 'title_ne2', 'title_ne3', 'domain', 'parsed_full_text_annotation'],
#         num_rows: 12395
#     })
#     validation: Dataset({
#         features: ['asset_id', 'kw', 'lp_meta_description', 'title_org', 'title_ne1', 'title_ne2', 'title_ne3', 'domain', 'parsed_full_text_annotation'],
#         num_rows: 3098
#     })
#     test: Dataset({
#         features: ['asset_id', 'kw', 'lp_meta_description', 'title_org', 'title_ne1', 'title_ne2', 'title_ne3', 'domain', 'parsed_full_text_annotation'],
#         num_rows: 872
#     })
# })

CAMERA (无 LP 图像) 数据集的示例如下:

{
    "asset_id": 13861, 
    "kw": "仙台 ホテル", 
    "lp_meta_description": "仙台のホテルや旅館をお探しなら楽天トラベルへ!楽天ポイントが使えて、貯まって、とってもお得な宿泊予約サイトです。さらに割引クーポンも使える!国内ツアー・航空券・レンタカー・バス予約も!", 
    "title_org": "仙台市のホテル", 
    "title_ne1": "", 
    "title_ne2": "", 
    "title_ne3": "", 
    "domain": "", 
    "parsed_full_text_annotation": {
        "text": [
            "trivago", 
            "Oops...AccessDenied 可", 
            "Youarenotallowedtoviewthispage!Ifyouthinkthisisanerror,pleasecontacttrivago.", 
            "Errorcode:0.3c99e86e.1672026945.25ba640YourIP:240d:1a:4d8:2800:b9b0:ea86:2087:d141AffectedURL:https://www.trivago.jp/ja/odr/%E8%BB%92", "%E4%BB%99%E5%8F%B0-%E5%9B%BD%E5%86%85?search=20072325", 
            "Backtotrivago"
        ], 
        "xmax": [
            653, 
            838, 
            765, 
            773, 
            815, 
            649
        ], 
        "xmin": [
            547, 
            357, 
            433, 
            420, 
            378, 
            550
        ], 
        "ymax": [
            47, 
            390, 
            475, 
            558, 
            598, 
            663
        ], 
        "ymin": [
            18, 
            198, 
            439, 
            504, 
            566, 
            651
        ]
    }
}
with-lp-images
from datasets import load_dataset

dataset = load_dataset("shunk031/CAMERA", name="with-lp-images")

print(dataset)
# DatasetDict({
#     train: Dataset({
#         features: ['asset_id', 'kw', 'lp_meta_description', 'title_org', 'title_ne1', 'title_ne2', 'title_ne3', 'domain', 'parsed_full_text_annotation', 'lp_image'],
#         num_rows: 12395
#     })
#     validation: Dataset({
#         features: ['asset_id', 'kw', 'lp_meta_description', 'title_org', 'title_ne1', 'title_ne2', 'title_ne3', 'domain', 'parsed_full_text_annotation', 'lp_image'],
#         num_rows: 3098
#     })
#     test: Dataset({
#         features: ['asset_id', 'kw', 'lp_meta_description', 'title_org', 'title_ne1', 'title_ne2', 'title_ne3', 'domain', 'parsed_full_text_annotation', 'lp_image'],
#         num_rows: 872
#     })
# })

CAMERA (有 LP 图像) 数据集的示例如下:

{
    "asset_id": 13861, 
    "kw": "仙台 ホテル", 
    "lp_meta_description": "仙台のホテルや旅館をお探しなら楽天トラベルへ!楽天ポイントが使えて、貯まって、とってもお得な宿泊予約サイトです。さらに割引クーポンも使える!国内ツアー・航空券・レンタカー・バス予約も!", 
    "title_org": "仙台市のホテル", 
    "title_ne1": "", 
    "title_ne2": "", 
    "title_ne3": "", 
    "domain": "", 
    "parsed_full_text_annotation": {
        "text": [
            "trivago", 
            "Oops...AccessDenied 可", 
            "Youarenotallowedtoviewthispage!Ifyouthinkthisisanerror,pleasecontacttrivago.", 
            "Errorcode:0.3c99e86e.1672026945.25ba640YourIP:240d:1a:4d8:2800:b9b0:ea86:2087:d141AffectedURL:https://www.trivago.jp/ja/odr/%E8%BB%92", "%E4%BB%99%E5%8F%B0-%E5%9B%BD%E5%86%85?search=20072325", 
            "Backtotrivago"
        ], 
        "xmax": [
            653, 
            838, 
            765, 
            773, 
            815, 
            649
        ], 
        "xmin": [
            547, 
            357, 
            433, 
            420, 
            378, 
            550
        ], 
        "ymax": [
            47, 
            390, 
            475, 
            558, 
            598, 
            663
        ], 
        "ymin": [
            18, 
            198, 
            439, 
            504, 
            566, 
            651
        ]
    },
    "lp_image": <PIL.PngImagePlugin.PngImageFile image mode=RGBA size=1200x680 at 0x7F8513446B20>
}

数据字段

without-lp-images
  • asset_id : IDs(与 LP 图像相关)
  • kw : 搜索关键词
  • lp_meta_description : 从 LP 提取的元描述(即 LP 文本)
  • title_org : 广告文本(原始金标准)
  • title_ne{1-3} : 广告文本(用于多参考评估的额外金标准)
  • domain : 行业领域(HR、EC、Fin、Edu),用于行业级评估
  • parsed_full_text_annotation : LP 图像的 OCR 结果
with-lp-images
  • asset_id : IDs(与 LP 图像相关)
  • kw : 搜索关键词
  • lp_meta_description : 从 LP 提取的元描述(即 LP 文本)
  • title_org : 广告文本(原始金标准)
  • title_ne{1-3} : 广告文本(用于多参考评估的额外金标准)
  • domain : 行业领域(HR、EC、Fin、Edu),用于行业级评估
  • parsed_full_text_annotation : LP 图像的 OCR 结果
  • lp_image : 落地页(LP)图像

数据拆分

the official paper :

Split # of data # of reference ad text industry domain label
Train 12,395 1 -
Valid 3,098 1 -
Test 869 4

数据集创建

确定策略

[需要更多信息]

数据源

初始数据收集和归一化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

[需要更多信息]

数据集维护者

[需要更多信息]

授权信息

本作品采用知识共享署名-非商业性使用-相同方式共享4.0协议进行许可。

引用信息

@inproceedings{mita-et-al:nlp2023,
    author =    "三田 雅人 and 村上 聡一朗 and 張 培楠",
    title =	    "広告文生成タスクの規定とベンチマーク構築",
    booktitle = "言語処理学会 第 29 回年次大会",
    year =      2023,
}

贡献者

感谢 Masato Mita Soichiro Murakami Peinan Zhang 创建了此数据集。