数据集:

ted_talks_iwslt

任务:

翻译

计算机处理:

translation

批注创建人:

expert-generated

源数据集:

original
英文

数据集卡片:网站录制和翻译(Web Inventory of Transcribed & Translated, WIT) Ted Talks

数据集摘要

Web Inventory Talk 是原始 TED 演讲及其翻译版本的集合。虽然翻译版本可用于109种以上的语言,但分布并不均匀。

要加载不在配置中的语言对,您只需指定语言代码为 pairs。例如:

dataset = load_dataset("ted_talks_iwslt", language_pair=("it", "pl"), year="2014")

完整的语言列表包括:'af'、'am'、'ar'、'arq'、'art-x-bork'、'as'、'ast'、'az'、'be'、'bg'、'bi'、'bn'、'bo'、'bs'、'ca'、'ceb'、'cnh'、'cs'、'da'、'de'、'el'、'en'、'eo'、'es'、'et'、'eu'、'fa'、'fi'、'fil'、'fr'、'fr-ca'、'ga'、'gl'、'gu'、'ha'、'he'、'hi'、'hr'、'ht'、'hu'、'hup'、'hy'、'id'、'ig'、'inh'、'is'、'it'、'ja'、'ka'、'kk'、'km'、'kn'、'ko'、'ku'、'ky'、'la'、'lb'、'lo'、'lt'、'ltg'、'lv'、'mg'、'mk'、'ml'、'mn'、'mr'、'ms'、'mt'、'my'、'nb'、'ne'、'nl'、'nn'、'oc'、'pa'、'pl'、'ps'、'pt'、'pt-br'、'ro'、'ru'、'rup'、'sh'、'si'、'sk'、'sl'、'so'、'sq'、'sr'、'srp'、'sv'、'sw'、'szl'、'ta'、'te'、'tg'、'th'、'tl'、'tlh'、'tr'、'tt'、'ug'、'uk'、'ur'、'uz'、'vi'、'zh'、'zh-cn'、'zh-tw'。

完整的年份列表为:'2014'、'2015'、'2016'。

支持的任务和排行榜

机器学习任务,语言建模和生成

语言

TED 演讲大多以英语(en)为主。几乎所有的演讲已经由志愿者翻译成阿拉伯语、保加利亚语、简体中文、法语、意大利语、韩语、葡萄牙语(巴西)和西班牙语。对于其他约70种语言,翻译演讲的数量范围从几百个(如荷兰语、德语、希伯来语、罗马尼亚语)到一个(如豪萨语、胡帕语、比斯拉马语、印古什语、马耳他语)。

数据集中的语言有:

  • af
  • am
  • ar
  • arq
  • art
  • as
  • ast
  • az
  • be
  • bg
  • bi
  • bn
  • bo
  • bs
  • ca
  • ceb
  • cnh
  • cs
  • da
  • de
  • el
  • en
  • eo
  • es
  • et
  • eu
  • fa
  • fi
  • fil
  • fr
  • ga
  • gl
  • gu
  • ha
  • he
  • hi
  • hr
  • ht
  • hu
  • hup
  • hy
  • id
  • ig
  • inh
  • is
  • it
  • ja
  • ka
  • kk
  • km
  • kn
  • ko
  • ku
  • ky
  • la
  • lb
  • lo
  • lt
  • ltg
  • lv
  • mg
  • mk
  • ml
  • mn
  • mr
  • ms
  • mt
  • my
  • nb
  • ne
  • nl
  • nn
  • oc
  • pa
  • pl
  • ps
  • pt
  • ro
  • ru
  • rup
  • sh
  • si
  • sk
  • sl
  • so
  • sq
  • sr
  • srp:塞尔维亚语(sr)
  • sv
  • sw
  • szl
  • ta
  • te
  • tg
  • th
  • tl
  • tlh
  • tr
  • tt
  • ug
  • uk
  • ur
  • uz
  • vi
  • zh

数据集结构

数据实例

数据集中的一个示例是:

{'translation': {'hi': 'जब मार्च २०१४ में इबोला का प्रकोप छाया, पर्डिस सबेटी और उनकी टीम को वाइरस के जीनोम का अनुक्रमण करना था, सीखना था कि यह कैसे परवतिर्त होते हैं और फैलते हैं। सबेटी ने तुरंत ही अपने अनुसंधान को वेब में जारी किया, ताकि दुनिया भर के वाइरस ट्रैकर्स और वैज्ञानिक इस तत्काल लड़ाई में शामिल हो सकें। इस बातचीत में, वह दिखाती हैं कि सबका सहयोग ही कुंजी है वाइरस को रोकने के लिए--और लड़ने के लिए आगे आने वाले हमलों से। सबेटी ने कहा,"हमने खुले तौर पर काम किया, साझा किया और साथ काम किया"। "हमे दुनिया को एक वाइरस के विनाश से नहीं, पर अरबों दिलों और दिमागों की एकता से परिभाषित करना है"।',
  'nl': 'Toen Ebola in maart 2014 uitbrak, zijn Pardis Sabeti en haar team aan het werk gegaan om het genoom in kaart te brengen. Zo ontdekten ze hoe het virus zich verspreidde en muteerde. Sabeti zette direct haar onderzoek op het internet, zodat wereldwijd virus-jagers en wetenschappers mee konden werken aan de strijd. In deze talk laat ze zien hoe die openheid geholpen heeft bij het stoppen van het virus en hoe het kan helpen bij de strijd tegen het volgende virus. "We moesten transparant werken, delen en samenwerken". Sabeti zegt:"Laat de wereld niet ten onder gaan aan een virus, maar verlicht worden door miljoenen harten en geesten die samenwerken."'}}

原始 XML 文件的格式如下示例:

<file id="1">
  <head>
    <url>http://www.ted.com/talks/ryan_holladay_to_hear_this_music_you_have_to_be_there_literally.html</url>
    <pagesize>66634</pagesize>
    <dtime>Sun Jan 12 15:17:32 CET 2014</dtime>
    <content-type>text/html; charset=utf-8</content-type>
    <encoding>utf-8</encoding>
    <videourl>http://download.ted.com/talks/RyanHolladay_2013S.mp4</videourl>
    <videopath>talks/RyanHolladay_2013S.mp4</videopath>
    <transcription>
      <seekvideo id="2939">(Music)</seekvideo>
      <seekvideo id="7555">For any of you who have visited or lived in New York City,</seekvideo>
      <seekvideo id="11221">these shots might start to look familiar.</seekvideo>
      <seekvideo id="16116">This is Central Park,</seekvideo>
      .
      .
      .
      <seekvideo id="361992">for people to interact with</seekvideo>
      <seekvideo id="363709">and experience music.</seekvideo>
      <seekvideo id="365451">Thank you.</seekvideo>
      <seekvideo id="367495">(Applause)</seekvideo>
    </transcription>
    <talkid>1903</talkid>
    <title>Ryan Holladay: To hear this music you have to be there. Literally</title>
    <description>The music industry ......segments of sounds that only play when a listener is physically nearby. (Filmed at TED@BCG.)</description>
    <keywords>entertainment,music,technology</keywords>
    <image>http://images.ted.com/images/ted/d98c17773da6f84e9f915895c270c7ffd2de3778_389x292.jpg</image>
    <date>2014/01/12</date>
    <wordnum>885</wordnum>
    <charnum>5051</charnum>
  </head>
  <content>(Music) For any of you who have visited or lived in New York City, these shots might start to look familiar. This is Central Park, ............new ways for people to interact with and experience music. Thank you. (Applause)</content>
</file>

数据字段

数据集的字段包括:

  • translation:
    • : 文本( )
    • L : 翻译后的文本( )

关于原始数据文件的信息:

对于每种语言,生成一个包含所有用该语言字幕配音的 XML 文件。每个演讲都被封装在 和 标签之间,其中包括(其他标签):

Tags Description
<url> the address of the original HTML document of the talk
<speaker> the name of the talk speaker
<talkid> the numeric talk identifier
<transcript> talk subtitles split in captions
<date> the issue date of the talk
<content> talk subtitles

数据拆分

该论文没有提供特定的训练-测试-开发拆分。但是数据可以按照可用的年份(2014、2015、2016)进行拆分。

数据集创建

策划原理

总部位于加利福尼亚州的 TED 会议发布了所有视频录像及其80多种语言的字幕翻译。除了具有文化和社会意义外,这些内容还以Creative Commons BYNC-ND许可证发布,对于机器翻译研究社区来说,这也是一个珍贵的语言资源,因为它的规模,主题的多样性以及涵盖的语言。

来源数据

初始数据收集和归一化

这些演讲是从 Ted Conference website

谁是源语言的制作者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

翻译是由志愿者贡献的

个人和敏感信息

数据集中没有提供个人和敏感信息。所有的演讲都是公开可用的

使用数据时的注意事项

数据集的社会影响

在统计机器翻译中,通常需要大量与目标领域相关的平行数据来正确训练翻译和重新排序模型。该数据集拥有900多个 TED 演讲(截至2011年)和90多种语言的翻译,为机器翻译研究社区提供了有用的资源。

同时,这也便于轻松访问广阔的人类知识宝库。

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

最初的数据集由以下人员策划:Mauro Cettolo、Roldano Cattoni

作者:Christian Girardi

关于 HuggingFace 数据集实现的问题,请联系:Aakash Gupta

许可信息

cc-by-nc-nd-4.0

引用信息

@inproceedings{cettolo-etal-2012-wit3,
    title = "{WIT}3: Web Inventory of Transcribed and Translated Talks",
    author = "Cettolo, Mauro  and
      Girardi, Christian  and
      Federico, Marcello",
    booktitle = "Proceedings of the 16th Annual conference of the European Association for Machine Translation",
    month = may # " 28{--}30",
    year = "2012",
    address = "Trento, Italy",
    publisher = "European Association for Machine Translation",
    url = "https://www.aclweb.org/anthology/2012.eamt-1.60",
    pages = "261--268",
}

贡献

感谢 @skyprince999 添加了这个数据集。