腾讯AI Lab开源了覆盖性广、准确性高的汉语词汇语料库

2018年10月19日由浅浅发表 690262 0

腾讯开源了一个语料库，为超过800万个汉语词汇提供了200维向量表征，即嵌入，这些词汇是在大规模高质量数据上预先训练的。这些向量捕获中文单词和短语的语义含义，可以广泛应用于许多下游中文处理任务（例如，命名实体识别和文本分类）以及进一步的研究中。

数据描述

预训练的嵌入在Tencent_AILab_ChineseEmbedding.txt中。第一行显示嵌入的总数及其尺寸大小，以空格分隔。在下面的每一行中，第一列表示中文单词或短语，后跟一个选项卡及其嵌入。对于每次嵌入，其在不同维度中的值由空格分隔。

强调

与现有的汉语嵌入语料库相比，该语料库的优越性主要在于覆盖率，新鲜度和准确性。

覆盖范围。我们的语料库包含大量特定领域的词汇或词汇俚语，如“喀拉喀什河”，“皇帝菜”，“不念僧面念佛面”，“冰火两重天”，“煮酒论”英雄，大多数现有的嵌入语料库都没有涵盖。

新鲜度。我们的语料库包含最近出现或流行的新词，如“恋与制作人”，“三生三世十里桃花”，“打电话”，“十动然拒”，“因吹斯汀”等。

准确性。我们的嵌入可以更好地反映中文单词或短语的语义，归因于大规模数据和精心设计的训练算法。

训练

为了确保语料库的覆盖范围，新鲜度和准确性，我们从以下几个方面精心设计了数据准备和训练流程：

数据收集。我们的训练数据包含从新闻，网页和小说收集的大型文本。来自不同域的文本数据使得能够覆盖各种类型的单词和短语。此外，最近收集的网页和新闻数据使我们能够学习新词的语义表示。

词汇建设。为了丰富我们的词汇，我们涉及维基百科和百度百科的短语。我们还在基于语料库的语义类挖掘中应用短语发现方法：分布式与基于模式的方法，这增强了新兴短语的覆盖范围。

训练算法。我们的语料库使用Directional Skip-Gram进行训练：明确区分用于单词嵌入的左右上下文，其基于单词共现和单词对的方向，即在上下文窗口中哪个单词在左侧。

简单案例

为了举例说明学习的表示，在下面展示了一些样本单词最相似的单词。这里嵌入之间的余弦距离用于计算两个单词/短语的距离。

腾讯AI Lab开源了覆盖性广、准确性高的汉语词汇语料库

下载：ai.tencent.com/ailab/nlp/embedding.html

标签：

行业腾讯

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌机器学习速成课程新增关于公平性训练模块

下一篇 Drive的自动驾驶汽车服务扩大部署范围，向所有阿灵顿市居民开放

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体

Grok 4.5登场：编码与长程智能体再升级

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

OpenAI首款推理芯片亮相，年底开始部署

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市

OpenAI GPT-Live：实时语音模型再升级