模型:

facebook/dpr-question_encoder-multiset-base

任务:

特征提取

类库:

PyTorch TensorFlow Transformers

数据集:

nq_open trivia_qa web_questions trec 3Atrec 3Aweb_questions 3Atrivia_qa 3Anq_open

语言:

其他:

dpr

预印本库:

arxiv:2004.04906 arxiv:1702.08734 arxiv:1910.09700

许可:

cc-by-nc-4.0

模型介绍文件清单

英文

dpr-question_encoder-multiset-base

模型详情

模型描述： Dense Passage Retrieval (DPR) 是一组用于最先进的开放领域问答研究的工具和模型。dpr-question_encoder-multiset-base是使用 Natural Questions (NQ) dataset 、 TriviaQA 、 WebQuestions (WQ) 和 CuratedTREC (TREC) 进行训练的问题编码器。

开发者：请参阅 GitHub repo 以获取模型开发者信息
模型类型：基于BERT的编码器
语言： CC-BY-NC-4.0 ，请参阅 Code of Conduct
许可证：英文
相关模型：
获取更多信息的资源：

如何开始使用模型

使用下面的代码来开始使用模型。

from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer

tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output

用途

直接使用

可以使用dpr-question_encoder-multiset-base、 dpr-ctx_encoder-multiset-base 和 dpr-reader-multiset-base 进行开放领域问答任务。

滥用和超出范围的使用

不应该使用该模型有意创建对人类具有敌意或疏远的环境。此外，DPR模型集不是经过训练成为有关人物或事件的事实或真实再现，因此使用模型生成此类内容超出了该模型的能力范围。

风险、限制和偏见

内容警告：读者应该意识到本节可能含有令人不安、冒犯和宣扬历史上和现实中的刻板印象的内容。

重要研究已经探讨了语言模型的偏见和公平性问题（参见例如 Sheng et al., 2021 和 Bender et al., 2021 ）。该模型生成的预测可能包含对受保护群体（包括但不限于种族、性别、性取向等）、身份特征以及敏感的社会和职业群体的令人不安和有害刻板印象。

训练

训练数据

该模型是使用以下数据集进行训练的：

Natural Questions (NQ) dataset （ Lee et al., 2019 ； Kwiatkowski et al., 2019 ）
TriviaQA （ Joshi et al., 2017 ）
WebQuestions (WQ) （ Berant et al., 2013 ）
CuratedTREC (TREC) （ Baudiš & Šedivý, 2015 ）

训练过程

训练过程的描述见 associated paper ：

给定一组M个文本段落，我们密集的段落检索器（DPR）的目标是将所有段落在低维连续空间中索引，以便在运行时有效地检索与输入问题相关的前k个段落给阅读器。

我们的密集段落检索器（DPR）使用一个密集编码器EP(·)，它将任何文本段落映射到一个d-维实值向量，并为所有M个段落建立索引，我们将在检索中使用。运行时，DPR应用一个不同的编码器EQ(·)，将输入的问题映射到一个d维向量，并检索其中与问题向量最接近的k个段落向量。

作者报告称，对于编码器，他们使用了两个独立的BERT（ Devlin et al., 2019 ）网络（基本、非大小写），并在推理时使用FAISS（ Johnson et al., 2017 ）进行编码和段落索引。有关培训的更多细节，请参阅论文，包括编码器、推理、正面段落和负面段落以及批次中的负面案例。

评估

下面的评估信息摘自 associated paper 。

测试数据、因素和指标

模型开发者报告了模型在五个QA数据集上的性能，使用了top-k准确率（k ∈ {20, 100}）。数据集包括 NQ 、 TriviaQA 、 WebQuestions (WQ) 、 CuratedTREC (TREC) 和 SQuAD v1.1 。

结果

Top 20	Top 100
NQ	TriviaQA	WQ	TREC	SQuAD	NQ	TriviaQA	WQ	TREC	SQuAD
79.4	78.8	75.0	89.1	51.6	86.0	84.7	82.9	93.9	67.6

环境影响

可以使用 Machine Learning Impact calculator 在 Lacoste et al. (2019) 中提供的方法来估算碳排放量。我们提供硬件类型并基于 associated paper 来进行评估。

硬件类型：8个32GB的GPU
使用小时数：未知
云服务提供商：未知
计算区域：未知
排放的碳量：未知

技术规格

有关建模架构、目标、计算基础设施和培训细节的详细信息，请参阅 associated paper 。

引用信息

  @inproceedings{karpukhin-etal-2020-dense,
    title = "Dense Passage Retrieval for Open-Domain Question Answering",
    author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
    doi = "10.18653/v1/2020.emnlp-main.550",
    pages = "6769--6781",
}

模型卡片作者

本模型卡片是由Hugging Face团队撰写的。

作者:

Meta AI

数据集大小:

836.3 MB