英文

dpr-question_encoder-multiset-base

目录

  • 模型详情
  • 如何开始使用模型
  • 用途
  • 风险、限制和偏见
  • 训练
  • 评估
  • 环境影响
  • 技术规格
  • 引用信息
  • 模型卡片作者

模型详情

模型描述: Dense Passage Retrieval (DPR) 是一组用于最先进的开放领域问答研究的工具和模型。dpr-question_encoder-multiset-base是使用 Natural Questions (NQ) dataset TriviaQA WebQuestions (WQ) CuratedTREC (TREC) 进行训练的问题编码器。

如何开始使用模型

使用下面的代码来开始使用模型。

from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer

tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output

用途

直接使用

可以使用dpr-question_encoder-multiset-base、 dpr-ctx_encoder-multiset-base dpr-reader-multiset-base 进行开放领域问答任务。

滥用和超出范围的使用

不应该使用该模型有意创建对人类具有敌意或疏远的环境。此外,DPR模型集不是经过训练成为有关人物或事件的事实或真实再现,因此使用模型生成此类内容超出了该模型的能力范围。

风险、限制和偏见

内容警告:读者应该意识到本节可能含有令人不安、冒犯和宣扬历史上和现实中的刻板印象的内容。

重要研究已经探讨了语言模型的偏见和公平性问题(参见例如 Sheng et al., 2021 Bender et al., 2021 )。该模型生成的预测可能包含对受保护群体(包括但不限于种族、性别、性取向等)、身份特征以及敏感的社会和职业群体的令人不安和有害刻板印象。

训练

训练数据

该模型是使用以下数据集进行训练的:

训练过程

训练过程的描述见 associated paper

给定一组M个文本段落,我们密集的段落检索器(DPR)的目标是将所有段落在低维连续空间中索引,以便在运行时有效地检索与输入问题相关的前k个段落给阅读器。

我们的密集段落检索器(DPR)使用一个密集编码器EP(·),它将任何文本段落映射到一个d-维实值向量,并为所有M个段落建立索引,我们将在检索中使用。运行时,DPR应用一个不同的编码器EQ(·),将输入的问题映射到一个d维向量,并检索其中与问题向量最接近的k个段落向量。

作者报告称,对于编码器,他们使用了两个独立的BERT( Devlin et al., 2019 )网络(基本、非大小写),并在推理时使用FAISS( Johnson et al., 2017 )进行编码和段落索引。有关培训的更多细节,请参阅论文,包括编码器、推理、正面段落和负面段落以及批次中的负面案例。

评估

下面的评估信息摘自 associated paper

测试数据、因素和指标

模型开发者报告了模型在五个QA数据集上的性能,使用了top-k准确率(k ∈ {20, 100})。数据集包括 NQ TriviaQA WebQuestions (WQ) CuratedTREC (TREC) SQuAD v1.1

结果
Top 20 Top 100
NQ TriviaQA WQ TREC SQuAD NQ TriviaQA WQ TREC SQuAD
79.4 78.8 75.0 89.1 51.6 86.0 84.7 82.9 93.9 67.6

环境影响

可以使用 Machine Learning Impact calculator Lacoste et al. (2019) 中提供的方法来估算碳排放量。我们提供硬件类型并基于 associated paper 来进行评估。

  • 硬件类型:8个32GB的GPU
  • 使用小时数:未知
  • 云服务提供商:未知
  • 计算区域:未知
  • 排放的碳量:未知

技术规格

有关建模架构、目标、计算基础设施和培训细节的详细信息,请参阅 associated paper

引用信息

  @inproceedings{karpukhin-etal-2020-dense,
    title = "Dense Passage Retrieval for Open-Domain Question Answering",
    author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
    doi = "10.18653/v1/2020.emnlp-main.550",
    pages = "6769--6781",
}

模型卡片作者

本模型卡片是由Hugging Face团队撰写的。