模型:

facebook/dpr-ctx_encoder-multiset-base

英文

dpr-ctx_encoder-multiset-base

目录

  • 模型详情
  • 如何开始使用该模型
  • 用途
  • 风险、限制和偏见
  • 训练
  • 评估
  • 环境影响
  • 技术规格
  • 引用信息
  • 模型卡作者

模型详情

模型描述: Dense Passage Retrieval (DPR) 是用于最先进的开放领域问答研究的工具和模型。dpr-ctx_encoder-multiset-base 是使用 Natural Questions (NQ) dataset TriviaQA WebQuestions (WQ) CuratedTREC (TREC) 进行训练的上下文编码器。

如何开始使用该模型

使用以下代码开始使用该模型。

from transformers import DPRContextEncoder, DPRContextEncoderTokenizer

tokenizer = DPRContextEncoderTokenizer.from_pretrained("facebook/dpr-ctx_encoder-multiset-base")
model = DPRContextEncoder.from_pretrained("facebook/dpr-ctx_encoder-multiset-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output

用途

直接使用

dpr-ctx_encoder-multiset-base 、 dpr-question_encoder-multiset-base dpr-reader-multiset-base 可用于开放领域问答任务。

误用和超出范围的使用

该模型不应被用于故意创建对人们具有敌意或使人疏远的环境。此外,DPR模型的集合未经过训练,不能作为人或事件的确切代表,因此使用模型生成此类内容不在该模型的能力范围内。

风险、限制和偏见

内容警告:读者应注意本部分可能包含令人不安、冒犯性并且可能传递历史和当前的刻板印象的内容。

大量的研究已经探讨了语言模型的偏见和公平性问题(参见,例如 Sheng et al. (2021) Bender et al. (2021) )。该模型生成的预测可能包含跨受保护类别、身份特征和敏感社会和职业群体的令人不安和有害的刻板印象。

训练

训练数据

该模型使用以下数据集进行训练:

训练过程

训练过程在 associated paper 中描述:

给定一组 M 个文本段落,我们密集的段落检索器(DPR)的目标是将所有段落映射到低维连续空间中,以便在运行时为阅读器高效地检索与输入问题相关的前 k 个段落。

我们的密集段落检索器(DPR)使用一个密集编码器 EP(·),它将任何文本段落映射到 d 维实值向量,并为我们将用于检索的所有 M 个段落构建一个索引。在运行时,DPR应用一个不同的编码器 EQ(·),它将输入问题映射到一个 d 维向量,并检索与问题向量最接近的 k 个段落向量。

作者报告称,对于编码器,他们使用了两个独立的BERT( Devlin et al., 2019 )网络(基本、不区分大小写),并在推理时使用FAISS( Johnson et al., 2017 )对段落进行编码和索引。有关训练的详细信息,包括编码器、推理、正向段和负向段以及批内负例,请参阅论文。

评估

以下评估信息摘自 associated paper

测试数据、因素和指标

模型开发者报告了该模型在五个问答数据集上的性能,使用 top-k 准确率(k ∈ {20, 100})。数据集包括 NQ TriviaQA WebQuestions (WQ) CuratedTREC (TREC) SQuAD v1.1

结果
Top 20 Top 100
NQ TriviaQA WQ TREC SQuAD NQ TriviaQA WQ TREC SQuAD
79.4 78.8 75.0 89.1 51.6 86.0 84.7 82.9 93.9 67.6

环境影响

可以使用 Machine Learning Impact calculator Lacoste et al. (2019) 中提供的方法估算碳排放量。我们提供硬件类型,并根据 associated paper 进行估算。

  • 硬件类型:8个32GB的GPU
  • 使用小时数:未知
  • 云提供商:未知
  • 计算区域:未知
  • 排放的碳量:未知

技术规格

有关建模架构、目标、计算基础设施和训练细节,请参阅 associated paper

引用信息

  @inproceedings{karpukhin-etal-2020-dense,
    title = "Dense Passage Retrieval for Open-Domain Question Answering",
    author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
    doi = "10.18653/v1/2020.emnlp-main.550",
    pages = "6769--6781",
}

模型卡作者

该模型卡是由Hugging Face团队撰写的。