研究内容:一种用于预训练自然语言处理 (NLP) 系统的稳健优化方法,可改进 Google 于 2018 年发布的自监督方法 Transformers 的双向编
研究内容:
一种用于预训练自然语言处理 (NLP) 系统的稳健优化方法,可改进 Google 于 2018 年发布的自监督方法 Transformers 的双向编码器表示 (BERT)。BERT 是一项革命性的技术,它在一系列 NLP 任务中取得了最先进的结果,同时依赖于从网络上提取的未注释文本,而不是专门为特定任务标记的语言语料库。此后,该技术已成为流行的 NLP 研究基线和最终任务架构。BERT 还强调了 AI 研究的协作性质 - 得益于 Google 的公开发布,我们能够对 BERT 进行复制研究,揭示出改进其性能的机会。我们优化的方法 RoBERTa 在广泛使用的 NLP 基准通用语言理解评估 (GLUE) 上产生了最先进的结果。
除了详细介绍这些结果的论文外,我们还发布了用来证明我们方法有效性的模型和代码。
怎么运行的:
RoBERTa 以 BERT 的语言掩蔽策略为基础,该系统学习预测未注释语言示例中故意隐藏的文本部分。RoBERTa 是在 PyTorch 中实现的,它修改了 BERT 中的关键超参数,包括删除 BERT 的下一句预训练目标,并使用更大的小批量和学习率进行训练。与 BERT 相比,这使得 RoBERTa 能够改进掩蔽语言建模目标,并提高下游任务的性能。我们还探索在比 BERT 多一个数量级的数据上对 RoBERTa 进行更长时间的训练。我们使用了现有的未注释 NLP 数据集以及 CC-News(一个从公开新闻文章中提取的新数据集)。
实施这些设计变更后,我们的模型在 MNLI、QNLI、RTE、STS-B 和 RACE 任务上实现了最佳性能,并在 GLUE 基准上实现了显著的性能提升。RoBERTa 以 88.5 分的成绩登上 GLUE 排行榜榜首,与之前的领先者 XLNet-Large 的表现相当。这些结果凸显了 BERT 训练中以前未探索过的设计选择的重要性,并有助于理清数据大小、训练时间和预训练目标的相对贡献。
为什么重要:
我们的结果表明,调整 BERT 训练程序可以显著提高其在各种 NLP 任务上的性能,同时也表明这种整体方法与其他方法相比仍然具有竞争力。更广泛地说,这项研究进一步证明了自监督训练技术有潜力达到或超过更传统的监督方法的性能。RoBERTa 是 Facebook 持续致力于推进自监督系统的最新成果的一部分,该系统可以减少对时间和资源密集型数据标记的依赖。我们期待看到更广泛的社区如何使用 RoBERTa 的模型和代码。