重回榜首的BERT改进版开源了,千块V100、160GB纯文本的大模型
神经机器翻译领域之前的工作表明,在学习率适当提高时,以非常大的 mini-batch 进行训练可以同时提升优化速度和终端任务性能。最近的研究表明,BERT 也能适应大批量训练。 ![]() 表 3:在 BOOKCORPUS 和 WIKIPEDIA 上用不同的 batch 大小(bsz)训练的基础模型在留出训练数据(ppl)和开发集上的困惑度。 4. 文本编码 Byte-Pair Encoding(BPE)是字符级和词级别表征的混合,支持处理自然语言语料库中的众多常见词汇。 原版的 BERT 实现使用字符级别的 BPE 词汇,大小为 30K,是在利用启发式分词规则对输入进行预处理之后学得的。Facebook 研究者没有采用这种方式,而是考虑用更大的 byte 级别 BPE 词汇表来训练 BERT,这一词汇表包含 50K 的 subword 单元,且没有对输入作任何额外的预处理或分词。这种做法分别为 BERTBASE 和 BERTLARGE 增加了 15M 和 20M 的额外参数量。 实验结果 Facebook 研究人员综合所有这些改进,并评估了其影响。结合所有改进后的方法叫作 RoBERTa(Robustly optimized BERT approach)。 为了厘清这些改进与其他建模选择之前的重要性区别,研究人员首先基于 BERT LARGE 架构训练 RoBERTa,并做了一系列对照试验以确定效果。 ![]() 表 4:随着训练数据的增大(文本数量从 16GB → 160GB)、训练步长的增加(100K → 300K → 500K 训练步),RoBERTa 在开发集上的结果。在对照试验中,表格中每一行都累积了前几行的改进。 对于 GLUE,研究人员考虑了两种微调设置。在第一种设置中(单任务、开发集),研究人员分别针对每一项 GLUE 任务微调 RoBERTa,仅使用对应任务的训练数据。在第二种设置中(集成,测试集),研究人员通过 GLUE 排行榜对比 RoBERTa 和其他方法。 ![]() 表 5:多个模型在 GLUE 上的结果。所有结果都基于 24 层的模型架构。 【编辑推荐】
点赞 0 (编辑:91站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- windows-7 – 如何在Windows 7中强制更新用户的组成员身份?
- windows-7 – 机器始终响应192.168.1.2 IP地址,该地址未在机
- 如何通过SSH在远程Linux系统上运行命令
- 如何在Windows 10中启用剪贴板历史记录并对其进行自定义
- 电脑装哪个系统好,Windows7还是Windows10?看完这个就明白
- 怎样激活Win10系统?激活Win10多个版本的密钥
- 为什么Windows命令提示符会在执行长批处理文件或程序时按下
- 微软声称Windows 11有很多更进,对开发人员的体验有所改善吗
- Win10如何取消开机密码?Win10关闭开机密码步骤
- 微软Win11将带来CPU和内存优化 运行多个应用节省几秒钟