Posted in Web “追星”Transformer(七):RoBERTa——“鲁棒版BERT” July 18, 2025 RoBERTa将训练数据“拉满”至161G,同样采用8K的批次规模和100K的步训练步数,测评结果显示,模型效果相较RoBERTa在第一组实验中的表现有进一步提升。 这说明增加训练数据(优化5)就能够有效提升模型性能; 第三组实验 验证“优化6”的有效性。 https://www.zhihu.com/tardis/bd/art/650058654