Posted in Web BERT and RoBERTa 知识点整理有哪些? February 14, 2026 RoBERTa:每次给模型看这句话的时候,才 临时、随机地 选择一些词进行 Mask。 这意味着模型每次看到的同一句话,要填的“空”都可能不一样。 更大规模 更多的训练数据:BERT 使用了大约 16GB 的文本数据,RoBERTa 使用了高达 160GB 的文本数据,是 BERT 的十倍。 https://www.zhihu.com/question/486944460