Posted in Web 如何理解 BERT 的 NSP 训练目标? – 知乎 August 4, 2025 最近 RoBERTa 又给了 NSP 一锤,说去掉 NSP 更好。他们猜测 BERT 在做 NSP 的隔离实验的时候,可能是只去掉了 NSP loss,但是没改训练数据的生成过程(训练数据中还有两个 segment 不相邻的情况)。 https://www.zhihu.com/question/331076024