Posted in Web 现在的BERT等语言模型,最快训练要多久? – 知乎 August 11, 2025 大概就是说你要达到RoBERTa base的效果,那么就必须付出大致相当于训练RoBERTa base的算力,就算你把Self Attention换成CNN、RNN、MLP都是这样,因为Transformer之所以慢,是因为它大,而不是因为它有Self Attention(参考 《线性Transformer应该不是你要等的那个模型》);而预 … https://www.zhihu.com/question/505630287