现在的BERT等语言模型，最快训练要多久？ – 知乎

August 11, 2025

大概就是说你要达到RoBERTa base的效果，那么就必须付出大致相当于训练RoBERTa base的算力，就算你把Self Attention换成CNN、RNN、MLP都是这样，因为Transformer之所以慢，是因为它大，而不是因为它有Self Attention（参考《线性Transformer应该不是你要等的那个模型》）；而预 …

https://www.zhihu.com/question/505630287

现在的BERT等语言模型，最快训练要多久？ – 知乎 <body> <h1> Array ( [0] => 现在的vert等语言模型，最快训练要多久？ – 知乎 [1] => 现在的nert等语言模型，最快训练要多久？ – 知乎 [2] => 现在的hert等语言模型，最快训练要多久？ – 知乎 [3] => 现在的gert等语言模型，最快训练要多久？ – 知乎 [4] => 现在的bwrt等语言模型，最快训练要多久？ – 知乎 [5] => 现在的bsrt等语言模型，最快训练要多久？ – 知乎 [6] => 现在的bdrt等语言模型，最快训练要多久？ – 知乎 [7] => 现在的brrt等语言模型，最快训练要多久？ – 知乎 [8] => 现在的b4rt等语言模型，最快训练要多久？ – 知乎 [9] => 现在的b3rt等语言模型，最快训练要多久？ – 知乎 [10] => 现在的beet等语言模型，最快训练要多久？ – 知乎 [11] => 现在的bedt等语言模型，最快训练要多久？ – 知乎 [12] => 现在的beft等语言模型，最快训练要多久？ – 知乎 [13] => 现在的bett等语言模型，最快训练要多久？ – 知乎 [14] => 现在的be5t等语言模型，最快训练要多久？ – 知乎 [15] => 现在的be4t等语言模型，最快训练要多久？ – 知乎 [16] => 现在的berr等语言模型，最快训练要多久？ – 知乎 [17] => 现在的berf等语言模型，最快训练要多久？ – 知乎 [18] => 现在的berg等语言模型，最快训练要多久？ – 知乎 [19] => 现在的bery等语言模型，最快训练要多久？ – 知乎 [20] => 现在的ber6等语言模型，最快训练要多久？ – 知乎 [21] => 现在的ber5等语言模型，最快训练要多久？ – 知乎 [22] => 现在的bert等语言模型，最快训练要多久？ ᰫ 知乎 [23] => 现在的bert等语言模型，最快训练要多久？ &#u211; 知乎 [24] => 现在的bert等语言模型，最快训练要多久？ &#i211; 知乎 [25] => 现在的bert等语言模型，最快训练要多久？ ⏻ 知乎 [26] => 现在的bert等语言模型，最快训练要多久？ ᾯ 知乎 [27] => 现在的bert等语言模型，最快训练要多久？ &#8q11; 知乎 [28] => 现在的bert等语言模型，最快训练要多久？ &#8w11; 知乎 [29] => 现在的bert等语言模型，最快训练要多久？ ⁷ 知乎 [30] => 现在的bert等语言模型，最快训练要多久？ ” 知乎 [31] => 现在的bert等语言模型，最快训练要多久？ &#82q1; 知乎 [32] => 现在的bert等语言模型，最快训练要多久？ — 知乎 [33] => 现在的bert等语言模型，最快训练要多久？ &#821q; 知乎 ) </h1> </body>