用RoBERTa模型希望得到中文词向量而非字向量的情况,可以在输入时不切分成字而用分词工具切词输入吗? – 知乎

全词掩码是训练任务,训练时的输入依然是 RoBERTa 的 tokenizer 处理后的字。“重新写下tokenizor函数来按词进行分割” 效果会很差因为其它的参数并没有训练。个人建议如下: 1.在开源的RoBERTa的基础上further pretrain RoBERTa ,输入是分词的token。个人不建议因为会使词表很大,且比较耗资源。 2.可以把词 …

https://www.zhihu.com/question/512409063