WordPiece 算法
WordPiece 也是一种子词构建算法,我们在中文语料中使用的 BertTokenizer 就是使用这种分词算法,从这一点来看,WordPiece 算法要比 BPE 算法更加适合中文语料的分词场景。 ``` class BertTokenizer(PreTrainedTokenizer): Construct a BERT tokenizer. Based on W...
WordPiece 也是一种子词构建算法,我们在中文语料中使用的 BertTokenizer 就是使用这种分词算法,从这一点来看,WordPiece 算法要比 BPE 算法更加适合中文语料的分词场景。 ``` class BertTokenizer(PreTrainedTokenizer): Construct a BERT tokenizer. Based on W...