基于 Transformer 架构,在海量文本数据上进行预训练的深度学习模型。