基于 Transformer 的命名实体识别
数据介绍根据train_TAG.txt统计得到的标签集如下:标签集大小为9。 模型框架模型结构模型使用hugging face的bert-base-chinese作为预训练模型。模型接受预处理后的字符序列作为输入,输出字符对应的标签。 模型参数BERT模型包含12层Transformer encoder,每层Transformer encoder包含的多头自注意头数为12,隐藏层大小为768。在构
构建汉语词向量
代码逻辑首先对训练数据和测试数据进行处理,按词进行分割然后储存起来,然后通过SVG和SGNS方法计算出训练数据的词向量,再在测试数据上进行测试。为此,在代码中定义了load_data(), caculate_sim(), svd_embedding()和sgns_embedding()四个方法,分别进行数据处理、计算测试集上向量相关性、通过svd和sgns得到训练集上向量的操作。最后将输出结果按要