基于 Transformer 的命名实体识别
数据介绍根据train_TAG.txt统计得到的标签集如下:标签集大小为9。 模型框架模型结构模型使用hugging face的bert-base-chinese作为预训练模型。模型接受预处理后的字符序列作为输入,输出字符对应的标签。 模型参数BERT模型包含12层Transformer encoder,每层Transformer encoder包含的多头自注意头数为12,隐藏层大小为768。在构
构建汉语词向量
代码逻辑首先对训练数据和测试数据进行处理,按词进行分割然后储存起来,然后通过SVG和SGNS方法计算出训练数据的词向量,再在测试数据上进行测试。为此,在代码中定义了load_data(), caculate_sim(), svd_embedding()和sgns_embedding()四个方法,分别进行数据处理、计算测试集上向量相关性、通过svd和sgns得到训练集上向量的操作。最后将输出结果按要
实验 用numpy搭建全连接神经网络用于手写数字识别
【代码+原理讲解】使用Numpy实现一个简单的四层全连接神经网络(手写数字识别,mnist数据集,正确率98.58%) - 知乎入门讲解:使用numpy实现简单的神经网络(BP算法)-CSDN博客结合代码和公式对全连接神经网络的实现进行分析 数据处理1234567891011121314151617181920# 标准化处理 if normalize: for _ in ('
强化学习
强化学习一种试错型学习范式随即环境,智能体的动作引起环境的变化评价:包含噪声的延迟奖励目标:最大化长期累计回报 状态状态是用于决定下一步发生什么的信息形式上,状态是一个关于历史信息的表示历史是一个状态、动作和奖励组成的序列 环境状态 完全可观测性:智能体能够直接观测到环境状态$O_t = s_t$部分可观测性:智能体间接观察环境$O_t != s_t$ 目标智能体的目标:最大化
循环神经网络
概述 特点:不同于在样本上做多个独立预测,而是假设样本之间存在关联,进而在样本序列上做预测 采用链式法则表示一个观测序列的联合概率:考虑一个观测和所有历史观测之间的依赖关系复杂度随着观测个数指数级增长 马尔可夫模型:马尔可夫模型假设当前观察只和较近的观测有关 考虑两个不同的序列(如输入和输出序列),可以使用隐马尔可夫模型: 联合分布为: 最可能的隐状态为: 循环神经网络(Recurrent neu