Hexo

课程介绍

Notes > 课程 > 脑与认知科学基础

基于 Transformer 的命名实体识别

数据介绍根据train_TAG.txt统计得到的标签集如下：标签集大小为9。模型框架模型结构模型使用hugging face的bert-base-chinese作为预训练模型。模型接受预处理后的字符序列作为输入，输出字符对应的标签。模型参数BERT模型包含12层Transformer encoder，每层Transformer encoder包含的多头自注意头数为12，隐藏层大小为768。在构

Notes > 课程 > 自然语言处理

构建汉语词向量

代码逻辑首先对训练数据和测试数据进行处理，按词进行分割然后储存起来，然后通过SVG和SGNS方法计算出训练数据的词向量，再在测试数据上进行测试。为此，在代码中定义了load_data(), caculate_sim(), svd_embedding()和sgns_embedding()四个方法，分别进行数据处理、计算测试集上向量相关性、通过svd和sgns得到训练集上向量的操作。最后将输出结果按要

Notes > 课程 > 自然语言处理

课程介绍

Notes > 课程 > 自然语言处理

实验用numpy搭建全连接神经网络用于手写数字识别

【代码+原理讲解】使用Numpy实现一个简单的四层全连接神经网络（手写数字识别，mnist数据集，正确率98.58%） - 知乎入门讲解：使用numpy实现简单的神经网络（BP算法）-CSDN博客结合代码和公式对全连接神经网络的实现进行分析数据处理1234567891011121314151617181920# 标准化处理 if normalize: for _ in ('

Notes > 课程 > 大三（上） > 神经网络与深度学习

#Python #神经网络

强化学习

强化学习一种试错型学习范式随即环境，智能体的动作引起环境的变化评价：包含噪声的延迟奖励目标：最大化长期累计回报状态状态是用于决定下一步发生什么的信息形式上，状态是一个关于历史信息的表示历史是一个状态、动作和奖励组成的序列环境状态完全可观测性：智能体能够直接观测到环境状态$O_t = s_t$部分可观测性：智能体间接观察环境$O_t != s_t$ 目标智能体的目标：最大化

Notes > 课程 > 大三（上） > 神经网络与深度学习

#深度学习

循环神经网络

概述特点：不同于在样本上做多个独立预测，而是假设样本之间存在关联，进而在样本序列上做预测采用链式法则表示一个观测序列的联合概率：考虑一个观测和所有历史观测之间的依赖关系复杂度随着观测个数指数级增长马尔可夫模型：马尔可夫模型假设当前观察只和较近的观测有关考虑两个不同的序列（如输入和输出序列），可以使用隐马尔可夫模型：联合分布为：最可能的隐状态为：循环神经网络（Recurrent neu

Notes > 课程 > 大三（上） > 神经网络与深度学习

#神经网络

注意力机制

软性注意力机制：打分函数：记忆网络

Notes > 课程 > 大三（上） > 神经网络与深度学习

#深度学习 #神经网络

生成对抗网络

VAE通过引入隐变量z定义了一个显式的密度函数生成对抗网络（GANs）通过对抗网络生成样本，而无需显式的密度函数对抗学习是一种机器学习领域常用的学习策略，通过引入假样本迷惑模型基本思想：训练两个网络生成器G：生成虚假样本，试图迷惑判别器判别器D：试图区分真实样本和虚假样本对抗学习：二者对抗训练零和博弈：最终通过充分训练，渴望算法收敛于一个好的关于数据分布的估计$p_g$，由$p_g

Notes > 课程 > 大三（上） > 神经网络与深度学习

#深度学习

生成模型

有监督：给定数据(x,y)，x为输出，y是对应的标签目的：学习一个映射f: x→y用于分类、回归、目标检测、语义分割、图像描述等无监督：数据：只有x，没有标签目标：学习隐藏的信息（数据背后隐藏的结构、主题、情感等）用于聚类、特征降维、特征学习、密度估计等判别模型：同时需要输入X和标签Y，试图通过某个判别函数建模条件分布P(Y|X)例如softmax回归，SVM等不能建模P(X)，即观测到某个样

Notes > 课程 > 大三（上） > 神经网络与深度学习

#深度学习