机器学习理论

卷积神经网络

全连接网络：不是相邻层之间没有连接

在语音识别方面取得成功，将语音识别错误率下降了五个百分点，一维信号处理

处理图像二维信号会出现问题，图像像素1000000像素点，全连接需要不小于4T内存，不能提供这么大的内存，只是第一个隐层，机器受不了这种运算

对于图像处理，利用图像的模型或者特点，简化每层的算法

图像模式的特性：1、鸢尾花仅出现在局部区域

并不是所有具有相似形态特征的

鸢尾花都位于图像的同一个位置

可能的做法：卷积：平移不变模式

定义一种提取局部特征的方法，可以有效响应待定的局部模式

用这种方法遍历整张图片

特征提取器遍历的位置上响应值很大大概率出现鸢尾花，提取其他内容也适用，只要特征提取器存在

2、大小改变，鸢尾花仍然可以有效区分

可能的做法：池化：下采样被检测物体的不变模式

在神经网络逐层累加的时候，可以对图像进行缩放

缩放到适当大小后，可以在特征提取中得到有效相应

一个模型五层，每层100个结点，实现分类和模式识别功能

如果用浅层的神经网络实现类似的功能，则会出现上百万个参数

尽量使用深层神经网络，用比较少的神经元节点实现更加复杂的模式识别

CNN的层级不同

处理图像分为两种：灰度图像和彩色图像

灰色是单通道图像，彩色图像是三通道图像

输入层中的高宽通道数

输入结构是固定的

卷积层：卷积计算=特征提取

通过滤波器的模板提取垂直边缘，提取垂直线条特征

滤波器维度大，参数更加复杂

卷积网络学的就是滤波器中的参数

灰度图像使用单卷积核：单个特征的抽取

三维通道需要有三个垂直滤波器的模板

RGB图像上使用多卷积核：多个不同的特征提取

卷积隐层的堆叠

卷积核的个数=下一层数据的深度=下一卷积层卷积核的深度

卷积核的个数=提取特征的数量，超参数，可以自己调节

多层卷积：一层卷积得到的特征是局部的，层数越高，得到的特征约全局化

需要注意的参数：一次滑动的步长

Padding=valid,在55的图像中增加一圈0，变成77的，经过滤波器操作后都变成5*5的，保证输入和输出图像的分辨率一致

在周围合理补零可以使图像分辨率不损失

输入：W1H1D1

输出：W2H2D2

自己动手搭CNN

激活函数简述

往模型中加入非线性元素，能表示更大范围的函数

一般不在同一个网络中使用多种激活函数

指数运算效率低

更新梯度很小，后边的数据无法进行计算

要解决激活函数生成值区间太小的问题

出现了线性运算，效率高很常用

CNN的基本结构

输入层、卷积层、激活层、池化层、全连接层

一般意义上的池化：平均池化、最大池化

池化：采用下采样的方式，能够成倍地减少计算量，在长度和宽度上进行采样，不改变深度的特征，pooling

全连接层：

将多层的特征映射伸直成一个一维的向量

采用全连接的方式将向量连接向输出层

最终目的是得到一个可以对不同类别进行区分的得分

输出层就是对应每个类别的得分

循环神经网络

语言处理技术、词向量、循环神经网络、应用与实践

自然语言处理四个层面：形式（本来面貌）、语义（表示理解）、推理（无中生有）和语用（弦外之音）

词法学：研究词的词素构成、词性

形态分析：分析词根、前缀、后缀、词尾

未登录词识别：分析新词

中文分词

词性标注

句法学：研究句子结构成分之间的相互关系和组成句子序列的规则

语义学:研究如何从一个语句中词的意义，以及这些词在该

语句的句法结构中的作用来推导出该语句的意义

语用学：研究在不同上下文的语句的应用，以及上下文对语句理解所产生的影响

词法分析：是对自然语言的形态进行分析，判断词的结构、类别和性质

主要任务包括：自动分词、命名实体识别、词性标注

中文分词的核心任务是要确定词的边界，将句子分解为最小意义的单元，即将中文字序列转化为词序列。

分词面临的主要问题：分词规范、歧义切分、未登录词识别

分词算法：基于规则的分词方法：简单易行、消解误差的能力较差

基于统计的分词方法：效果依赖于训练语料的规模和质量

基于理解的分词方法：需要大量的语言知识和信息

词性标注：为分词结果中每个单词标注正确的词性，确定每个词词性的过程：主要任务是消除词性兼类歧义

词性标注算法：基于规则的方法：根据词语的结构建立词性标注规则

基于机器学习的自动规则提取方法

基于统计模型的方法

综合方法

短语结构分析：对输入的单词序列判断其是否符合给定的语法，分析出合乎语法的句法结构，用树状结构表示，称为句法分析树

依存句法分析：通过分析语言单位成分之间的依存关系揭示其句法结构。主要识别句子中的主谓宾，并分析各成分之间的关系

依存句法分析：基于图的依存句法分析方法

基于转移的依存句法分析方法

多模型融合

语义分析：词汇级语义分析：理解某个词汇的含义

词义消除（结合上下文确认）、词表示（表示并学习一个词）

句子级语义分析：浅层、深层

文本分类：根据给定文档的内容或主题，自动分配预先定义的类别标签

文本聚类：根据文档之间的内容或主题相似度，将文档计划分为若干个子集

文本特征提取和降维：特征提取

特征转换、话题分析

文本分类模型：基于机器学习的分类、基于神经网络的方法

文本聚类模型：基于距离的聚类、基于概率模型的聚类

情感分析：根据文本所表达的含义和情感信息将文本划分为褒义、贬义等多种类型，是对作者倾向性和观点、态度的划分，也称倾向性分析

核心任务主要包含观点性及倾向性识别

情感分析：基于词典的情感分析方法：通过制定一系列的情感字典和规则，对文本进行拆句、分析及匹配词典、计算情感值进行文本的情感倾向判断

基于机器学习的情感分析方法：将情感分析作为一个分类问题来处理，基本流程与文本分类一致

实体识别与抽取：命名实体识别：识别文本中库有特定意义的实体：如人民、机构名、地名等专有名词

和开放域实体识别：给定某一类别的实体实例，从网页中抽取同一类别其他的实体实例，特点在于不限定实体类别，不限定目标文本

实体消歧：在非结构化文档中，由于书写风格和上下文需要，同一个命名实体可能包含多种形式的表达，同时文档中的一个名词可能从字面意思上对应多种命名实体

关系抽取：检测和识别文本中实体之间的语义关系，关系抽取的输出通常是一个三元组，实体一，关系类别、实体二

基于模板的方法：基于触发词、字符串、基于依存句法

监督学习：机器学习、深度学习

半监督、无监督学习

事件抽取：从非结构化文本中抽取时间信息，主要包括时间、地点、事件元素角色，并将其以结构化形式呈现出来的任务，主要任务包括：触发词和事件元素的提取等

自动文摘：利用计算机按照某类应用自动地将文本转换生成简短摘要的一种信息压缩技术

要求：信息量足、覆盖面广、冗余度低、可读性高

抽取式摘要、生成式摘要

信息推荐：协同过滤推荐、基于内容的推荐系统、基于知识的推荐系统

问答系统：按照答案的生成反馈机制，可划分为：

基于检索式的问答系统

基于生成式的问答系统

检索式自动问答：问句理解、信息检索、答案抽取

生成式问答系统：根据训练数据：抽取部分模型、生成部分模型

机器翻译：用计算机把一种语言翻译成另外一种语言

词向量概念：深度学习应用于自然语言处理之前，传统的词表达通常采用one-hot方式表达

缺点：向量维度取决于语料库中词数，导致维数灾难

向量之间相互独立看不出关联关系

词向量可以把one hot编码转化为稠密向量

词向量中语义上接近的词距离接近

语法上相近的词距离接近

词向量的应用：计算相似度：寻找相似词、信息检索查询扩展、知识推演

作为神经网络的输入：文本分类、情感分析、文档主题判别

句子/文档表示：有/无监督句子/文档表示

词向量学习模型–神经网络语言模型

语言模型就是判断给定字符串为自然语言的概率

若果概率大于某个阙值，就认为该字符串为自然语言