深度学习(近年来流行的卷积神经网络)

LeNet (20世纪90年代):最早最出名的神经网络之一。
AlexNet(2012) – 2012年,Alex Krizhevsky(和其他人)发布了 AlexNet,它是提升了深度和广度版本的 LeNet,并在2012年以巨大优势赢得了 ImageNet 大规模视觉识别挑战赛(ILSVRC)。这是基于之前方法的重大突破,目前 CNN 的广泛应用都要归功于 AlexNet。
ZF Net(2013) – 2013年 ILSVRC 获奖者来自 Matthew Zeiler 和 Rob Fergus 的卷积网络。它被称为 ZFNet(Zeiler 和 Fergus Net 的简称)。它在 AlexNet 的基础上通过调整网络框架超参数对其进行了改进。
GoogLeNet(2014) – 2014年 ILSVRC 获奖者是 Google 的 Szegedy 等人的卷积网络。其主要贡献是开发了一个初始模块,该模块大大减少了网络中的参数数量(4M,而 AlexNet 有60M)。
VGGNet(2014) – 2014年 ILSVRC 亚军是名为 VGGNet 的网络。其主要贡献在于证明了网络深度(层数)是影响性能的关键因素。
ResNets(2015) – 何凯明(和其他人)开发的残差网络是2015年 ILSVRC 的冠军。ResNets 是迄今为止最先进的卷积神经网络模型,并且是大家在实践中使用卷积神经网络的默认选择(截至2016年5月)。
DenseNet(2016年8月) – 最近由黄高等人发表,密集连接卷积网络的每一层都以前馈方式直接连接到其他层。 DenseNet 已经在五项竞争激烈的对象识别基准测试任务中证明自己比之前最先进的框架有了显着的改进。

前面几讲我们也和alex lt为例
详细讲解了卷积神经网络的结构
从2012年alex lette在imagenet数据集上获得远超传统算法的识别率以来
学术界在卷积神经网络方面进行了一系列的改进型研究工作
这一讲我们将描述这些重要的改进
这是一张截止到2015年
卷积神经网络的发展图
2012年
alex that将硬币net数据集的top five错误率降低到16.4%
在2014年
v g g和google ne
分别将top five的错误率降低为7.3%和6.7%
而在2015年
reslate将这个错误率降低到3.57%
首次达到了和真人不相上下的错误率
在这一讲中
我们将大致讲解v g net
google net和result的结构
同时我们将这三个网络的链接附在参考材料当中
供大家下载学习
首先是危机之类
这里画出了16层和19层的v g g v g g 16和v g g 19
以及他们与alex代的对比图
v g g net对rx的net的改进包括两个方面
第一增加了网络的深度
第二用多个3×3的卷积和叠加代替更大的卷积核
用以增加感受
也receptive field在卷积神经网络中感受
也receptive field的定义是卷积神经网络每一层输出的特征图
feature map上的像素点在输入图片上映射的区域的大小
再通俗一点的解释是特征图上的一个点
对应输入图上的区域
如图所示
最右边绿色特征图上左上角的一个点
对应的感受也是最左边原图向上5×5的方格
下面我们通过两个例子来给大家介绍感受
也是如何计算的
第一个例子
两层3×3的卷积和卷积操作之后
第三层特征图上的每一个点的感受也是5×5
其中卷积核filter的布场
strike为一
tiding为零
其计算的方式如图所示
第二个例子如果不长变为二
则两层三层以三卷集合操作过后
第三层特征图上每一个点的感受也是15×15
计算感受也的一般公式是第i层的感受也rfi等于第i减一层的感受
也rfi减1-1乘以d i减一乘的stride
stride i减一
再加上第i层的卷积核的大小
k size i
其中rfi是第i层的感受
也是拽的
i是第i层的步长
k size i是第i层的卷积核大小
可见在不长等于一的情况下
用两个3×3的卷积和叠加后的感受也和一个5×5的卷积和相同
这也就是v g g net为何要用多个3×3的卷积核叠加
取代alex letter中较大卷积核的原因
更详细的分析一下
两个3×3的卷积核带球参数是18个
而一个5×5的卷积核带球参数25个
因此用更小的卷积核叠加代替大的卷积核
可以起到降低代估计参数的作用
但是多层卷积需要更大的计算量
中间过程的特征图也需要更多的储存空间
因此v g g是一个计算和存储开销都很大的网络
2014年提出的
google也采用了这种利用小卷积核叠加来代替大卷积核的思路
google net提出了inception结构
inception结构适用一些1×1
3×3和5×5的小卷集合
用固定的方式组合到一起来
代替大的卷积核
达到增加感受
也同时减少参数个数的目的
如下是google的结构
它总共有22层
利用inception结构
google net将参数个数缩小到500万个左右
比alex net小了12倍
同时google获得了2014年ige net数据集的冠军
2014年
研究人员分析了深度神经网络
并从理论和实践上证明
更深的卷积神经网络能够达到更高的识别准确率
因此如何构建让更深的卷积神经网络收敛
成了研究领域共同关注的问题
在2015年
凯明河等人发明的reslate
使得训练生成卷积神经网络成为可能
reflect的作者首先发现
训练一个虔诚的网络
无论是在训练集还是测试集上
都比生成网络表现得好
而且是在训练的各个阶段持续的表现得好
如图所示
20层的卷积神经网络在不同的数据集上
都比56层的卷积神经网络要好
于是作者产生了一个很简单的想法
既然20层的网络表现比56层要好
那么我们大不了另外36层什么都不做
直接将第20层的输出加入到第56层当中
因此就产生了resnet的核心思想
如图所示
将浅层的输出直接加到生成当中去
当然在实际的添加当中
由于浅层和深层的特征图在维度上有可能不一致
导致无法直接相加
我们可以用一个线性变换
直接把浅层特征图的维度变为深层的维度
例如假设浅层特征图用向量的x表示
那么用一个线性变换
x一撇等于omega转置乘以x加b
可以使变换后的向量x一撇与生成的网络特征图维度一致
而举证omega和b可以作为带球变量被学习
这是2015年提出的rest at 50的结构
它有50层
可以看到中间有很多浅层加入深层的操作
而在图的左边是一些训练的技巧
大家学习了这门课程
能够相对容易地看懂这些训练的技巧
result在2015年将ige net的测试及错误率降低到3.57%
到目前为止
reslate这种将虔诚的输出直接加入到深层的结构
被广泛地应用于深度神经网络的训练当中
运用resnet的结构已经可以训练出成百上千层的卷积神经网络了
寻找更好的卷积神经网络结构的努力一直在持续
严格地说
这是一个需要在识别精度
计算量和存储量三个方面平衡取舍的问题
近年来流行的趋势是利用紧凑的小而生的网络
代替以往稀疏的大而浅的网络
同时在具体的实现过程中加入一些创意和技巧
近年来流行的例如shuffle net
mobile net等
都是其中的典型代表
另一个方面
网络结构搜索
network architecture search
即如何从一大堆网络结构中搜索适合具体任务的网络结构
成为领域内另一个热点问题
本讲的最后我们给出截止到2016年
各种不同的卷积神经网络在硬币net上的计算量和识别率的对比图
横坐标是网络的计算量
纵坐标是网络的top one
识别率
我们可以看到
近年来涌现出了很多
在计算量和识别精度上都远远超过alex斯莱特的卷积神经网络
本讲主要讲了p r t x net之后的卷积神经网络的发展历史
我们以v g g net为例
介绍了感受野的概念
我们也讲到了训练生成卷积神经网络常用的result结构
在课程的最后留一道讨论题给大家
请大家查询最近几年流行的卷积神经网络结构的论文
总结这些网络结构的优势和劣势
同时请大家讨论
为什么这些网络结构能够流行
其中是否有一些设计网络结构的技巧和规律呢
本讲的内容就到这里
谢谢同学们

发表评论

邮箱地址不会被公开。 必填项已用*标注