首页编程正文内容

基于卷积的图像分类识别（一）：AlexNet

编程

更新时间：2026-04-03 13:50:31 83

admin 管理员组

文章数量: 1184232

本专栏介绍基于深度学习进行图像识别的经典和前沿模型，将持续更新，包括不仅限于：AlexNet， ZFNet，VGG，GoogLeNet，ResNet，DenseNet，SENet，MobileNet，ShuffleNet，EifficientNet，Vision Transformer，Swin Transformer，Visual Attention Network，ConvNeXt， MLP-Mixer，As-MLP，ConvMixer，MetaFormer

AlexNet 文章目录

前言
一、AlexNet理论
- 1. 激活函数：ReLU
- 2. 随机失活：Dropout
- 3. 数据扩充：Data augmentation
- 4. 多GPU实现 : Distributed training
- 5. 局部响应归一化 : LRN
二、 AlexNet代码
- 2.1 Introduction
- 2.2 Dataset And Project
- 2.3 基于pytorch的模型搭建代码
- 2.4 基于pytorch的模型训练代码
- 2.5 基于pytorch的模型推理代码
小结

前言

2012年，Alex Krizhevsky、Ilya Sutskever在多伦多大学Geoff Hinton带领的实验室设计出了一个深层的卷积神经网络，即AlexNet。该网络在2012年的ImageNet LSVRC比赛中获得冠军，准确率远超第二名（错误率为15.3%，第二名为26.2%），引起了巨大轰动。AlexNet模型可以说是一个具有历史意义的网络结构，在此之前，深度学习已经沉寂了将近20年。自2012年AlexNet问世以来，后续的ImageNet冠军都是通过使用卷积神经网络（CNN）获得的，并且网络结构也越来越深，使得CNN成为计算机视觉领域的核心算法模型。在未来的20年中，CNN在计算机视觉领域的地位始终是统治性的，可以说AlexNet引发了深度学习的大爆发。
由于Alex Krizhevsky团队并没有为自己的网络命名，后人为了方便将这个网络模型称为AlexNet。同学们如果不想让别人随意给自己的网络取名字，在写论文时应该为自己的网络取个名字。

论文名称：Imagenet classification with deep convolutional neural networks
论文下载链接：https://proceedings.neurips/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
pytorch代码实现：https://github/Arwin-Yu/Deep-Learning-Classification-Models-Based-CNN-or-Attention
创作不易，引用或转载请标明出处。

一、AlexNet理论

AlexNet其实跟LeNet很像很像(LeNet传送门)，几乎可以说是LeNet的升级版，都是有卷积和全连接组成。AlexNet之所以能够成功，跟这个模型设计的特点有关，主要有：

使用了非线性激活函数：ReLU
随机失活：Dropout
数据扩充：Data augmentation
其他：多GPU实现，LRN归一化层的使用

1. 激活函数：ReLU

传统的神经网络普遍使用Sigmoid或者tanh等非线性函数作为激励函数，然而它们容易出现梯度弥散或梯度饱和的情况。以Sigmoid函数为例，如下图所示，当输入的值非常大或者非常小的时候，值域的变化范围非常小，使得这些神经元的梯度值接近于0（梯度饱和现象）。由于神经网络的计算本质上是矩阵的连乘，一些近乎于0的值在连乘计算中会越来越小，导致网络训练中梯度更新的弥散现象，即梯度消失。

但是relu不存在这个缺陷，它在第一象限近似函数：y=x，不会出现值域变化小的问题。relu函数直到现在也是学术界和工业界公认的最好用的激活函数之一，在各个不同领域不同模型下的使用非常之多。

其实，对于relu函数的设计思想我们可以寻求一个生物学解释，大家回忆一下初中的一个生物实验：生物学家们用电流刺激青蛙的大腿肌肉，当电流强度不够强时，肌肉组织不反应（即relu函数在x<0时，输出恒等于0的表现）；当电流强度到达一定的阈值，肌肉组织开始抽搐，且电流强度越大，抽搐反应越强（即relu函数在x>0时，输出为y=x的表现）。本质上，这是一种非线性的体现。

2. 随机失活：Dropout

引入Dropout主要是为了防止网络在训练过程中出现的过拟合现象。过拟合现象出现的原因有两方面：1.数据集太小。 2.模型太复杂。至于产生过拟合的原因我们可以类别生活中的一个场景去解释：

高三的时候，老师出了一套题库给大家做联系，并说期末考试的题就是从题库中抽出来的。但是，这个题库的题量非常少，且都是选择题，那么这时候想要期末考高分的最快捷方法是什么呢？其实并不是把每道题都理解，都学会，而是单纯的背答案！

所以模型也是一样的，当数据太小时，模型就不会去学习数据中的相关性，不会尝试去理解数据，提取特征。最便捷的一种方式是把数据集中的所有数据强行记忆下来，这就叫过拟合。可以想象，一个过拟合的模型是没有举一反三的能力的，即对数据的泛化能力太差，只能对训练数据集中的数据做很好的处理，一旦换一批新的类似数据，模型的处理能力会很差。

那如何解决呢？两个方案：1.提升数据集容量，让模型难以记忆所有的数据，这时候它就会尝试学习数据，理解数据了，因为相较于记忆所有数据，这是种更容易的解决方案。 2.把模型变的简单些，我们想：之所以高三的学生会选择背答案，其实是因为高三的学生比较聪明，如果换个小学生来，他八成是想不到背答案的。因此模型也是一样的，模型会选择记忆数据一方面是因为模型太复杂，他有能力去记忆所有数据。当我们降低模型的复杂度时，他就不会出现过拟合现象。总之，过拟合的本质是数据集与模型在复杂度上不匹配。

在神经网络中Dropout是通过降低模型复杂度来防止过拟合现象的，对于某一层的神经元，通过一定的概率将某些神经元的计算结果乘0，这个神经元就不参与前向和后向传播，就如同在网络中被删除了一样，同时保持输入层与输出层神经元的个数不变，然后按照神经网络的学习方法进行参数更新。在下一次迭代中，又重新随机删除一些神经元（置为0），直至训练结束。

3. 数据扩充：Data augmentation

由于神经网络算法是基于数据驱动的，因此，有一种观点认为神经网络是靠数据喂出来的，如果能够增加训练数据，提供海量数据进行训练，则能够有效提升算法的准确率，因为这样可以避免过拟合，从而可以进一步增大、加深网络结构。而当训练数据有限时，可以通过一些变换从已有的训练数据集中生成一些新的数据，以快速地扩充训练数据。
其中，最简单、通用的图像数据变形的方式：水平翻转图像，从原始图像中随机裁剪、平移变换，颜色、光照变换，如下图所示：

数据增广确实是提升模型的有效手段，而且最近的增广方式也不仅限于这种随即裁剪，也可以使用生成对抗网络进行图像生成来达到图像增广的目的。

4. 多GPU实现 : Distributed training

AlexNet当时使用了GTX580的GPU进行训练，由于单个GTX 580 GPU只有3GB内存，这限制了在其上训练的网络的最大规模，因此他们将模型拆成两部分，分别放进两个GPU硬件中进行训练，在训练过程中会通过交换feature maps进行两个硬件中子网络的信息交流，大大加快了AlexNet的训练速度。当时其实纯属硬件设备限制的无奈之举，但是，现在看来，这种拆成两组的训练方式跟现代的一种卷积变体非常非常类似：组卷积（group convolution）。个人认为，这也AelxNet效果好的一个主要原因，不过作者当时并没有发现，也算是无心插柳柳成荫了。

5. 局部响应归一化 : LRN

全局响应归一化（Local Response Normalization，LRN）技术主要用于提高深度学习训练的准确性。一般来说，LRN是在激活和池化之后进行的一种处理方法。这个归一化技术最早是在AlexNet模型中被提出的。通过实验确实证明它可以提高模型的泛化能力，但是提升的能力有限。后来这种方法逐渐被弃用，有些人甚至认为它是一个“伪命题”，因此备受争议。如今，Batch Normalization已经成为了局部归一化的主流替代方法。

下面简要介绍一下局部归一化的灵感来源：LRN 的基本思想是模拟侧抑制效应，该效应是生物神经系统的一种现象，即一个活跃的神经元会抑制其邻近神经元的活跃度。在 CNN 中，这通常通过在每个小批量样本上沿深度维度进行归一化实现。也就是说，一个特定的神经元的输出将被它的 “邻居” 神经元的活跃度所规范化。

具体地，LRN 层会考虑每个神经元的 n 个相邻神经元，并计算其平方和。然后，原始神经元的激活值将被规范化，即除以一个值，这个值等于（常数 k 加上原始平方和乘以常数 α）的 β 次幂。在这里，k、n、α 和 β 是 LRN 层的超参数。

实验总结：由于LRN模仿生物神经系统的侧抑制机制，对局部神经元的活动创建竞争机制，从而使响应较大的值更大，提高了模型的泛化能力。在ImageNet实验中，深度学习之父Hinton等人使用LRN技术分别提升了模型1.4%和1.2%的准确率。然而，随后的研究并不太认可这项技术，以至于它至今仍然是一个争议性的技术，很少被使用。

二、 AlexNet代码

2.1 Introduction

完整的项目代码详见我的GitHub：完整代码链接，完整的项目包含了自AelxNet以来经典的深度学习分类模型，大部分模型是基于卷积神经网络的，也有一部分是基于注意力机制的。在项目目录中，模型的搭建代码在classic_models文件夹中；所有的模型训练代码是共用的，有三个版本：

train_sample.py是最简单的实现，必须掌握，以下版本看个人能力和需求。
train.py是升级版的实现，具体改进的地方见train.py脚本中的注释。
train_distrubuted.py支持多gpu分布式训练。

最后，test.py是推理脚本，用于使用训练好的模型。dataload中是数据集加载代码；utils是封装的功能包，包括学习策略，训练和验证，分布式初始化，可视化等等。建议先学习掌握classic_models，train_sample.py和test.py这三部分。

2.2 Dataset And Project

本项目是使用python语言基于pytorch深度学习框架编写的。

默认的数据集是花朵数据集，此数据集包含五种不同种类的花朵图像，用于训练的图像有3306张，用于验证的图像有364张。下载链接如下：https://pan.baidu/s/1EhPMVLOQlLNN55ndrLbh4Q
提取码：7799 。

下载完成后，记得在训练和推理代码中，将数据集加载的路径修改成自己电脑中下载存储的路径。

数据集图像展示如下：

本文标签：卷积图像 AlexNet

版权声明：本文标题：基于卷积的图像分类识别（一）：AlexNet 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1754751878a3035089.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

基于卷积的图像分类识别（一）：AlexNet

AlexNet 文章目录

前言

一、AlexNet理论

1. 激活函数：ReLU

2. 随机失活：Dropout

3. 数据扩充：Data augmentation

4. 多GPU实现 : Distributed training

5. 局部响应归一化 : LRN

二、 AlexNet代码

2.1 Introduction

2.2 Dataset And Project

更多相关文章

系统学习Pytorch笔记三：Pytorch数据读取机制(DataLoader)与图像预处理模块(transforms)

医学图像DICOM文件解析——RT Structure篇

鱼眼图像(fisheye image)通过几何变换形成透视图(a perspective view)[存疑]

全景图像（Panorama Image）向透视图像（Perspective Image）的跨视图转化（Cross-view）

卷积神经网络综合指南——ELI5 方式 A Comprehensive Guide to Convolutional Neural Networks — the ELI5 way

CA-Net: Comprehensive Attention Convolutional Neural Networks用于可解释医学图像分割的综合注意卷积神经网络

【大模型】大型模型飞跃升级—文档图像识别领域迎来技术巨变

【图像去模糊】Rethinking Coarse-to-Fine Approach in Single Image Deblurring

图像变形矫正软件 DxO ViewPoint v4.12 一键激活 永久授权

不止于搜索：Chrome 新标签页变身 AI 启动器，Gemini 驱动图像生成与深度研究

6、多媒体编辑与图像数据处理实用指南

基于深度学习的图像修复系统设计与实现（附源码）

专用来处理图像的工具-Photoshop CS5 中文版提供下载

Photoshop导入编辑WebP图像神插件WebPShop v0.4.3插件

Stable Diffusion 3.5 FP8如何优化长尾关键词对应的图像生成

FLUX.1-dev实战指南：从零训练高质量艺术图像生成应用

Allied Vision相机图像采集与显示系统开发实战（VS2019 + MFC）

Adobe illustrator(AI) 矢量图形软件 | 图像描摹(怎么把白色背景色的图片背景变为透明色)

毕业项目推荐：08-基于yolov8yolov5yolo11的垃圾检测与分类系统（python+卷积神经网络）

从困惑到高手：快速掌握TIF格式的编程之路

发表评论

推荐文章

自我检测：电脑中毒？看这三步，帮你揪出病毒源头

QQ启动initialization failure:0x0000000C错误解决方案_qq initialization failure

无法识别的USB设备？怎么解决？_刷机 无法识别的usb设备

电脑突然黑屏，然后所有字体图标都变大了，屏幕也变化了_学习和成长-问答

简单合并VOB视频

热门文章

Win10中找到并修复mfc71ud.dll，让程序运行无忧！

NAT工作原理与应用全解：优化网络体验的幕后功臣

Office2019安全模式下总是卡顿？试试这个绝招

WPS桌面图标对了，文件却开不出？解决方法在这里！

Windows 7 64位系统视频解码器驱动完整安装包

ie设置默认，打开快捷方式会弹出2个浏览器网页_浏览器快捷方式打开两个网页

【巴法云】开源安卓App控制ESP8266，通过MQTT协议，APP Inventor 开发

Linux镜像文件ISO官网

如何查找你的 Linux 系统私有 IP 地址？_线上服务器如何查私有ip

如何清除chrome浏览器缓存_代码chrome怎么清除页面缓存

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑

图像变形矫正软件 DxO ViewPoint v4.12 一键激活永久授权

无法识别的USB设备？怎么解决？_刷机无法识别的usb设备