YOLO(一) 算法的原理及演变

如题所述

第1个回答 2022-07-09

第一次接触到yolo这个算法是通过吴恩达的教学视频了解到的，当时其实也算是第一次接触到目标检测算法。这里我们主要介绍下YOLO(You Only Look Once)。现在已经进化到了V3版本了。它不同于Faster RCNN这个分支走的两部策略先进行前景识别在进行目标检测，它是直接一步到位进行目标检测。因此在识别的速度上优于Faster RCNN(5 FPS), 而 YOLO_v1基础版在Titan X GPU上可以达到45帧/s；快速版可以达到150帧/s。但是在准确率上YOLO是稍差与Faster RCNN这个在之后会详细介绍。顺便提下如果想了解Faster RCNN原理可以参考 Faster-RCNN的原理及演变。

我们知道YOLO其实就是 You Only Look Once, 意思是只需要看一眼就知道位置及对象，个人觉得蛮形象的。他不需要Faster RCNN的RPN结构，他其实选取anchor是预订了候选框，将图片划分为7x7的网格，每个网格允许有2个不同的bounding box. 这样一开始我们就有7x7x2个候选框(bounding box), 大致粗略覆盖了图像的整个区域。他的思想就是Faster RCNN在第一阶段就算有了回归框，在第二阶段还是需要进行精调，那还不如就先生成大致回归框就ok了。

下面我们就来好好介绍一下这个模型。

一、模型结构

其实将这个模型简单话为:

那30又是如何形成的通道大小的呢？

a. 2个bounding box的位置（8个通道）
每个bounding box需要4个数值来表示其位置，(Center_x,Center_y,width,height)，即(bounding box的中心点的x坐标，y坐标，bounding box的宽度，高度)，2个bounding box共需要8个数值来表示其位置。

b. 2个bounding box 置信度（2个通道）

c. 20分类概率（20个通道）
下面我们来说一下剩下20维度的分类通道。每一个通道代表一个类别的分类概率。因为YOLO支持识别20种不同的对象（人、鸟、猫、汽车、椅子等），所以这里有20个值表示该网格位置存在任一种对象的概率。 但是我们一组图片只能预测49个对象，可以理解为一个grid2个achor只能有一个预测准的对象（即计算IOU比例最大的那个anchor），所以7x7个对象 。

图中将自行车的位置放在bounding box1，但实际上是在训练过程中等网络输出以后，比较两个bounding box与自行车实际位置的IOU，自行车的位置（实际bounding box）放置在IOU比较大的那个bounding box（图中假设是bounding box1），且该bounding box的置信度设为1

二、损失函数

总的来说，就是用网络输出与样本标签的各项内容的误差平方和作为一个样本的整体误差。
损失函数中的几个项是与输出的30维向量中的内容相对应的。

三、 YOLO v1 缺陷

注意：

细节：
YOLO的最后一层采用线性激活函数，其它层都是Leaky ReLU。训练中采用了drop out和数据增强（data augmentation）来防止过拟合。更多细节请参考原论文

在67 FPS，YOLOv2在PASCAL VOC 2007上获得76.8％的mAP。在40 FPS时，YOLOv2获得78.6％mAP，这比使用ResNet和SSD 更快的R-CNN更好。凭借如此优异的成绩，YOLOv2于2017年CVPR发布并获得超过1000次引用。YOLO有两个缺点：一个缺点在于定位不准确，另一个缺点在于和基于region proposal的方法相比召回率较低。因此YOLOv2主要是要在这两方面做提升。另外YOLOv2并不是通过加深或加宽网络达到效果提升，反而是简化了网络。

下面主要从两点来介绍下YOLO v2的提升之处。分别是Better以及Faster.

1、Darknet-19
在YOLO v1中，作者采用的训练网络是基于GooleNet，这里作者将GooleNet和VGG16做了简单的对比，GooleNet在计算复杂度上要优于VGG16（8.25 billion operation VS 30.69 billion operation），但是前者在ImageNet上的top-5准确率要稍低于后者（88% VS 90%）。而在YOLO v2中，作者采用了新的分类模型作为基础网络，那就是Darknet-19。Table6是最后的网络结构：Darknet-19只需要5.58 billion operation。这个网络包含19个卷积层和5个max pooling层，而在YOLO v1中采用的GooleNet，包含24个卷积层和2个全连接层，因此Darknet-19整体上卷积卷积操作比YOLO v1中用的GoogleNet要少，这是计算量减少的关键。最后用average pooling层代替全连接层进行预测。这个网络在ImageNet上取得了top-5的91.2%的准确率。

2、Training for Classification
这里的2和3部分在前面有提到，就是训练处理的小trick。这里的training for classification都是在ImageNet上进行预训练，主要分两步：1、从头开始训练Darknet-19，数据集是ImageNet，训练160个epoch，输入图像的大小是224 224，初始学习率为0.1。另外在训练的时候采用了标准的数据增加方式比如随机裁剪，旋转以及色度，亮度的调整等。2、再fine-tuning 网络，这时候采用448 448的输入，参数的除了epoch和learning rate改变外，其他都没变，这里learning rate改为0.001，并训练10个epoch。结果表明fine-tuning后的top-1准确率为76.5%，top-5准确率为93.3%，而如果按照原来的训练方式，Darknet-19的top-1准确率是72.9%，top-5准确率为91.2%。因此可以看出第1,2两步分别从网络结构和训练方式两方面入手提高了主网络的分类准确率。

3、Training for Detection
在前面第2步之后，就开始把网络移植到detection，并开始基于检测的数据再进行fine-tuning。首先把最后一个卷积层去掉，然后添加3个3 3的卷积层，每个卷积层有1024个filter，而且每个后面都连接一个1 1的卷积层，1 1卷积的filter个数根据需要检测的类来定。比如对于VOC数据，由于每个grid cell我们需要预测5个box，每个box有5个坐标值和20个类别值，所以每个grid cell有125个filter（与YOLOv1不同，在YOLOv1中每个grid cell有30个filter，还记得那个7 7 30的矩阵吗，而且在YOLOv1中，类别概率是由grid cell来预测的，也就是说一个grid cell对应的两个box的类别概率是一样的，但是在YOLOv2中，类别概率是属于box的，每个box对应一个类别概率，而不是由grid cell决定，因此这边每个box对应25个预测值（5个坐标加20个类别值），而在YOLOv1中一个grid cell的两个box的20个类别值是一样的）。另外作者还提到将最后一个3 3*512的卷积层和倒数第二个卷积层相连。最后作者在检测数据集上fine tune这个预训练模型160个epoch，学习率采用0.001，并且在第60和90epoch的时候将学习率除以10，weight decay采用0.0005。

这里yolo v3相对于yolo v2有三点：1. 利用多尺度特征进行对象检测 2. 调整基础网络结构

相似回答

YOLO模型详解答：YOLO，全称为You Only Look Once，是一种革命性的目标检测技术，它以卷积神经网络（CNN）为核心，一次性识别并定位所有目标。与传统识别算法不同，YOLO同时预测类别和位置，显著提高了检测效率。要深入了解，你需要掌握CNN的基本原理，以及边界框回归这类关键概念。YOLO的创新之处在于它基于全卷积网络（FCN...

YOLO v1深入理解答：YOLO(You Only Look Once)是一种基于深度神经网络的对象识别和定位算法,其最大的特点是运行速度很快,可以用于实时系统。现在YOLO已经发展到v3版本,不过新版本也是在原有版本基础上不断改进演化的,所以本文先分析YOLO v1版本。关于YOLOv2/YOLO9000 的分析理解请移步 YOLO v2 / YOLO 9000 。输入一张图片,要求...

目标检测 YOLO系列——YOLO v1答：Yolo算法很好的解决了这个问题,它不再是窗口滑动了,而是直接将原始图片分割成互不重合的小方块,然后通过卷积最后生产这样大小的特征图,基于上面的分析,可以认为特征图的每个元素也是对应原始图片的一个小方块,然后用每个元素来可以预测那些中心点在该小方格内的目标,这就是Yolo算法的朴素思想。整体来看,Yolo算法采用一...

YOLO 目标检测实战项目『原理篇』答：2. YOLO（You Only Look Once）目标检测算法，通过将识别和定位合二为一，实现了快速检测。其网络结构借鉴了GoogLeNet，但进行了调整以适应目标检测的需求。3. YOLOv1虽然检测速度快，但在定位准确度和召回率方面表现不佳。YOLOv2针对这些问题进行了改进，包括使用Darknet-19网络结构、引入Anchor Boxes、...

yolov8人脸识别-脸部关键点检测(代码+原理)答：YOLOv8，这个革命性的深度学习算法，以其卓越的性能在人脸识别和关键点检测领域独树一帜。它巧妙地融合了卷积神经网络（CNN）的结构，为实时监控和精确认证场景带来了前所未有的效率。无论面对正脸、侧脸，还是遮挡情况，YOLOv8都能展现出高精度和稳定性，得益于其强大的鲁棒性设计。作为开源项目，YOLOv8...

大家正在搜

算法的演变过程百度算法的演变从智商算法的演变智商算法的演变过程算盘与计算器的演变史演变算法演化算法的组成部分复杂的事情演化算法算法原理