目标检测之YOLO算法详解

来源：好走旅游网

⽬标检测之YOLO算法详解

YOLO的全拼是You Only Look Once，顾名思义就是只看⼀次，把⽬标区域预测和⽬标类别预测合⼆为⼀，作者将⽬标检测任务看作⽬标区域预测和类别预测的回归问题。该⽅法采⽤单个神经⽹络直接预测物品边界和类别概率，实现端到端的物品检测。因此识别性能有了很⼤提升，达到每秒45帧，⽽在快速YOLO(Fast YOLO，卷积层更少)中，可以达到每秒155帧。当前最好系统相⽐，YOLO⽬标区域定位误差更⼤，但是背景预测的假阳性优于当前最好的⽅法。

⼀、引⾔

⼈类瞥了⼀眼图像，⽴即知道图像中的物体，它们在哪⾥以及它们如何相互作⽤。⼈类视觉系统快速⽽准确，使我们能够执⾏复杂的任务，⽐如汽车驾驶。

传统的⽬标检测系统利⽤分类器来执⾏检测。为了检测对象，这些系统在测试图⽚的不同位置不同尺⼨⼤⼩采⽤分类器对其进⾏评估。如⽬标检测系统采⽤deformable parts models (DPM)⽅法，通过滑动框⽅法提出⽬标区域，然后采⽤分类器来实现识别。近期的R-CNN类⽅法采⽤region proposal methods，⾸先⽣成潜在的bounding boxes，然后采⽤分类器识别这些bounding boxes区域。最后通过post-processing来去除重复bounding boxes来进⾏优化。这类⽅法流程复杂，存在速度慢和训练困难的问题。

我们将⽬标检测问题转换为直接从图像中提取bounding boxes和类别概率的单个回归问题，只需⼀眼（you only look once，YOLO）即可检测⽬标类别和位置。

YOLO简洁明了：见下图。 YOLO算法采⽤单个卷积神经⽹络来预测多个bounding boxes和类别概率。与传统的物体检测⽅法相⽐，这种统⼀模型具有以下优点：

YOLO检测系统。⽤YOLO处理图像简单直接。我们的系统（1）将输⼊图像调整为448×448，（2）在图像上运⾏单个卷积⽹络，以及（3）由模型的置信度对所得到的检测进⾏阈值处理。

⾮常快。YOLO预测流程简单，速度很快。我们的基础版在Titan X GPU上可以达到45帧/s；快速版可以达到150帧/s。因此，YOLO可以实现实时检测。

YOLO采⽤全图信息来进⾏预测。与滑动窗⼝⽅法和region proposal-based⽅法不同，YOLO在训练和预测过程中可以利⽤全图信息。Fast R-CNN检测⽅法会错误的将背景中的斑块检测为⽬标，原因在于Fast R-CNN在检测中⽆法看到全局图像。相对于Fast R-CNN，YOLO背景预测错误率低⼀半。

YOLO可以学习到⽬标的概括信息（generalizable representation），具有⼀定普适性。我们采⽤⾃然图⽚训练YOLO，然后采⽤艺术图像来预测。YOLO⽐其它⽬标检测⽅法（DPM和R-CNN）准确率⾼很多。

在准确性上，YOLO算法仍然落后于最先进的检测系统。虽然它可以快速识别图像中的对象，但它很难精确定位某些对象，特别是⼩对象。

⼆统⼀检测（Unified Detection）

我们将⽬标检测统⼀到⼀个神经⽹络。我们的⽹络使⽤整个图像中的特征来预测每个边界框。它也是同时预测图像的所有类的所有边界框。这意味着我们的⽹络学习到的完整图像和图中所有的对象.YOLO设计可实现端到端训练和实时的速度，同时保持较⾼的平均精度。

YOLO⾸先将图像分为S×S的格⼦。如果⼀个⽬标的中⼼落⼊格⼦，该格⼦就负责检测该⽬标。每⼀个⽹格中预测B个Bounding box和置信值（confidence score）。这些置信度分数反映了该模型对盒⼦是否包含⽬标的信⼼，以及它预测盒⼦的准确程度。然后，我们定义置信值为：

如果没有⽬标，置信值为零。另外，我们希望置信度分数等于预测框与真实值之间联合部分的交集（IOU）。

每⼀个bounding box包含5个值：x，y，w，h和confidence。（x，y）坐标表⽰边界框相对于⽹格单元边界框的中⼼。宽度和⾼度是相对于整张图像预测的。confidence表⽰预测的box与实际边界框之间的IOU。每个⽹格单元还预测C个条件类别概率：

这些概率是以⽹格包含⽬标为条件的，每个⽹格单元我们只预测的⼀组类别概率，⽽不管边界框的的数量B时多少。

在测试时，我们乘以条件类概率和单个盒⼦的置信度预测：

这些分数编码了该类出现在框中的概率以及预测框拟合⽬标的程度。。在PASCAL VOC数据集上评价时，我们采⽤S=7,B=2，C=20（该数

据集包含20个类别），最终预测结果为7×7×30(B*5+C)的tensor。

模型。我们的系统将检测建模为回归问题。它将图像分成SxS的⽹络，并且每个⽹格单元预测B个边界框，这些边界框的置信度以及C个类别概率，这些预测被编码为SxSx（B*5+C）的张量。

1、⽹络模型

我们使⽤卷积神经⽹络来实现YOLO算法，并在Pascal VOC检测数据集上进⾏评估。⽹络的初始卷积层从图像中提取特征，⽽全连接层⽤来预测输出概率和坐标。

我们的⽹络架构受到GoogLeNet图像分类模型的启发。我们的⽹络有24个卷积层，后⾯是2个全连接层。我们使⽤1x1降维层，后⾯是3x3卷积层，这与Lin等⼈类似，⽽不是GoogLeNet使⽤的Inception模块。我们在ImageNet分类任务上以⼀半的分辨率(224x224的输⼊图像）预训练卷积层，然后将分辨率加倍来进⾏检测。完整的⽹络如图所⽰。

架构。我们的检测⽹络有24个卷积层，其次是2个全连接层。交替1x1卷积层减少了前⾯层的特征空间。我们在ImageNet分类任务上以⼀半的分辨率(224x224的输⼊图像)预训练卷积层，然后将分辨率加倍来进⾏检测。

我们还训练了快速版本的YOLO，旨在推动快速⽬标检测的界限。快速YOLO使⽤具有较少卷积层（9层⽽不是24层）的神经⽹络，在这些层中使⽤较少的滤波器。除了⽹络规模之外，YOLO和Fast YOLO的所有训练和测试参数都是相同的。我们⽹络的最终输出是7x7x30的预测张量。

2、训练

我们在ImageNet 1000类竞赛数据集上预训练我们的卷积层。对于预训练，我们使⽤上图中的前20个卷积层，外加平均池化层和全连接层。我们对这个⽹络进⾏了⼤约⼀周的训练，并且在ImageNet 2012验证集上获得了单⼀裁剪图像88%的top-5准确率，与Caffe模型池中的GoogLeNet模型相当。我们使⽤Darknet框架进⾏所有的训练和推断。

然后我们转换模型来执⾏检测。Ren等⼈表明，预训练⽹络中增加卷积层和连接层可以提⾼性能。按照他们的例⼦，我们添加了四个卷积层和两个全连接层，并且具有随机初始化的权重。检测通常需要细粒度的视觉信息，因此我们将⽹络的输⼊分辨率从224x224变为448x448。我们的最后⼀层预测类概率和边界框坐标。我们通过图像宽度和⾼度来规范边界框的宽度和⾼度，使它们落在0和1之间。我们将边界框x和y坐标参数化为特定⽹格单元位置的偏移量，所以它们边界也在0和1之间。我们对最后⼀层使⽤线性激活函数，所有其它层使⽤下⾯的漏泄修正线性激活：

我们优化了模型输出中的平⽅和误差。我们使⽤平⽅和误差，因为它很容易进⾏优化，但是它并不完全符合我们最⼤化平均精度的⽬标。分类误差与定位误差的权重是⼀样的，这可能并不理想。另外，在每张图像中，许多⽹格单元不包含任何对象。这将这些单元格的“置信度”分数推向零，通常压倒了包含⽬标的单元格的梯度。这可能导致模型不稳定，从⽽导致训练早期发散。

为了改善这⼀点，我们增加了边界框坐标预测损失，并减少了不包含⽬标边界框的置信度预测损失。我们使⽤两个参数λcoord和λnoobj来完成这个⼯作。我们设置λcoord=5和λnoobj=5。

平⽅和误差也可以在⼤盒⼦和⼩盒⼦中同样加权误差。我们的错误指标应该反映出，⼤盒⼦⼩偏差的重要性不如⼩盒⼦⼩偏差的重要性。为了部分解决这个问题，我们直接预测边界框宽度和⾼度的平⽅根，⽽不是宽度和⾼度。

YOLO每个⽹格单元预测多个边界框。在训练时，每个⽬标我们只需要⼀个边界框预测器来负责。我们指定⼀个预测器“负责”，根据哪个预测与真实值之间具有当前最⾼的IOU来预测⽬标。这导致边界框预测器之间的专业化。每个预测器可以更好地预测特定⼤⼩，⽅向⾓，或⽬标的类别，从⽽改善整体召回率。

在训练期间，我们优化以下多部分损失函数：

其中1iobj表⽰⽬标是否出现在⽹格单元i中(是为1，否为0，根据该单元实际上是否有⽬标确定)，1ijobj表⽰⽹格单元i的第j个边界框预测器“负责”该预测(如果该单元真有⽬标，并且该边界框IOU最⼤，则值为1，否为0)。

注意，如果⽬标存在于该⽹格单元中（前⾯讨论的条件类别概率），则损失函数仅惩罚分类错误。如果预测器“负责”实际边界框（即该⽹格单元中具有最⾼IOU的预测器），则它也仅惩罚边界框坐标错误。

我们对Pascal VOC 2007和2012的训练和验证数据集进⾏了⼤约135个迭代周期的⽹络训练。在Pascal VOC 2012上进⾏测试时，我们的训练包含了Pascal VOC 2007的测试数据。在整个训练过程中，我们使⽤了个批⼤⼩，0.9的动量和0.0005的衰减。

我们的学习率⽅案如下：对于第⼀个迭代周期，我们慢慢地将学习率从0.001提⾼到0.01，如果我们从⾼学习率开始，我们的模型往往会由于不稳定的梯度⽽发散。我们继续以0.01的学习率训练75个迭代周期，然后⽤0.001学习率训练30个迭代周期，最后⽤0.0001的学习率训练30个迭代周期。

为了避免过度拟合，我们使⽤弃权和⼤量的数据增强。在第⼀个连接层之后，弃权层使⽤0.5的⽐例，防⽌层之间的互相适应。对于数据增强，我们引⼊⾼达原始图像20%的⼤⼩的随机缩放和转换。我们还在HSV⾊彩空间中使⽤⾼达1.5的因⼦来随机调整图像的曝光和饱和度。3、预测

就像在训练中⼀样，预测测试图像的检测只需要⼀次⽹络评估。在Pascal VOC上，每张图像上⽹络预测98个边界框和每个框的类别概率。YOLO在测试时⾮常快，因为它只需要⼀次⽹络评估，不像基于分类器的⽅法。

⽹格设计强化了边界框预测中的空间多样性。通常很明显⼀个⽬标落在哪⼀个⽹格单元中，⽽⽹络只能为每个⽬标预测⼀个边界框。然⽽，⼀些⼤的⽬标或靠近多个⽹格单元边界的⽬标可以被多个⽹格单元很好地定位。⾮极⼤值抑制可以⽤来修正这些多重检测。对于R-CNN或DPM⽽⾔，性能不是关键的，⾮最⼤抑制会增加2%-3%的mAP。4、YOLO的

YOLO的每⼀个⽹格只预测两个边界框，⼀种类别。这导致模型对相邻⽬标预测准确率下降。因此，YOLO对成队列的⽬标（如⼀群鸟）识别准确率较低。

由于我们的模型学习从数据中预测边界框，因此它很难泛化到新的、不常见⾓度的⽬标。我们的模型使⽤相对较粗糙的特征来预测边界框，因为我们的架构具有来⾃输⼊图像的多个下采样层。

YOLO的损失函数会同样的对待⼩边界框与⼤边界框的误差。⼤边界框的⼩误差通常是良性的，但⼩边界框的⼩误差对IOU的影响要⼤得多。我们的主要错误来源是不正确的定位。

三与其他⽬标检测算法对⽐

⽬标检测是计算机视觉中的核⼼问题。检测流程通常从输⼊图像上（Haar，SIFT ，HOG ，卷积特征）提取⼀组鲁棒特征开始。然后，分类器或定位器被⽤来识别特征空间中的⽬标。这些分类器或定位器在整个图像上或在图像中的⼀些⼦区域上以滑动窗⼝的⽅式运⾏。我们将YOLO检测系统与⼏种顶级检测框架进⾏⽐较，突出了关键的相似性和差异性。

可变形部件模型。可变形零件模型（DPM）使⽤滑动窗⼝⽅法进⾏⽬标检测。DPM使⽤不相交的流程来提取静态特征，对区域进⾏分类，预测⾼评分区域的边界框等。我们的系统⽤单个卷积神经⽹络替换所有这些不同的部分。⽹络同时进⾏特征提取，边界框预测，⾮极⼤值抑制和上下⽂推理。代替静态特征，⽹络内嵌地训练特征并为检测任务优化它们。我们的统⼀架构导致了⽐DPM更快，更准确的模型。

R-CNN。R-CNN及其变种使⽤区域提名⽽不是滑动窗⼝来查找图像中的⽬标。选择性搜索产⽣潜在的边界框，卷积⽹络提取特

征，SVM对边界框进⾏评分，线性模型调整边界框，⾮极⼤值抑制消除重复检测。这个复杂流程的每个阶段都必须独⽴地进⾏精确调整，所得到的系统⾮常慢，测试时每张图像需要超过40秒。

YOLO与R-CNN有⼀些相似之处。每个⽹格单元提出潜在的边界框并使⽤卷积特征对这些框进⾏评分。但是，我们的系统对⽹格单元提出进⾏了空间，这有助于缓解对同⼀⽬标的多次检测。我们的系统还提出了更少的边界框，每张图像只有98个，⽽选择性搜索则只有2000个左右。最后，我们的系统将这些单独的组件组合成⼀个单⼀的，共同优化的模型。

其它快速检测器。Fast和Faster的R-CNN通过共享计算和使⽤神经⽹络替代选择性搜索来提出区域加速R-CNN框架。虽然它们提供了⽐R-CNN更快的速度和更⾼的准确度，但两者仍然不能达到实时性能。

许多研究⼯作集中在加快DPM流程上。它们加速HOG计算，使⽤级联，并将计算推动到GPU上。但是，实际上只有30Hz的DPM可以实时运⾏。

YOLO不是试图优化⼤型检测流程的单个组件，⽽是完全抛弃流程，被设计为快速检测。

像⼈脸或⾏⼈等单类别的检测器可以⾼度优化，因为他们必须处理更少的变化。YOLO是⼀种通⽤的检测器，可以学习同时检测多个⽬标。

Deep MultiBox。与R-CNN不同，Szegedy等⼈训练了⼀个卷积神经⽹络来预测感兴趣区域，⽽不是使⽤选择性搜索。MultiBox还可以通过⽤单类预测替换置信度预测来执⾏单⽬标检测。然⽽，MultiBox⽆法执⾏通⽤的⽬标检测，并且仍然只是⼀个较⼤的检测流程中的⼀部分，需要进⼀步的图像块分类。YOLO和MultiBox都使⽤卷积⽹络来预测图像中的边界框，但是YOLO是⼀个完整的检测系统。OverFeat。Sermanet等⼈训练了⼀个卷积神经⽹络来执⾏定位，并使该定位器进⾏检测。OverFeat⾼效地执⾏滑动窗⼝检测，但它仍然是⼀个不相交的系统。OverFeat优化了定位，⽽不是检测性能。像DPM⼀样，定位器在进⾏预测时只能看到局部信息。OverFeat不能推断全局上下⽂，因此需要⼤量的后处理来产⽣连贯的检测。

MultiGrasp。我们的⼯作在设计上类似于Redmon等的抓取检测。我们对边界框预测的⽹格⽅法是基于MultiGrasp系统抓取的回归分析。然⽽，抓取检测⽐⽬标检测任务要简单得多。MultiGrasp只需要为包含⼀个⽬标的图像预测⼀个可以抓取的区域。不必估计⽬标的⼤⼩，位置或⽬标边界或预测⽬标的类别，只找到适合抓取的区域。YOLO预测图像中多个类别的多个⽬标的边界框和类别概率。

四实验

⾸先，我们在PASCAL VOC 2007上⽐较YOLO和其它的实时检测系统。为了理解YOLO和R-CNN变种之间的差异，我们探索了YOLO和R-CNN性能最⾼的版本之⼀Fast R-CNN在VOC 2007上错误率。根据不同的误差曲线，我们显⽰YOLO可以⽤来重新评估Fast R-CNN检测，并减少背景假阳性带来的错误，从⽽显著提升性能。我们还展⽰了在VOC 2012上的结果，并与⽬前最先进的⽅法⽐较了mAP。最后，在两个艺术品数据集上我们显⽰了YOLO可以⽐其它检测器更好地泛化到新领域。1、与其他实时系统的⽐较

⽬标检测⽅⾯的许多研究⼯作都集中在快速制定标准检测流程上。然⽽，只有Sadeghi等实际上产⽣了⼀个实时运⾏的检测系统（每秒30帧或更好）。我们将YOLO与DPM的GPU实现进⾏了⽐较，其在30Hz或100Hz下运⾏。虽然其它的努⼒没有达到实时性的⾥程碑，我们也⽐较了它们的相对mAP和速度来检查⽬标检测系统中精度——性能权衡。

Fast YOLO是PASCAL上最快的⽬标检测⽅法；据我们所知，它是现有的最快的⽬标检测器。具有52.7%mAP，实时检测的精度是以前⼯作的两倍以上。YOLO将mAP推到63.4%同时保持了实时性能。

我们还使⽤VGG-16训练YOLO。这个模型⽐YOLO更准确，但也⽐它慢得多。对于依赖于VGG-16的其它检测系统来说，它是⽐较有⽤的，但由于它⽐实时的YOLO更慢，本⽂的其它部分将重点放在我们更快的模型上。

Fastest DPM可以在不牺牲太多mAP的情况下有效地加速DPM，但仍然会将实时性能降低2倍。与神经⽹络⽅法相⽐，DPM相对低的检测精度也受到。

R-CNN Minus R⽤静态边界框提出取代选择性搜索。虽然速度⽐R-CNN更快，但仍然不能实时，并且由于没有好的边界框提出，准确

性受到了严重影响。

Fast R-CNN加快了R-CNN的分类阶段，但是仍然依赖选择性搜索，每张图像需要花费⼤约2秒来⽣成边界框提出。因此，它具有很⾼的mAP，但是0.5的fps仍离实时性很远。

Faster R-CNN⽤神经⽹络替代了选择性搜索来提出边界框，类似于Szegedy等。在我们的测试中，他们最精确的模型达到了7fps，⽽较⼩的，不太精确的模型以18fps运⾏。VGG-16版本的Faster R-CNN要⾼出10mAP，但⽐YOLO慢6倍。Zeiler-Fergus的Faster R-CNN只⽐YOLO慢了2.5倍，但也不太准确。

Pascal VOC 2007上的实时系统。⽐较快速检测器的性能和速度。快速YOLO是Pascal VOC检测记录中速度最快的检测器，其精度仍然是其它实时检测器的两倍。YOLO⽐快速版本更精确10mAP，同时在速度上仍保持实时性。2、VOC 2007错误率分析

为了进⼀步检查YOLO和最先进的检测器之间的差异，我们详细分析了VOC 2007的结果。我们将YOLO与Fast R-CNN进⾏⽐较，因为FastR-CNN是PASCAL上性能最⾼的检测器之⼀并且它的检测代码是可公开得到的。

我们使⽤Hoiem等⼈的⽅法和⼯具。对于测试时的每个类别，我们看这个类别的前N个预测。每个预测或者是正确的，或者根据错误类型进⾏分类：

Correct：正确的类别⽽且IOU>0.5

Localization：正确的类别,0.10.1Other：类别错误，IOU>0.1

Background：任何IOU<0.1的⽬标

下图显⽰了在所有的20个类别上每种错误类型平均值的分解图。

误差分析：Fast R-CNN vs. YOLO。这张图显⽰了各种类别的前N个预测中定位错误和背景错误的百分⽐（N = #表⽰⽬标在那个类别中）。YOLO努⼒地正确定位⽬标。定位错误占YOLO错误的⼤多数，⽐其它错误源加起来都多。Fast R-CNN使定位错误少得多，但背景错误更多。它的检测的13.6%是不包含任何⽬标的误报。Fast R-CNN⽐YOLO预测背景检测的可能性⾼出近3倍。3、结合Fast R-CNN和YOLO

YOLO⽐Fast R-CNN的背景误检要少得多。通过使⽤YOLO消除Fast R-CNN的背景检测，我们获得了显著的性能提升。对于R-CNN预测的每个边界框，我们检查YOLO是否预测⼀个类似的框。如果是这样，我们根据YOLO预测的概率和两个盒⼦之间的重叠来对这个预测进⾏提升。

最好的Fast R-CNN模型在VOC 2007测试集上达到了71.8%的mAP。当与YOLO结合时，其mAP增加了3.2%达到了75%，我们也尝试将最好的Fast R-CNN模型与其它⼏个版本的Fast R-CNN结合起来。这些模型组合产⽣了0.3%到0.6%之间的⼩增幅。

VOC 2007模型组合实验。我们检验了各种模型与Fast R-CNN最佳版本结合的效果。Fast R-CNN的其它版本只提供很⼩的好处，⽽YOLO则提供了显著的性能提升。

来⾃YOLO的提升不仅仅是模型组合的副产品，因为组合不同版本的Fast R-CNN⼏乎没有什么好处。相反，正是因为YOLO在测试时出现了各种各样的错误，所以在提⾼Fast R-CNN的性能⽅⾯⾮常有效。

遗憾的是，这个组合并没有从YOLO的速度中受益，因为我们分别运⾏每个模型，然后结合结果。但是，由于YOLO速度如此之快，与FastR-CNN相⽐，不会增加任何显著的计算时间。4、VOC 2012结果

在VOC 2012测试集上，YOLO得分为57.9%mAP,这低于现有的最新技术，接近于使⽤VGG-16的原始R-CNN，见表3。我们的系统与其最接近的竞争对⼿相⽐，在⼩⽬标上努⼒。在bottle，sheep和tv/monitor等类别上，YOLO的得分⽐R-CNN或Feature Edit低8%-10%，然⽽，在cat和train等其它类别上YOLO实现了更⾼的性能。

PASCAL VOC 2012排⾏榜。截⾄2015年11⽉6⽇，YOLO与完整comp4（允许外部数据）公开排⾏榜进⾏了⽐较。显⽰了各种检测⽅法的平均精度均值和每类的平均精度。YOLO是唯⼀的实时检测器。Fast R-CNN + YOLO是评分第四⾼的⽅法，⽐Fast R-CNN提升了2.3%。我们联合的Fast R-CNN + YOLO模型是性能最⾼的检测⽅法之⼀。Fast R-CNN从与YOLO的组合中获得了2.3%提⾼，在公开排⾏榜上上移了5位。

5、泛化能⼒，艺术品中的⾏⼈检测

⽤于⽬标检测的学术数据集以相同分布获取训练和测试数据。在现实世界的应⽤中，很难预测所有可能的⽤例，⽽且测试数据可能与系统之前看到的不同[3]。我们在Picasso数据集上和People-Art数据集上将YOLO与其它的检测系统进⾏⽐较，这两个数据集⽤于测试艺术品中的⾏⼈检测。

下图显⽰了YOLO和其它检测⽅法之间的⽐较性能。作为参考，我们在person上提供VOC 2007的检测AP，其中所有模型仅在VOC 2007数据上训练。在Picasso数据集上的模型在VOC 2012上训练，⽽People-Art数据集上的模型则在VOC 2010上训练。

Picasso和People-Art数据集上的泛化结果。

R-CNN在VOC 2007上有⾼AP。然⽽，当应⽤于艺术品时，R-CNN明显下降。R-CNN使⽤选择性搜索来调整⾃然图像的边界框提出。R-

CNN中的分类器步骤只能看到⼩区域，并且需要很好的边界框提出。

DPM在应⽤于艺术品时保持了其AP。之前的⼯作认为DPM表现良好，因为它具有⽬标形状和布局的强⼤空间模型。虽然DPM不会像R-CNN那样退化，但它开始时的AP较低。

YOLO在VOC 2007上有很好的性能，在应⽤于艺术品时其AP下降低于其它⽅法。像DPM⼀样，YOLO建模⽬标的⼤⼩和形状，以及⽬标和⽬标通常出现的位置之间的关系。艺术品和⾃然图像在像素级别上有很⼤不同，但是它们在⽬标的⼤⼩和形状⽅⾯是相似的，因此YOLO仍然可以预测好的边界框和检测结果。

定性结果。YOLO在⽹络采样的艺术品和⾃然图像上的运⾏结果。虽然它将⼈误检成了飞机，但它⼤部分上是准确的。

四实时⽬标检测

YOLO是⼀种快速，精确的⽬标检测器，⾮常适合计算机视觉应⽤。我们将YOLO连接到⽹络摄像头，并验证它是否能保持实时性能，包括从摄像头获取图像并显⽰检测结果的时间。

由此产⽣的系统是交互式和参与式的。虽然YOLO单独处理图像，但当连接到⽹络摄像头时，其功能类似于跟踪系统，可在⽬标移动和外观变化时检测⽬标。系统演⽰和源代码可以在项⽬⽹站上找到：。

五结论

我们介绍了YOLO，⼀种统⼀的⽬标检测模型。我们的模型构建简单，可以直接在整张图像上进⾏训练。与基于分类器的⽅法不同，YOLO直接在对应检测性能的损失函数上训练，并且整个模型联合训练。

快速YOLO是⽂献中最快的通⽤⽬的的⽬标检测器，YOLO推动了实时⽬标检测的最新技术。YOLO还很好地泛化到新领域，使其成为依赖快速，强⼤的⽬标检测应⽤的理想选择。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文