目標檢測_目標檢測概念

㈠文字檢測與目標檢測的區別

差異和亂培缺檢測任務。
1、差異。文字中彎檢查長寬比差異很大，而且普遍較小。目標檢測普遍大。
2、檢測任務。目標檢測不僅要解決定位問題，還要解決目標嘩辯分類問題，文本檢測無需對目標分類。並且文本形狀復雜多樣

㈡目標檢測概念

目標檢測的實質是多目標的定位，即要在圖片中定位多個目標物體。

例褲纖襪如下圖，既要定胡激位各個目標，還需要將不同目標用不同顏色的框表示。

1、目標檢測和識別的區別在於：

1)目標識別：圖像中描述的是哪個物體？

輸出：圖像中目標的位置和標簽豎納（名稱）。

例如：對於一幅圖像中的物體，在確定其類別的基礎上，進一步確定這個目標是誰(比如:小明，短腳貓等)

2）目標檢測：該目標在圖像中什麼位置？

輸出：圖像中有沒有目標。

例如：對於一幅圖像，確定圖像中目標的位置、大小以及類別(是哪一類:比如人，貓等)

2、目標檢測的最佳模型

3、目標識別方法

㈢目標檢測演算法經典論文回顧（一）

論文名稱：Rich feature hierarchies for accurate object detection and semantic segmentation

提出時間：2014年

論文地址：https://openaccess.thecvf.com/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

針對問題：

從Alexnet提出後，作者等人思考如何利用卷積網路來完成檢測任務，即輸入一張圖，實現圖上目標的定位（目標在哪）和分類（目標是什麼）兩個目標，並最終完成了RCNN網路模型。

創新點：

RCNN提出時，檢測網路的執行思路還是脫胎於分類網路。也就是深度學習部分僅完成輸入圖像塊的分類工作。那麼對檢測任務來說如何完成目標的定位呢，作者採用的是Selective Search候選區域提取演算法，來獲得當前輸入圖上可能包含目標的不同圖像塊，再將圖像塊祥談裁剪到固定的尺寸輸入CNN網路來進行當前圖像塊類別的判斷。

參考博客： https://blog.csdn.net/briblue/article/details/82012575。

論文題目：OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

提出時間：2014年

論文地址：https://arxiv.org/pdf/1312.6229.pdf

針對問題：

該論文討論了，CNN提取到的特徵能夠同時用於定位和分類兩個任務。也就是在CNN提取到特徵以後，在網路後端組織兩組卷積或全連接層，一組用於實現定位，輸出當前圖像上目標的最小外接矩形框坐標，一組用於分類，輸出當前圖像上目標的類別信息。也是以此為起點，檢測網路出現基礎主幹網路(backbone)+分類頭或回歸頭（定位頭）的網路設計模式雛形。

創新點：

在這篇論文中還有兩個比較有意思的點，一是作者認為全連接層其實質實現的操作和1x1的卷積是類似的，而且用1x1的卷積核還可以避免FC對輸入特徵尺寸的限制，那用1x1卷積來替換FC層，是否可行呢？作者在測試時通過將全連接層替換為1x1卷積核證明是可行的；二是提出了offset max-pooling，也就是對池化層輸入特徵不能整除的情況，通過進行滑動池化並將不同的池化層傳遞給後續網路層來提高效果。另外作者在論文里提到他的用法是先基於主幹網路+分類頭訓練，然後切換分類頭為回歸頭，再訓練回歸頭的參數，最終完成整個網路的訓練。圖像的輸入作者採用的是直接在輸入圖上利用卷積核劃窗。然後在指定的每個網路層上回歸目標的尺度和空間位置。

參考博客：升帆 https://blog.csdn.net/qq_35732097/article/details/79027095

論文題目：Scalable Object Detection using Deep Neural Networks

提出時間：2014年

論文地址：https://openaccess.thecvf.com/content_cvpr_2014/papers/Erhan_Scalable_Object_Detection_2014_CVPR_paper.pdf

針對問題：

既然CNN網路提取的特徵可以直接用於檢測任務（定位+分類），作者就嘗試將目標框（可能包含目標的最小外包矩形框）提取任務放到CNN中進行。也就是直接通過網路完成輸入圖像上目標的定位工作。

創新點：

本文作者通過將物體檢測問題定義為輸出多個bounding box的回歸問題. 同時每個bounding box會輸出關於是否包含目標物體的置信度, 使得模型更加緊湊和高效。先通過聚類獲得圖像中可能有目標的位置聚類中心，（800個anchor box）然後吵宴雹學習預測不考慮目標類別的二分類網路，背景or前景。用到了多尺度下的檢測。

參考博客： https://blog.csdn.net/m0_45962052/article/details/104845125

論文題目：DeepBox: Learning Objectness with Convolutional Networks

提出時間：2015年ICCV

論文地址：https://openaccess.thecvf.com/content_iccv_2015/papers/Kuo_DeepBox_Learning_Objectness_ICCV_2015_paper.pdf

主要針對的問題：

本文完成的工作與第三篇類似，都是對目標框提取演算法的優化方案，區別是本文首先採用自底而上的方案來提取圖像上的疑似目標框，然後再利用CNN網路提取特徵對目標框進行是否為前景區域的排序；而第三篇為直接利用CNN網路來回歸圖像上可能的目標位置。

創新點：

本文作者想通過CNN學習輸入圖像的特徵，從而實現對輸入網路目標框是否為真實目標的情況進行計算，量化每個輸入框的包含目標的可能性值。

參考博客： https://www.cnblogs.com/zjutzz/p/8232740.html

論文題目：AttentionNet: AggregatingWeak Directions for Accurate Object Detection

提出時間：2015年ICCV

論文地址：https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Yoo_AttentionNet_Aggregating_Weak_ICCV_2015_paper.pdf

主要針對的問題：

對檢測網路的實現方案進行思考，之前的執行策略是，先確定輸入圖像中可能包含目標位置的矩形框，再對每個矩形框進行分類和回歸從而確定目標的准確位置，參考RCNN。那麼能否直接利用回歸的思路從圖像的四個角點，逐漸得到目標的最小外接矩形框和類別呢？

創新點：

通過從圖像的四個角點，逐步迭代的方式，每次計算一個縮小的方向，並縮小指定的距離來使得逐漸逼近目標。作者還提出了針對多目標情況的處理方式。

參考博客： https://blog.csdn.net/m0_45962052/article/details/104945913

論文題目：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

提出時間：2014年

論文地址：https://link.springer.com/content/pdf/10.1007/978-3-319-10578-9_23.pdf

針對問題：

如RCNN會將輸入的目標圖像塊處理到同一尺寸再輸入進CNN網路，在處理過程中就造成了圖像塊信息的損失。在實際的場景中，輸入網路的目標尺寸很難統一，而網路最後的全連接層又要求輸入的特徵信息為統一維度的向量。作者就嘗試進行不同尺寸CNN網路提取到的特徵維度進行統一。

創新點：

作者提出的SPPnet中，通過使用特徵金字塔池化來使得最後的卷積層輸出結果可以統一到全連接層需要的尺寸，在訓練的時候，池化的操作還是通過滑動窗口完成的，池化的核寬高及步長通過當前層的特徵圖的寬高計算得到。原論文中的特徵金字塔池化操作圖示如下。

參考博客：https://blog.csdn.net/weixin_43624538/article/details/87966601

論文題目：Object detection via a multi-region & semantic segmentation-aware CNN model

提出時間：2015年

論文地址：https://openaccess.thecvf.com/content_iccv_2015/papers/Gidaris_Object_Detection_via_ICCV_2015_paper.pdf

針對問題：

既然第三篇論文multibox演算法提出了可以用CNN來實現輸入圖像中待檢測目標的定位，本文作者就嘗試增加一些訓練時的方法技巧來提高CNN網路最終的定位精度。

創新點：

作者通過對輸入網路的region進行一定的處理（通過數據增強，使得網路利用目標周圍的上下文信息得到更精準的目標框）來增加網路對目標回歸框的精度。具體的處理方式包括：擴大輸入目標的標簽包圍框、取輸入目標的標簽中包圍框的一部分等並對不同區域分別回歸位置，使得網路對目標的邊界更加敏感。這種操作豐富了輸入目標的多樣性，從而提高了回歸框的精度。

參考博客：https://blog.csdn.net/alfred_torres/article/details/83022967

論文題目：Fast-RCNN

提出時間：2015年

論文地址：https://openaccess.thecvf.com/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf

針對問題：

RCNN中的CNN每輸入一個圖像塊就要執行一次前向計算，這顯然是非常耗時的，那麼如何優化這部分呢？

創新點：

作者參考了SPPNet（第六篇論文），在網路中實現了ROIpooling來使得輸入的圖像塊不用裁剪到統一尺寸，從而避免了輸入的信息丟失。其次是將整張圖輸入網路得到特徵圖，再將原圖上用Selective Search演算法得到的目標框映射到特徵圖上，避免了特徵的重復提取。

參考博客：https://blog.csdn.net/u014380165/article/details/72851319

論文題目：DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers

提出時間：2015年

論文地址：https://openaccess.thecvf.com/content_iccv_2015/papers/Ghodrati_DeepProposal_Hunting_Objects_ICCV_2015_paper.pdf

主要針對的問題：

本文的作者觀察到CNN可以提取到很棒的對輸入圖像進行表徵的論文，作者嘗試通過實驗來對CNN網路不同層所產生的特徵的作用和情況進行討論和解析。

創新點：

作者在不同的激活層上以滑動窗口的方式生成了假設，並表明最終的卷積層可以以較高的查全率找到感興趣的對象，但是由於特徵圖的粗糙性，定位性很差。相反，網路的第一層可以更好地定位感興趣的對象，但召回率降低。

論文題目：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

提出時間：2015年NIPS

論文地址：https://proceedings.neurips.cc/paper/2015/file/-Paper.pdf

主要針對的問題：

由multibox（第三篇）和DeepBox（第四篇）等論文，我們知道，用CNN可以生成目標待檢測框，並判定當前框為目標的概率，那能否將該模型整合到目標檢測的模型中，從而實現真正輸入端為圖像，輸出為最終檢測結果的，全部依賴CNN完成的檢測系統呢？

創新點：

將當前輸入圖目標框提取整合到了檢測網路中，依賴一個小的目標框提取網路RPN來替代Selective Search演算法，從而實現真正的端到端檢測演算法。

參考博客：https://zhuanlan.hu.com/p/31426458

㈣目標檢測

什麼是目標檢測？

我們先來看一張圖片

我相信大家看完這張圖片已經知道什麼是目標檢測了

目標檢查有什麼用呢？

目標檢測可以用於標注物體，就像上圖一樣dog是dog，car是car有了它就能很好的將物體從一張圖片中將他們分類出來。

在實際生活中它我還知道它現在用於闖紅燈的車輛檢測，它會把闖紅燈的帶物車牌給記錄下來，還會用於。並且運用在了無人駕駛的技術上。

此外應該還有很實際的多用處。

如何實現目標檢測？

1、區域選擇

傳統的方法是窮舉法，仔細想想我們給計算機一張圖片它不知道目標在哪兒，也不知道目標有多大，於是就事先給定一個范圍然後在這張圖片上按照這個給定的尺寸一行一行一列一列的去找，如果沒有找到又要從新更改給定的尺寸一直這樣循環。這個就是窮舉法，窮舉法耗時耗力，影響程序運行效率。

那麼有沒有解決的辦法呢？答案是肯定有的。

2、特徵提取

特團行液征提取就是把圖片中物體的特徵提取出來，比如人類的特徵就有很多會穿衣服啊、直立行走啊、有的人近視眼還會戴眼鏡啊，使用神經網路可以有效的提取出比較優秀的特徵出來，。

3、分類器

分類器就是根據提取出來的特徵進行分類，比如區分綠葉和花朵，它們的特徵就有一項非常不一樣，那就是它們的顏色一個是綠色一個常常是鮮艷的顏色，假設只塌物是分類綠葉和花朵的話，那麼只需要區分他們的顏色就好了。

㈤目標檢測演算法是什麼

目標檢測演算法是先通過訓練集學習一個分類器，然後在測試圖像中悄銷者以不同scale的窗口滑動掃描整個圖像；每次掃描做一下分類，判斷一下當前的這個窗口是否為要檢測的目標。檢測演算法的核心是分類，分類的核心一個是用什麼特徵，一個是用哪種分類器。

(5)目標檢測擴展閱讀：

目標檢測演算法可以分為：

1、背景建模法，包含時間平均模型、混合高斯模型、動態紋理背景、PCA模型、時一空聯合分布背景模型

2、點檢測法，包含Moravec檢測器、Harris檢測器、仿射不鬥陪變點檢測、S IFT

3、圖像分割法，包含Mean Shift方法、Graph-cut方法、Active Contours方法

4、聚類分析法，包含支持向量機、神經網路、Adaptive Boosting

5、運動矢量場啟薯法，包含基於運動矢量場的方法

㈥圖像分割和目標檢測哪個難

目標檢測要難一點薯絕。目標檢測是圖像中的目標檢測涉及識別各種子圖像並且圍繞每個識別的子數毀姿圖像余鋒周圍繪制一個邊界框，與圖像分割相比，這個問題要復雜一點。

㈦目標檢測和背景檢測的區別

1、目標檢測是計算機視覺領域的傳統任務，與圖像識別不同。
2、目標檢測任務是找出圖像或李基視頻中人們感興氏搭趣的物體，並同時檢測出它們的位置和大小。
3、背景目標檢測是計殲擾拿算機視覺和數字圖像處理的一個熱門方向，廣泛應用於諸多領域，有重要的意義。

㈧使用 YOLO v5 進行目標檢測

在這篇文章中，我們將使用來自 AWS 上的 COCO 數據集（可定製）的圖像設置和運行 YOLO。

一般來說，分類技術在自動駕駛汽車中沒有多大幫助，因為它只預測圖像中的一個對象，並且不給出該圖像的位置。而目標檢測在自動駕駛汽車中非常重要，可以檢測場景中的對象及其位置。 YOLO（你只看一次）是由 Joseph Redmon 等人創建的一種高速實時對象檢測演算法。 YOLO使用卷積神經網路 (CNN)解決概率的回歸問題。後來又進行了一些修改。為了進行預測，YOLO 只需要通過 CNN 進行一次前向傳播。它輸出具有相應邊界框的對轎羨姿象。它廣泛用於自動駕駛汽車以檢測場景中的物體。

第 1 步：設置帳戶（這步可以跳過）

登錄wandb.ai網站並復制以下內容：

來自 wandb.ai/authorize 的 API 密鑰
wandb.ai/settings 中的團隊名稱。默認團派亂隊名稱將是用戶 ID。

第 2 步：創建 AWS 實例（如果你在本機訓練這步也可以跳過）

在閉絕創建實例時，選擇「Deep Learning AMI (Ubuntu 18.04) Version 47.0 — ami-01f1096e6659d38fa」AMI，因為它具有深度學習任務所需的庫。如果我們在「選擇AWS機器映像 (AMI)」步驟中搜索「deep learning」，我們可以找到這。為「實例類型」選擇 P3 實例。實例類型 p3.2xlarge（V100）就足夠了。為了節省成本，請在「配置實例」步驟下選擇 Spot 實例。

第 3 步：安裝依賴項

登錄 AWS 實例後，使用以下命令創建 conda 環境並設置 Weights & Bias 環境變數：

第 4 步：訓練、驗證和測試

第 5 步：檢查指標

驗證集真實標簽

驗證集預測標簽

訓練的損失

測試

以上所有結果都會保存在文件夾yolov5runsdetectexp下

㈨經典目標檢測演算法介紹

姓名：牛曉銀；學號：20181213993；學院：計算機科學與技術

轉自：https://zhuanlan.hu.com/p/34142321

【嵌牛導讀】：目標檢測，也叫目標提取，是一種基於目標幾何和統計特徵的圖像分割。隨著計算機技術的發展和計算機視覺原理的廣泛應用，利用計算機圖像處理技術對目標進行實時跟蹤研究越來越熱門，對目標進行動態實時跟蹤定位在智能化交通系統、軍事目標檢測及醫學導航手術中手術器械定位等方面具有廣泛的應用價值。

【嵌牛鼻子】：目標檢測、檢測模型、計算機視覺

【嵌牛提問】：你知道或者用過哪些目標檢測演算法？

【嵌牛正文】：

（一）目標檢測經典工作回顧

本文結構

兩階段模型因其對圖片的兩階段處理得名，也稱為基於區域（Region-based）的方法，我們選取R-CNN系列工作作為這一類型的代表。圓頌中

R-CNN: R-CNN系列的開山之作

論文鏈接： Rich feature hierarchies for accurate object detection and semantic segmentation

本文的兩大貢獻：1）CNN可用於基於區域的定位和分割物體；2）監督訓練樣本數緊缺時，在額外的數據上預訓練的模型經過fine-tuning可以取得很好的效果。第一個貢獻影響了之後幾乎所有2-stage方法，而第二個貢獻中用分類任務（Imagenet）中訓練好的模型作為基網路，在檢測問題上fine-tuning的做法也在之後的工作中一直沿用。

傳統的計算機視覺方法常用精心設計的手工特徵(如SIFT, HOG)描述圖像，而深度學習的方法則倡導習得特徵，從圖像分類任務的經驗來看，CNN網路自動習得的特徵取得的效果已經超出了手工設計的特徵。本篇在局部區域應用卷積網路，以發揮卷積網路學習高質量特徵的能力。

R-CNN將檢測抽象為兩個過程，一是基於圖片提出若干可能包含物體的區域（即圖片的局部裁剪，被稱為Region Proposal），文中使用的是Selective Search演算法；二是在提出的這些區橘山域上運行當時表現最好的分類網路（AlexNet），得到每個區域內物體的類別。

另外，文章中的兩個做法值得注意。

一是數據的准備。輸入CNN前，我們需要根據Ground Truth對提出的Region Proposal進行標記，這里使用的指標是IoU（Intersection over Union，交並比）。IoU計算了兩個區域之交的面積跟它們之並的比，描述了兩個區域的重合程度。

文章中特別提到，櫻隱IoU閾值的選擇對結果影響顯著，這里要談兩個threshold，一個用來識別正樣本（如跟ground truth的IoU大於0.5），另一個用來標記負樣本（即背景類，如IoU小於0.1），而介於兩者之間的則為難例（Hard Negatives），若標為正類，則包含了過多的背景信息，反之又包含了要檢測物體的特徵，因而這些Proposal便被忽略掉。

另一點是位置坐標的回歸（Bounding-Box Regression），這一過程是Region Proposal向Ground Truth調整，實現時加入了log/exp變換來使損失保持在合理的量級上，可以看做一種標准化（Normalization)操作。

小結

R-CNN的想法直接明了，即將檢測任務轉化為區域上的分類任務，是深度學習方法在檢測任務上的試水。模型本身存在的問題也很多，如需要訓練三個不同的模型（proposal, classification, regression）、重復計算過多導致的性能問題等。盡管如此，這篇論文的很多做法仍然廣泛地影響著檢測任務上的深度模型革命，後續的很多工作也都是針對改進這一工作而展開，此篇可以稱得上"The First Paper"。

Fast R-CNN: 共享卷積運算

論文鏈接： Fast R-CNN

文章指出R-CNN耗時的原因是CNN是在每一個Proposal上單獨進行的，沒有共享計算，便提出將基礎網路在圖片整體上運行完畢後，再傳入R-CNN子網路，共享了大部分計算，故有Fast之名。

上圖是Fast R-CNN的架構。圖片經過feature extractor得到feature map, 同時在原圖上運行Selective Search演算法並將RoI（Region of Interset，實為坐標組，可與Region Proposal混用）映射到到feature map上，再對每個RoI進行RoI Pooling操作便得到等長的feature vector，將這些得到的feature vector進行正負樣本的整理（保持一定的正負樣本比例），分batch傳入並行的R-CNN子網路，同時進行分類和回歸，並將兩者的損失統一起來。

RoI Pooling 是對輸入R-CNN子網路的數據進行准備的關鍵操作。我們得到的區域常常有不同的大小，在映射到feature map上之後，會得到不同大小的特徵張量。RoI Pooling先將RoI等分成目標個數的網格，再在每個網格上進行max pooling，就得到等長的RoI feature vector。

文章最後的討論也有一定的借鑒意義：

multi-loss traing相比單獨訓練classification確有提升

multi-scale相比single-scale精度略有提升，但帶來的時間開銷更大。一定程度上說明CNN結構可以內在地學習尺度不變性

在更多的數據(VOC)上訓練後，精度是有進一步提升的

Softmax分類器比"one vs rest"型的SVM表現略好，引入了類間的競爭

更多的Proposal並不一定帶來精度的提升

小結

Fast R-CNN的這一結構正是檢測任務主流2-stage方法所採用的元結構的雛形。文章將Proposal, Feature Extractor, Object Classification&Localization統一在一個整體的結構中，並通過共享卷積計算提高特徵利用效率，是最有貢獻的地方。

Faster R-CNN: 兩階段模型的深度化

論文鏈接： Faster R-CNN: Towards Real Time Object Detection with Region Proposal Networks

Faster R-CNN是2-stage方法的奠基性工作，提出的RPN網路取代Selective Search演算法使得檢測任務可以由神經網路端到端地完成。粗略的講，Faster R-CNN = RPN + Fast R-CNN，跟RCNN共享卷積計算的特性使得RPN引入的計算量很小，使得Faster R-CNN可以在單個GPU上以5fps的速度運行，而在精度方面達到SOTA（State of the Art，當前最佳）。

本文的主要貢獻是提出Regional Proposal Networks，替代之前的SS演算法。RPN網路將Proposal這一任務建模為二分類（是否為物體）的問題。

第一步是在一個滑動窗口上生成不同大小和長寬比例的anchor box（如上圖右邊部分），取定IoU的閾值，按Ground Truth標定這些anchor box的正負。於是，傳入RPN網路的樣本數據被整理為anchor box（坐標）和每個anchor box是否有物體（二分類標簽）。RPN網路將每個樣本映射為一個概率值和四個坐標值，概率值反應這個anchor box有物體的概率，四個坐標值用於回歸定義物體的位置。最後將二分類和坐標回歸的損失統一起來，作為RPN網路的目標訓練。

由RPN得到Region Proposal在根據概率值篩選後經過類似的標記過程，被傳入R-CNN子網路，進行多分類和坐標回歸，同樣用多任務損失將二者的損失聯合。

小結

Faster R-CNN的成功之處在於用RPN網路完成了檢測任務的"深度化"。使用滑動窗口生成anchor box的思想也在後來的工作中越來越多地被採用（YOLO v2等）。這項工作奠定了"RPN+RCNN"的兩階段方法元結構，影響了大部分後續工作。

單階段（1-stage）檢測模型

單階段模型沒有中間的區域檢出過程，直接從圖片獲得預測結果，也被成為Region-free方法。

YOLO

論文鏈接： You Only Look Once: Unified, Real-Time Object Detection

YOLO是單階段方法的開山之作。它將檢測任務表述成一個統一的、端到端的回歸問題，並且以只處理一次圖片同時得到位置和分類而得名。

YOLO的主要優點：

快。

全局處理使得背景錯誤相對少，相比基於局部（區域）的方法，如Fast RCNN。

泛化性能好，在藝術作品上做檢測時，YOLO表現比Fast R-CNN好。

YOLO的工作流程如下：

1.准備數據：將圖片縮放，劃分為等分的網格，每個網格按跟Ground Truth的IoU分配到所要預測的樣本。

2.卷積網路：由GoogLeNet更改而來，每個網格對每個類別預測一個條件概率值，並在網格基礎上生成B個box，每個box預測五個回歸值，四個表徵位置，第五個表徵這個box含有物體（注意不是某一類物體）的概率和位置的准確程度（由IoU表示）。測試時，分數如下計算：

等式左邊第一項由網格預測，後兩項由每個box預測，以條件概率的方式得到每個box含有不同類別物體的分數。因而，卷積網路共輸出的預測值個數為S×S×(B×5+C)，其中S為網格數，B為每個網格生成box個數，C為類別數。

3.後處理：使用NMS（Non-Maximum Suppression，非極大抑制）過濾得到最後的預測框

損失函數的設計

損失函數被分為三部分：坐標誤差、物體誤差、類別誤差。為了平衡類別不均衡和大小物體等帶來的影響，損失函數中添加了權重並將長寬取根號。

小結

YOLO提出了單階段的新思路，相比兩階段方法，其速度優勢明顯，實時的特性令人印象深刻。但YOLO本身也存在一些問題，如劃分網格較為粗糙，每個網格生成的box個數等限制了對小尺度物體和相近物體的檢測。

SSD: Single Shot Multibox Detector

論文鏈接： SSD: Single Shot Multibox Detector

SSD相比YOLO有以下突出的特點：

多尺度的feature map：基於VGG的不同卷積段，輸出feature map到回歸器中。這一點試圖提升小物體的檢測精度。

更多的anchor box，每個網格點生成不同大小和長寬比例的box，並將類別預測概率基於box預測（YOLO是在網格上），得到的輸出值個數為(C+4)×k×m×n，其中C為類別數，k為box個數，m×n為feature map的大小。

小結

SSD是單階段模型早期的集大成者，達到跟接近兩階段模型精度的同時，擁有比兩階段模型快一個數量級的速度。後續的單階段模型工作大多基於SSD改進展開。

檢測模型基本特點

最後，我們對檢測模型的基本特徵做一個簡單的歸納。

檢測模型整體上由基礎網路（Backbone Network）和檢測頭部（Detection Head）構成。前者作為特徵提取器，給出圖像不同大小、不同抽象層次的表示；後者則依據這些表示和監督信息學習類別和位置關聯。檢測頭部負責的類別預測和位置回歸兩個任務常常是並行進行的，構成多任務的損失進行聯合訓練。

相比單階段，兩階段檢測模型通常含有一個串列的頭部結構，即完成前背景分類和回歸後，把中間結果作為RCNN頭部的輸入再進行一次多分類和位置回歸。這種設計帶來了一些優點：

對檢測任務的解構，先進行前背景的分類，再進行物體的分類，這種解構使得監督信息在不同階段對網路參數的學習進行指導

RPN網路為RCNN網路提供良好的先驗，並有機會整理樣本的比例，減輕RCNN網路的學習負擔

這種設計的缺點也很明顯：中間結果常常帶來空間開銷，而串列的方式也使得推斷速度無法跟單階段相比；級聯的位置回歸則會導致RCNN部分的重復計算（如兩個RoI有重疊）。

另一方面，單階段模型只有一次類別預測和位置回歸，卷積運算的共享程度更高，擁有更快的速度和更小的內存佔用。讀者將會在接下來的文章中看到，兩種類型的模型也在互相吸收彼此的優點，這也使得兩者的界限更為模糊。

導航:首頁 > 股票交流 > 目標檢測

目標檢測

與目標檢測相關的資料