Deep Learning::Detecção de Objetos em Imagens

detection
Redes para detecção e localização de objetos em cenas

Detecção de Objetos & Segmentação Baseada em Regiões

class (3)

Estes são modelos de redes neurais que servem tanto para (a) identificar objetos e como (b) a região onde os objetos se encontram.  Tipicamente a saída dessas redes é um casco convexo retangular (bounding box) que registra a região de maior confiança da presença do objeto detectado (vide imagem do campus da UFSC no topo desta página). Estas redes podem ser utilizadas tanto para

  • detecção de objetos em imagens como para
  • identificação grosseira de seu número e sua localização.

Nesse snetido essas redes, por localizarem um objeto e permitirem, através do bounding box, a realização da segmentação da subimagem onde o objeto de interesse se encontra,  podem ser classificadas tanto como redes de reconhecimento de objetos como redes de segmentação de objetos. Nesta disciplina nós vamos tratá-las como redes de identificação de objetos com concomitante localização do obejto na cena, não as considerando redes de segmentação.

Existem duas variantes principais dessas redes:

  • Classificadores de regiões associados a extratores de características baseados em CNN: R-CNN, Faster-R-CNN, etc
  • Redes neurais convolucionais de disparo único para econhecimento de objetos: YOLO, etc

Esta é uma área que cresceu muito nos últimos anos. A figura abaixo provê uma visão geral da quantidade de novos modelos de redes neurais que foram desenvolvidos, classificando-as por anos de publicação e por conferência em que foram apresnetadas pela primeira vez:

redes-de-regiao

Classificadores de Regiões associados a Extratores de Características baseados em CNN

Vamos prover uma breve revisão histórica dos modelos.

O problema da Detecção de Objetos em CNN

A diferença entre métodos de classificação de objetos (como as redes da seção anterior) e métodos de detecção de objetos, é que na detecção de objetos você deseja:

  • identificar quantos objetos de uma determinada categoria se encontram na imagem;
  • identificar onde na imagem cada objeto se encontra.

Tipicamente não se sabe de antemão quantas instâncias de uma determinada categoria de objeto você vai identificar em uma cena. Se você fosse construir uma CNN padrão para resolver este problema, você acabaria com a seguinte situação: o tamanho da saída é variável e depende de quantas instâncias de um objeto você vai encontrar e onde estão, o que não é possível em uma rede com uma camada de saída de tamanho fixo. Para isso foram desenvolvidos modelos como R-CNN e YOLO.

R-CNN: Regions with CNN feature

R-CNN

R-CNN executa segmentação com base nos resultados da detecção de objetos.  R-CNN inicialmente usa busca seletiva para extrair uma grande quantidade de candidatos e então calcula as características para cada um deles através de CNN. Por fim classifica cada região usando um classificador linear específico, geralmente SVM (suport vector machines). Ao contrário das redes discutidas na seção anterior, R-CNN é capaz de executar tarefas mais complexas, como detecção de objetos e segmentação grosseira de imagens. Uma R-CNN pode ser construída sobre qualquer das redes de classificação de imagens tradicionais, como  AlexNet, VGG, GoogLeNet e ResNet.

R-CNN resolve o problema das múltiplas saídas usando uma Busca Seletiva da seguinte forma:

1. Generate initial sub-segmentation, we generate many candidate regions
2. Use greedy algorithm to recursively combine similar regions into larger ones 
3. Use the generated regions to produce the final candidate region proposals

R-CNN gera inicialmente em torno de 2000 candidatos usando o algoritmo acima, que é baseado em técnicas simples de visão computacional tradicional. A partir daí:

  1. Cada candidato é reformatado para uma imagem quadrada de tamanho padrão;
  2. Imagem é alimentada a uma rede neural que gera vetores de características de 4096 dimensões como saída;
  3. Uma SVM classifica o vetor de características produzindo duas saídas:
    1. uma classificação
    2. uma indicação de desvio (offset) que pode ser usada para ajustar o bounding box.

R-CNN2

Desvantagens do modelo:

  1. Lento para treinar: o treino é em dois estágios;
  2. Lentíssimo para executar: para cada imagem a R-CNN primeiramente classifica 2000 subimagens.

Links

Fast-R-CNN: Fast Region-based Convolutional Networks for object detection

Fast-R-CNN

Em um artigo no ano seguinte, os autores da R-CNN apresentaram uma solução que resolve os problemas de lentidão do enfoque baseado na análise de 2000 imagens semi-randômicas do R-CNN: preprocessamento convolucional.

Ao invés de alimentar a rede neural com imagens-candidatas, a imagem inteira é alimentada à rede para a geração de um mapa de caracterísiticas convolucionais (CFM – convolutional feature map). Este CFM é então usado para a busca por regiões-candidatas, que são reformatadas em imagens quadradas de tamanho fixo através de uma camada de pooling de região de interesse (RoI pooling). A partir do vetor de características gerado para cada RoI é realizada uma classificação com uma camada softmax, que prediz a categoria do objeto e a associa ao bounding box dado pelo quadrado de origem.

O gráfico abaixo mostra uma comparação entre os dois enfoques e uma outra rede da mesma época, a SPP-Net (Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition):

Fast-R-CNN2

Links

Faster-R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Faster-R-CNN1

Uma solução encontrada, novamente parcialmente pelos mesmos autores, para tornar a rede ainda mais rápida, foi eliminar a busca seletiva por regiões de interesse. Similarmente à Fast R-CNN,  a imagem é usada diretamente como entrada para gerar um mapa de características convolucional. Neste modelo, porém, ao invés de realizar uma busca seletiva sobre este mapa, uma segunda rede neural, separada, é usada para predizer regiões candidatas. É chamada de Region Proposal Network (RPN). RPN usa uma mini-rede neural baseada em uma janela deslizante que analisa a imagem de entrada e é invariante a translação. Para evitar excesso de propostas, supressão de não-máximos é realizada já neste estágio.

Essas regiões-candidatas, da mesma forma que no Fast-R-CNN, são reformatadas em imagens quadradas de tamanho fixo através de uma camada de pooling de região de interesse (RoI pooling). A partir do vetor de características gerado para cada RoI é realizada uma classificação com uma camada softmax, que prediz a categoria do objeto e a associa ao bounding box dado pelo quadrado de origem.

A imagem abaixo mostra uma comparação entre os três modelos dos autores e a SPP-Net:

Faster-R-CNN2

Links

Redes Neurais Convolucionais de Disparo Único (SDingle Shot Detection) para Reconhecimento de Objetos

Os enfoques acima usam foco em sub-regiões da imagem para identificar objetos. A rede nunca olha para a imagem como um todo. Aqui vamos ver enfoques que consideram a imagem como um todo.

You Only Look Once: YOLO

yolo2

Em YOLO uma única rede convolucional prediz tanto os bounding boxes quanto as probabilidades de pertinencia a classe de cada objeto detectado.  Para isso, YOLO funciona da seguinte forma:

  1. toma-se uma imagem e divide-se-a em um grid SxS de células;
  2. usando o grid como referência, gera-se m bounding boxes;
  3. bounding boxes com probabilidade acima de um limiar são selecionados e usados para localizar o objeto dentro da imagem.

YOLO muito mais rápido (45 fps no set dos autores -> até duas ordens de grandeza)  mais rápido do que algoritmos contemporâneos. Sua maior falha é inacurácia com objetos pequenos na imagem.

Cada célula do grid é usada para predizer B bounding boxes (bbox) e C probabilidades de classe. Uma predição de bbox possui 5 componentes: (x, y, w, h, confiança). As coordenadas (x, y) representam o centro do bbox relativo à localização da célula (se o centro de um bbox não cair em uma célula ela não será responsável por ele e não vai representá-lo -> células só possuem uma referência a objetos cujo centro cair dentro delas). Essa coordenadas são normalizadas para [0, 1]. As dimensões do bbox (w, h) também são normalizadas para [0, 1], relativamente ao tamanho da imagem.

Suponha que você dividiu uma imagem de 448×448 pixels em um grid de SxS = 3×3 células:

yolo3

Em YOLO, o conceito de interseção sobre união (IoU) tem um papel importante: a confiança de uma predição em YOLO é dada por: Pr(Object) * IOU(pred, truth).

Links:

YOLO.V2 (YOLO 9000)

YOLO.V2 (YOLO 9000) em Keras (YAD2K)

  1. Satya Mallick: Deep Learning based Object Detection using YOLOv3 with OpenCV | Learn OpenCV
  2. GitHub:: Deep-Learning-for-Tracking-and-Detection – Collection of papers and other resources for object detection and tracking using deep learning
  3. YOLO: Real-Time Object Detection
  4. YOLO: ImageNet Classification
  5. Video: YOLO Live
  6. Hackernoon: Understanding YOLO
  7. Medium: What do we learn from single shot object detectors (SSD, YOLOv3), FPN & Focal loss (RetinaNet)?
  8. Towards Data Science: Deep Learning for Object Detection: A Comprehensive Review  (uma repetição, sob outra ótica, do que eu falei a acima e na próxima seção)

Usando YOLO com Keras

Muitas implementações de YOLO que encontramos por aí são baseadas em DNN (OpenCV) ou DLib (C++). Abaixo há algumas implementações de YOLO.V2 e YOLO.V3 construídas sobre Python e Keras:

  1. YOLO.V3:
    1. A Keras implementation of YOLOv3 (Tensorflow backend)
    2. Código do Artigo acima no Keras Model Zoo
    3. YOLO3 (Detection, Training, and Evaluation) (postado por Huynh Ngoc Anh/experiencor)
    4. YOLOv3 – Keras(TF backend) implementation of yolo v3 objects detection (postado por Larry Xiaochus)
  2. YOLO.V2:
    1. YAD2K: Yet Another Darknet 2 Keras
    2. YOLOv2 (and v3) in Keras and Applications: Easy training on custom dataset. Various backends (MobileNet and SqueezeNet)
    3. Medium::Quick implementation of Yolo V2 with Keras!

Retreinando YOLO para novos Objetos

  1. YOLO.V3:
    1. Medium::How to train YOLOv3 to detect custom objects, a tutorial on how to train cat and dog object using Yolo-v3
    2. hackernoon::Efficient Implementation of MobileNet and YOLO Object Detection Algorithms for Image Annotation
  2. YOLO.V2:
    1. YOLOv2 (and v3) in Keras and Applications: Easy training on custom dataset. Various backends (MobileNet and SqueezeNet)
    2. easy-yolo: Yolo (Real time object detection) model training tutorial with deep learning neural networks 
    3. Medium::How to train YOLOv2 to detect custom objects (ubuntu 16.04) (Manivannan Murugavel usa os binários C++ de Darknet!)
    4. Nils Tijtgat: How to train YOLOv2 to detect custom objects

prediction

Você vai necessitar das ferramentas discutidas aqui: Deep Learning::Ensinando à Rede: Ferramentas de Anotação

label-tool

Usando YOLO com PyTorch

  1. KDNuggets::How to Implement a YOLO (v3) Object Detector from Scratch in PyTorch

Usando YOLO com TensorFlow puro

  1. ModelZoo::YOLO TensorFlow ++

Usando YOLO com JavaScript

  1. Towards Data Science::In-Browser object detection using YOLO and TensorFlow.js

SSD – Single Shot Detection

SSD, discretiza o espaço de bounding boxes de saída em um conjunto padronizado de bboxes de diferentes taxas de aspecto (aspect ratios) e os escala de acordo com a localização do mapa de características identificado.

SSD:

  • Durante a predição, a rede gera scores para a presença de cada categoria de objeto em cada bbox padrão e produz ajustes para o bbox que nelhor se ajustar ao formato do objeto.
  • Para isso, a rede combina predições geradas por múltilos mapas d ecaracterísticas com diferentes resoluções para naturalmente lidar com objetos de diferentes tamanhos.
  • É um modelo simples se comparado a métodos que requerem a geração de propostas de objetos pois elimina completamente a geração de propostas e a subseqüente reamostragem de pixels ou características e encapsula todos os cálculos em uma única rede.
  • É fácil de treinar por causa de sua simplicidade, sendo fácil de integrar em sistemas que necessitam de uma componente de detecção.

Experimentos realizados pelos autores em dataset como  PASCAL VOC, MS COCO e ILSVRC datasets demonstraram que SSD possui acurácia comparável a métodos que utilizam propostas de objetos e é muito mais rápido, com a vantgem de prover uma infraestrutura unificada para treinamento e predição. Quando comparado a outros métodos como YOLO, SSD é muito mais curado mesmo usando imagens de enyrada de resolução menor.

Links:

  1. Artigo original: SSD: Single Shot MultiBox Detector – Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg 
  2. Medium:: SSD object detection: Single Shot MultiBox Detector for real-time processing
  3. Medium::Understand Single Shot MultiBox Detector (SSD) and Implement It in Pytorch
    1. Git::MobileNet, VGG net based SSD/SSD-lite implementation in Pytorch
  4. Towards Data Science::Understanding SSD MultiBox — Real-Time Object Detection In Deep Learning

Usando OpenCV Deep Learning Object Detection Library

  1. Medium::Exploring OpenCV’s Deep Learning Object Detection Library (exemplos com SSD/MobileNet e YOLOv2)

Redes de Dois Estágios com Focal Loss

  1. RetinaNet (2018!)
    1. Keras implementation of RetinaNet object detection
    2. Focal Loss for Dense Object Detection by Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He and Piotr Dollár
    3. Repositório Python: keras-retinanet 0.4.1 

 

RetinaNet

Links

  1. Keras implementation of RetinaNet object detection

Detecção de Objetos Integrada à Segmentação Semântica

  1. Detectron – Detectron é o sistema da divisão de P&D em IA do Facebook que implementa algoritmos estado-da-arte para detecção de objetos, incluindo Mask R-CNN.
    A versão atual é escrita em Python e baseia no framework Caffe.

    1. https://github.com/facebookresearch/Detectron
    2. https://research.fb.com/downloads/detectron/
    3. Hackernoon: How to use Detectron — Facebook’s Free Platform for Object Detection
  2. Mask R-CNN – Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick (2018) – a conceptually simple, flexible, and general framework for object instance segmentation. Our approach efficiently detects objects in an image while simultaneously generating a high-quality segmentation mask for each instance. The method, called Mask R-CNN, extends Faster R-CNN by adding a branch for predicting an object mask in parallel with the existing branch for bounding box recognition.
    1. Mask R-CNN no Keras Model Zoo 
    2. Towards Data Science::Stuart Weitzman Boots, Designer Bags, and Outfits with Mask R-CNN (em Keras)

      1. Git::Clothes Segmentation (em Keras)
  3. Usando a Tensorflow Object Detection APITowards Data Science – Using Tensorflow Object Detection to do Pixel Wise Classification

Model Zoos em outros Frameworks

  1. Tensorflow detection model zoo: diversos modelos treinados com COCO dataset, the Kitti dataset, the Open Images dataset, the AVA v2.1 dataset e the iNaturalist Species Detection Dataset

Copyright © 2018 Aldo von Wangenheim/INCoD/Universidade Federal de Santa Catarina

334
Unique
Visitors
Powered By Google Analytics

Sobre o Autor

possui graduação em Ciências da Computação pela Universidade Federal de Santa Catarina (1989) e Doutorado Acadêmico (Dr. rer.nat.) em Ciências da Computação pela Universidade de Kaiserslautern (1996). Atualmente é professor Associado da Universidade Federal de Santa Catarina, onde é professor do Programa de Pós-graduação em Ciência da Computação e dos cursos de graduação em Ciências da Computação e Sistemas de Informação. É também professor e orientador de doutorado do Programa de Pós-Graduação em Ciências da Computação da Universidade Federal do Paraná - UFPR. Tem experiência nas áreas de Produção de Conteúdo para TV Digital Interativa, Informática em Saúde, Processamento e Análise de Imagens e Engenharia Biomédica, com ênfase em Telemedicina, Telerradiologia, Sistemas de Auxílio ao Diagnóstico por Imagem e Processamento de Imagens Médicas, com foco nos seguintes temas: analise inteligente de imagens, DICOM, CBIR, informática médica, visão computacional e PACS. Coordena o Instituto Nacional de Ciência e Tecnologia para Convergência Digital - INCoD. É também Coordenador Técnico do Sistema Integrado Catarinense de Telemedicina e Telessaúde (STT/SC), coordenador do Grupo de Trabalho Normalização em Telessaúde do Comitê Permanente de Telessaúde/Ministério da Saúde e membro fundador e ex-coordenador da Comissão Informática em Saúde da ABNT - ABNT/CEET 00:001.78. Atualmente também é membro da comissão ISO/TC 215 - Health Informatics. Foi coordenador da RFP6 - Conteúdo - do SBTVD - Sistema Brasileiro de TV Digital/Ministério das Comunicações. Foi o criador e primeiro Coordenador do Núcleo de Telessaúde de Santa Catarina no âmbito do Programa Telessaúde Brasil do Ministério da Saúde e da OPAS - Organização Pan-Americana de Saúde e criador do Núcleo Santa Catarina da RUTE - Rede Universitária de Telemedicina.