Análisis del desempeño de redes neuronales profundas para segmentación semántica en hardware limitado

Authors

  • Oscar Alejandro Soto Orozco División de Estudios de Posgrado e Investigación, Tecnológico Nacional de México/ I.T. Chihuahua, México.
  • Alma Delia Corral Saenz División de Estudios de Posgrado e Investigación, Tecnológico Nacional de México/ I.T. Chihuahua, México.
  • Claudia Elizabeth Rojo González División de Estudios de Posgrado e Investigación, Tecnológico Nacional de México/ I.T. Chihuahua, México.
  • Juan Alberto Ramirez Quintana División de Estudios de Posgrado e Investigación, Tecnológico Nacional de México/ I.T. Chihuahua, México.

DOI:

https://doi.org/10.32870/recibe.v8i2.142

Keywords:

Aprendizaje profundo, Segmentación semántica, Redes neuronales convolucionales, Procesamiento de imágenes y video.

Abstract

Segmentación semántica consiste en encontrar objetos previamente definidos en una imagen digital y se aplica en tecnologías como vehículos autónomos, interacción humano-maquina, realidad aumentada, robótica, etc. Los modelos más comunes para llevar a cabo esta forma de segmentación son las redes totalmente convolucionales, ya que reportan los mejores desempeños en la detección de objetos. Sin embargo, la mayor parte de estas redes tienen alto costo computacional y requieren de computadoras costosas, por lo que han surgido recientemente modelos basados en estas redes, pero con baja complejidad en cálculos para que las aplicaciones de segmentación semántica se puedan implementar desde sistemas embebidos. Por lo tanto, para contribuir con este esfuerzo, se presenta en este artículo un análisis detallado las redes Enet, Mobilenet v2, ERFNet y ESPNet v2, las cuales son redes populares en la literatura que se pueden correr desde un sistema embebido. Con base en los resultados, se concluye que los métodos que reemplazan la convolución regular por factorizaciones como la convolución separada en profundidad y convoluciones dilatadas con diversas ramas y el uso de otras estrategias como convoluciones saltadas e interpolaciones articuladas reducen el costo computacional comparando las métricas generadas por cada red como la huella de memoria, la precisión y el tiempo que tarda en segmentar una sola imagen.

Author Biographies

Oscar Alejandro Soto Orozco, División de Estudios de Posgrado e Investigación, Tecnológico Nacional de México/ I.T. Chihuahua, México.

Obtuvo el grado de Ingeniero en Electrónica del Instituto Tecnológico Nacional campus Chihuahua 2018 y actualmente se encuentra estudiando para obtener el grado de Maestro en Ciencias en Ingeniería Electrónica del Instituto Tecnológico de Chihuahua, su investigación es en el área de procesamiento digital de señales e imágenes, enfocado a segmentación semántica en video con hardware limitado.

Alma Delia Corral Saenz, División de Estudios de Posgrado e Investigación, Tecnológico Nacional de México/ I.T. Chihuahua, México.

Recibió el título de Ingeniera en Sistemas Computacionales en Hardware de la Universidad Autónoma de Chihuahua en 1999 y el de Maestra en Ciencias en Ingeniería Electrónica del Instituto Tecnológico de Chihuahua en 2003. Actualmente es profesora y coordinadora del Doctorado y la Maestría en Ciencias en Ingeniería Electrónica en el mismo Instituto, y participa en trabajos de investigación de las áreas de procesamiento de señales y visión por computadora.

Claudia Elizabeth Rojo González, División de Estudios de Posgrado e Investigación, Tecnológico Nacional de México/ I.T. Chihuahua, México.

Recibió el título de Contador Público en 1995 y la Maestría en Administración en 2000, ambos títulos en la Universidad Autónoma de Chihuahua. Actualmente es profesora y coordinadora de la Maestría en Administración de Negocios en el Instituto Tecnológico de Chihuahua, y participa en trabajos de investigación auxiliando a profesores de ingeniería en el desarrollando de modelos financieros para desarrollo tecnológico.

Juan Alberto Ramirez Quintana, División de Estudios de Posgrado e Investigación, Tecnológico Nacional de México/ I.T. Chihuahua, México.

Recibió los grados de ingeniería (2004), maestría (2007) y doctorado (2014) en ingeniería electrónica del Instituto Tecnológico de Chihuahua, México. Actualmente trabaja como profesor-investigador en el Instituto Tecnológico de Chihuahua, cuenta con diversas publicaciones en revistas y congresos y dirige varias tesis a nivel licenciatura maestría y doctorado. Sus áreas de interés son visión por computadora, procesamiento de señales, aprendizaje automático, percepción visual y sistemas embebidos. El Dr. Ramírez es miembro del Sistema Nacional de Investigadores de México.

References

Amoros, P., Balsells, M. A., Buisan, M., Byrne, S., Fuentes-Pelaez, N., & Gabriel J. Brostow a, b,*, Julien Fauqueur a, R. C. a. (2008). Semantic object classes in video: A high-definition ground truth database. Revista de Cercetare Si Interventie Sociala, 42(2), 120–144. https://doi.org/10.1016/j.patrec.2008.04.005

Asadi, K., Chen, P., Han, K., Wu, T., & Lobaton, E. (2019). Real-time Scene Segmentation Using a Light Deep Neural Network Architecture for Autonomous Robot Navigation on Construction Sites. Retrieved from http://arxiv.org/abs/1901.08630

Chen, L., Papandreou, G., Schroff, F., & Hartwig, A. (2017). Rethinking Atrous Convolution for Semantic Image Segmentation.

Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R., … Schiele, B. (2016). The Cityscapes Dataset for Semantic Urban Scene Understanding. https://doi.org/10.1109/CVPR.2016.350

He, K., Zhang, X., Yang, H., Han, K., Zhu, D., Lun, P., & Zhao, Y. (2018). Delving Deep into Rectifiers: Surpassing Human-Level performance on imagenet classification. Biochemical and Biophysical Research Communications, 498(1), 254–261. https://doi.org/10.1016/j.bbrc.2018.01.076

Ioffe, S., & Szegedy, C. (2015). Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. https://doi.org/10.1007/s13398-014-0173-7.2

Lateef, F., & Ruichek, Y. (2019). Survey on semantic segmentation using deep learning techniques. Neurocomputing, 338, 321–348. https://doi.org/10.1016/j.neucom.2019.02.003

Mehta, S., Rastegari, M., Caspi, A., Shapiro, L., & Hajishirzi, H. (2018). ESPNet: Efficient spatial pyramid of dilated convolutions for semantic segmentation. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 11214 LNCS, 561–580. https://doi.org/10.1007/978-3-030-01249-6_34

Mehta, S., Rastegari, M., Shapiro, L., & Hajishirzi, H. (2018). ESPNetv2: A Light-weight, Power Efficient, and General Purpose Convolutional Neural Network. Retrieved from http://arxiv.org/abs/1811.11431

Neapolitan, R. E., & Neapolitan, R. E. (2018). Neural Networks and Deep Learning. In Artificial Intelligence. https://doi.org/10.1201/b22400-15

Neuhold, G., Ollmann, T., Bulo, S. R., & Kontschieder, P. (2017). The Mapillary Vistas Dataset for Semantic Understanding of Street Scenes. Proceedings of the IEEE International Conference on Computer Vision, 2017-Octob, 5000–5009. https://doi.org/10.1109/ICCV.2017.534

Paszke, A., Chaurasia, A., Kim, S., & Culurciello, E. (2016). ENet : A Deep Neural Network Architecture for Real-Time Semantic Segmentation. 1–10.

Romera, E., Álvarez, J. M., Bergasa, L. M., & Arroyo, R. (2018). ERFNet : Efficient Residual Factorized ConvNet for Real-Time Semantic Segmentation. 19(1), 263–272.

Sandler, M., Zhu, M., Zhmoginov, A., & Apr, C. V. (2018). MobileNetV2: Inverted Residuals and Linear Bottlenecks.

Sevak, J. S., Kapadia, A. D., Chavda, J. B., Karungan, D., & Sujatha, N. (2017). Survey on Semantic Image Segmentation Techniques. Proceedings of the International Conference on Intelligent Sustainable Systems, 4(Iciss), 306–313. Retrieved from www.jetir.org

Shelhamer, E., Long, J., & Darrell, T. (2017). Fully Convolutional Networks for Semantic Segmentation. 39(4), 640–651.

Taylor, G. W. (2010). Deconvolutional Networks slides. 2528–2535. https://doi.org/10.1109/CVPR.2010.5539957

Wu, H., Zhang, J., Huang, K., Liang, K., & Yu, Y. (2019). FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation. (1). Retrieved from http://arxiv.org/abs/1903.11816

Zhou, B., Zhao, H., Puig, X., Fidler, S., Barriuso, A., & Torralba, A. (2017). Scene parsing through ADE20K dataset. Proceedings - 30th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, 2017-Janua, 5122–5130. https://doi.org/10.1109/CVPR.2017.544

Published

2020-01-13

How to Cite

Soto Orozco, O. A., Corral Saenz, A. D., Rojo González, C. E., & Ramirez Quintana, J. A. (2020). Análisis del desempeño de redes neuronales profundas para segmentación semántica en hardware limitado. ReCIBE, Electronic Journal of Computing, Informatics, Biomedical and Electronics, 8(2), C–6. https://doi.org/10.32870/recibe.v8i2.142

Issue

Section

Computer Science & IT