Análisis del desempeño de redes neuronales profundas para segmentación semántica en hardware limitado
DOI:
https://doi.org/10.32870/recibe.v8i2.142Keywords:
Aprendizaje profundo, Segmentación semántica, Redes neuronales convolucionales, Procesamiento de imágenes y video.Abstract
Segmentación semántica consiste en encontrar objetos previamente definidos en una imagen digital y se aplica en tecnologías como vehículos autónomos, interacción humano-maquina, realidad aumentada, robótica, etc. Los modelos más comunes para llevar a cabo esta forma de segmentación son las redes totalmente convolucionales, ya que reportan los mejores desempeños en la detección de objetos. Sin embargo, la mayor parte de estas redes tienen alto costo computacional y requieren de computadoras costosas, por lo que han surgido recientemente modelos basados en estas redes, pero con baja complejidad en cálculos para que las aplicaciones de segmentación semántica se puedan implementar desde sistemas embebidos. Por lo tanto, para contribuir con este esfuerzo, se presenta en este artículo un análisis detallado las redes Enet, Mobilenet v2, ERFNet y ESPNet v2, las cuales son redes populares en la literatura que se pueden correr desde un sistema embebido. Con base en los resultados, se concluye que los métodos que reemplazan la convolución regular por factorizaciones como la convolución separada en profundidad y convoluciones dilatadas con diversas ramas y el uso de otras estrategias como convoluciones saltadas e interpolaciones articuladas reducen el costo computacional comparando las métricas generadas por cada red como la huella de memoria, la precisión y el tiempo que tarda en segmentar una sola imagen.References
Amoros, P., Balsells, M. A., Buisan, M., Byrne, S., Fuentes-Pelaez, N., & Gabriel J. Brostow a, b,*, Julien Fauqueur a, R. C. a. (2008). Semantic object classes in video: A high-definition ground truth database. Revista de Cercetare Si Interventie Sociala, 42(2), 120–144. https://doi.org/10.1016/j.patrec.2008.04.005
Asadi, K., Chen, P., Han, K., Wu, T., & Lobaton, E. (2019). Real-time Scene Segmentation Using a Light Deep Neural Network Architecture for Autonomous Robot Navigation on Construction Sites. Retrieved from http://arxiv.org/abs/1901.08630
Chen, L., Papandreou, G., Schroff, F., & Hartwig, A. (2017). Rethinking Atrous Convolution for Semantic Image Segmentation.
Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R., … Schiele, B. (2016). The Cityscapes Dataset for Semantic Urban Scene Understanding. https://doi.org/10.1109/CVPR.2016.350
He, K., Zhang, X., Yang, H., Han, K., Zhu, D., Lun, P., & Zhao, Y. (2018). Delving Deep into Rectifiers: Surpassing Human-Level performance on imagenet classification. Biochemical and Biophysical Research Communications, 498(1), 254–261. https://doi.org/10.1016/j.bbrc.2018.01.076
Ioffe, S., & Szegedy, C. (2015). Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. https://doi.org/10.1007/s13398-014-0173-7.2
Lateef, F., & Ruichek, Y. (2019). Survey on semantic segmentation using deep learning techniques. Neurocomputing, 338, 321–348. https://doi.org/10.1016/j.neucom.2019.02.003
Mehta, S., Rastegari, M., Caspi, A., Shapiro, L., & Hajishirzi, H. (2018). ESPNet: Efficient spatial pyramid of dilated convolutions for semantic segmentation. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 11214 LNCS, 561–580. https://doi.org/10.1007/978-3-030-01249-6_34
Mehta, S., Rastegari, M., Shapiro, L., & Hajishirzi, H. (2018). ESPNetv2: A Light-weight, Power Efficient, and General Purpose Convolutional Neural Network. Retrieved from http://arxiv.org/abs/1811.11431
Neapolitan, R. E., & Neapolitan, R. E. (2018). Neural Networks and Deep Learning. In Artificial Intelligence. https://doi.org/10.1201/b22400-15
Neuhold, G., Ollmann, T., Bulo, S. R., & Kontschieder, P. (2017). The Mapillary Vistas Dataset for Semantic Understanding of Street Scenes. Proceedings of the IEEE International Conference on Computer Vision, 2017-Octob, 5000–5009. https://doi.org/10.1109/ICCV.2017.534
Paszke, A., Chaurasia, A., Kim, S., & Culurciello, E. (2016). ENet : A Deep Neural Network Architecture for Real-Time Semantic Segmentation. 1–10.
Romera, E., Álvarez, J. M., Bergasa, L. M., & Arroyo, R. (2018). ERFNet : Efficient Residual Factorized ConvNet for Real-Time Semantic Segmentation. 19(1), 263–272.
Sandler, M., Zhu, M., Zhmoginov, A., & Apr, C. V. (2018). MobileNetV2: Inverted Residuals and Linear Bottlenecks.
Sevak, J. S., Kapadia, A. D., Chavda, J. B., Karungan, D., & Sujatha, N. (2017). Survey on Semantic Image Segmentation Techniques. Proceedings of the International Conference on Intelligent Sustainable Systems, 4(Iciss), 306–313. Retrieved from www.jetir.org
Shelhamer, E., Long, J., & Darrell, T. (2017). Fully Convolutional Networks for Semantic Segmentation. 39(4), 640–651.
Taylor, G. W. (2010). Deconvolutional Networks slides. 2528–2535. https://doi.org/10.1109/CVPR.2010.5539957
Wu, H., Zhang, J., Huang, K., Liang, K., & Yu, Y. (2019). FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation. (1). Retrieved from http://arxiv.org/abs/1903.11816
Zhou, B., Zhao, H., Puig, X., Fidler, S., Barriuso, A., & Torralba, A. (2017). Scene parsing through ADE20K dataset. Proceedings - 30th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, 2017-Janua, 5122–5130. https://doi.org/10.1109/CVPR.2017.544