Una Introducción amable pero riguroza al aprendizaje por refuerzo
DOI:
https://doi.org/10.32870/recibe.v12i1.268Palabras clave:
Proceso de decisión markovianoResumen
La interacción con el mundo es una de las principales formas en las que se genera el aprendizaje, pues es el medio por el cuál se obtiene información del entorno, y se experimentan relaciones causa-efecto. Esta idea de aprender mediante la interacción es una aspecto fundamental en muchas teorías del aprendizaje y, en este artículo abordaremos un enfoque computacional llamado "aprendizaje por refuerzo" (Reinforcement Learning, RL) además de construir de manera progresiva y sencilla sus bases matemáticas, así como los métodos principales de solución. Por último, mostramos aplicaciones y algoritmos que son relevantes en la industria e investigación.Citas
Bertsekas, D. (2012). Dynamic programming and optimal control: Volume i (Vol. 1). Athena scientific.
Elahi, E. (2022). Reinforcement learning for budget constrained recommendations. Retrieved
January 2023, from https://netflixtechblog.com/reinforcement-learning-for-budget-constrained-recommendations-6cbc5263a32a
Fawzi, A., Balog, M., Huang, A., Hubert, T., Romera-Paredes, B., Barekatain, M., ... others
(2022). Discovering faster matrix multiplication algorithms with reinforcement learning. Nature, 610(7930), 47–53.
Luo, J., Paduraru, C., Voicu, O., Chervonyi, Y., Munns, S., Li, J., ... others (2022). Controlling
commercial cooling systems using reinforcement learning. arXiv preprint arXiv:2211.07357.
Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M.
(2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.
Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... others
(2016). Mastering the game of go with deep neural networks and tree search. nature,
(7587), 484–489.
Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., ... others (2018). A general
reinforcement learning algorithm that masters chess, shogi, and go through self-play.
Science, 362(6419), 1140–1144.
Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
Tesauro, G. (1995). Td-gammon: A self-teaching backgammon program. Applications of neural
networks, 267–285