Una Introducción amable pero riguroza al aprendizaje por refuerzo

Autores/as

DOI:

https://doi.org/10.32870/recibe.v12i1.268

Palabras clave:

Proceso de decisión markoviano

Resumen

La interacción con el mundo es una de las principales formas en las que se genera el aprendizaje, pues es el medio por el cuál se obtiene información del entorno, y se experimentan relaciones causa-efecto. Esta idea de aprender mediante la interacción es una aspecto fundamental en muchas teorías del aprendizaje y, en este artículo abordaremos un enfoque computacional llamado "aprendizaje por refuerzo" (Reinforcement Learning, RL) además de construir de manera progresiva y sencilla sus bases matemáticas, así como los métodos principales de solución. Por último, mostramos aplicaciones y algoritmos que son relevantes en la industria e investigación.

Citas

Bertsekas, D. (2012). Dynamic programming and optimal control: Volume i (Vol. 1). Athena scientific.

Elahi, E. (2022). Reinforcement learning for budget constrained recommendations. Retrieved

January 2023, from https://netflixtechblog.com/reinforcement-learning-for-budget-constrained-recommendations-6cbc5263a32a

Fawzi, A., Balog, M., Huang, A., Hubert, T., Romera-Paredes, B., Barekatain, M., ... others

(2022). Discovering faster matrix multiplication algorithms with reinforcement learning. Nature, 610(7930), 47–53.

Luo, J., Paduraru, C., Voicu, O., Chervonyi, Y., Munns, S., Li, J., ... others (2022). Controlling

commercial cooling systems using reinforcement learning. arXiv preprint arXiv:2211.07357.

Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M.

(2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.

Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... others

(2016). Mastering the game of go with deep neural networks and tree search. nature,

(7587), 484–489.

Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., ... others (2018). A general

reinforcement learning algorithm that masters chess, shogi, and go through self-play.

Science, 362(6419), 1140–1144.

Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.

Tesauro, G. (1995). Td-gammon: A self-teaching backgammon program. Applications of neural

networks, 267–285

Descargas

Publicado

2023-06-11

Cómo citar

Montenegro Meza, M. A., Menchaca Méndez, R., & Menchaca Méndez, R. (2023). Una Introducción amable pero riguroza al aprendizaje por refuerzo. ReCIBE, Revista electrónica De Computación, Informática, Biomédica Y Electrónica, 12(1), C1–15. https://doi.org/10.32870/recibe.v12i1.268

Número

Sección

Computación e Informática