- Španielsky jazyk
Aprendizaje por refuerzo
Autor: Satyanarayana S
Este libro está estructurado en cinco unidades, que ofrecen una experiencia de aprendizaje holística. El viaje comienza con una introducción a los algoritmos bandit, en la que se exploran conceptos básicos como los algoritmos Upper Confidence Bound (UCB)... Viac o knihe
Na objednávku, dodanie 2-4 týždne
63.81 €
bežná cena: 70.90 €
O knihe
Este libro está estructurado en cinco unidades, que ofrecen una experiencia de aprendizaje holística. El viaje comienza con una introducción a los algoritmos bandit, en la que se exploran conceptos básicos como los algoritmos Upper Confidence Bound (UCB) y Probably Approximately Correct (PAC). La siguiente unidad introduce el marco completo del aprendizaje por refuerzo (RL), que va más allá de los algoritmos bandit para considerar las interacciones agente-entorno en múltiples pasos temporales. Se introducen los Procesos de Decisión de Markov (MDP) como marco fundamental para modelar tareas secuenciales de toma de decisiones. La cuarta unidad aborda los métodos de programación dinámica, los métodos de diferencia temporal (TD) y la ecuación de optimalidad de Bellman en RL. Estos conceptos permiten a los agentes planificar, aprender y optimizar eficazmente sus acciones. La última unidad explora técnicas avanzadas de RL, como los Trazos de Elegibilidad, la Aproximación de Funciones, los Métodos de Mínimos Cuadrados, el Aprendizaje Q Ajustado, las Redes Q Profundas (DQN) y los algoritmos de Gradiente de Políticas.
- Vydavateľstvo: Ediciones Nuestro Conocimiento
- Rok vydania: 2023
- Formát: Paperback
- Rozmer: 220 x 150 mm
- Jazyk: Španielsky jazyk
- ISBN: 9786206403227