Marco matemático para modelar la toma de decisiones en situaciones donde los resultados son en parte aleatorios y en parte controlados. Se emplean para estudiar una amplia gama de problemas de optimización resueltos mediante la programación dinámica y el aprendizaje de refuerzo, en campos como la robótica, control automático y fabricación.