Ajuste de los pesos de las conexiones en una red neuronal, utilizando recompensas y castigos basados en datos de entrenamiento para los que se conoce el resultado deseado, de modo que la salida de la red se aproximará eventualmente a la salida deseada.