Paso 3: ¿Cómo el robot aprende si no engañar?! (Parte 2)
La variable principal se llama EPSILON. Esta variable también es conocida como la tasa de aprendizaje. Comienza de Epsilon se mueve hacia fuera ridículamente alto, que hace que el robot hacer al azar al principio del juego. Como el robot juega más (y, por consiguiente, aprende los mejores movimientos para hacer contra el jugador), Epsilon disminuye. Desde Epsilon disminuye, con el tiempo, el robot comenzará lentamente a utilizar las probabilidades de éxito en su base de datos contra el jugador.
Las tres variables son: alfa, GAMMA y KAPPA.
Alfa realiza un seguimiento de cuánto cada movimiento afecta aprendizaje del robot. Suena confuso! En realidad, alfa se encuentra intencionalmente como cerca de cero como sea posible. Si un jugador está (* suspiro *) para el robot (digo si el jugador eligió a roca y el robot eligió el papel, pero el jugador afirma que el robot perdido), un valor bajo de alfa hará que el robot a pasar por alto la mentira! Sin embargo, si alfa es demasiado baja, el robot no se aprende tan rápidamente.
Gamma es un tipo de recompensa. Gamma se encuentra alta (0.80) porque Gamma 1, el robot es más probable que empiece a utilizar las probabilidades de éxito antes.
Kappa es un valor de rigor que ayuda al robot a refinar sus probabilidades.