Aprendizaje Rock - Paper - Scissors Robot de Lego Mindstorms NXT! (2 / 5 paso)

Paso 2: ¿Cómo el robot aprende si no engañar?! (Parte 1)

Como he escrito en el primer paso, este robot pide primero el ser humano (mucho más inteligente!) para un movimiento de entrada a través de los sensores de tacto. Luego mire a través de una base de datos y determinar lo que es la mejor jugada posible hacer. Después de hacer ese movimiento, el ser humano tendrá que Dile si el robot se ganó/perdió/atados para esa ronda. ¿Si el robot no sabe que rock > tijeras, papel > rock o tijeras > papel (no programó estas reglas en el robot), cómo puede utilizar esta información para aprender?

El robot crea una base de datos virtual (para lo frikis de la informática, utiliza una matriz de dimensión 3 para hacerlo!). Pensar en esta base de datos como un cubo de Rubik. El robot tiene que tener tres cosas: 1) la jugada el jugador entrado (piedra, papel o tijeras); 2) el movimiento del robot hecho otra vez de la roca, papel o tijeras; y 3) el resultado de esta ronda (¿el robot ganar, perder, o amarrar con el reproductor?). En esta base de datos, el robot será factor en una probabilidad de éxito de este movimiento. Este valor se almacena en el array, o (usando la analogía de cubo de Rubik) en uno de los 27 cubos.

Por ejemplo, si el jugador eligió a roca, pero el robot elegir tijeras, el robot perdido, así que entrará a una tasa de éxito de 0% para jugar tijeras cuando el jugador elige la roca en el futuro.

Para alentar el robot a aprender, premio el robot utilizando un sistema de puntos virtuales! Una analogía es la de un niño pequeño. Si se acercó al niño y dijo, "Oye, te voy a dar $20 si usted puede aprender a volar por ti mismo!", el niño va a pensar, "¡ Wow! $20! Es una buena recompensa! Déjame probar! ". El niño primero gatear, luego caminar, luego correr y luego salta en un intento de volar y obtener la recompensa de $20. Sin embargo, el niño eventualmente aprenderá que no puede volar sin avión y que no puede tener éxito. Sin embargo, en el camino, el niño había aprendido cómo gatear, caminar, correr y saltar!

Apliqué estos principios al robot! En lugar de efectivo (¿en serio pierdo mi tiempo tratando de dar mi robot $20?!), voy a dar el robot un punto virtual (+ 1) si el robot golpea el jugador. PERO se llevará 10.000 puntos virtuales de robot (sí soy medio) si el robot pierde o lazos con el jugador. Puesto que el robot desea maximizar el número de puntos gana, utilizará las probabilidades de éxito en su base de datos para lograr este objetivo.

Vea el paso

Caja de palo de tambor fácil he estado haciendo los tambores durante un tiempo ahora, pero mis palos fueron siempre en todas partes. No quedan en nad ...
Hacer montaje de brazo 4 acción Cam Este tutorial mostrará cómo hacer un brazo de acción cámara de montaje.Utilizando una tabla de surf, tabla de boogie, o ...
ASKUS (increíble Sharir1701 K'nex Ultimate seguro) es un k'nex seguro he construido mucho tiempo hace, pero nunca le molestó a subir. justo antes de que bajaron, la filmé ...
Robot de Instructables Nail Art! Paso 1: Qué vas a necesidad Hola cada uno mi nombre es liz y soy un artista de uñas 11 años de edad. Así que pensé que s ...
3D impresos luz de la bici sin batería Hola todo el mundo,Mi nombre es Alex y este es mi primer tema instructable.Lo primero de todo si usted tiene cualquier s ...