Sobre la escena: hay 4 personas en una habitación normal con una persona que inicialmente fuera de la vista del alcance. Cada uno se coloca en diferentes configuraciones y distancia variable.
Los pasos clave en la detección de:
1. Nao detecta primero la persona que utiliza el reconocimiento facial.
2. luego utiliza una técnica de localización de nueva fuente de sonido para detectar a la persona que está hablando
3. luego es girar su cabeza hacia la persona detectada