Paso 4: Mantener la compatibilidad con ASCII.
Unicode mantiene la compatibilidad con ASCII.
Caracteres ASCII son codificados de 32 a 127.
Códigos del 0 al 31 son códigos de control se utiliza principalmente para paginación: tabulación, retorno de carro, fin de cadena, etc....
(Nota: muchos de esos códigos de control son obsoletos hoy en día.)
Así, los caracteres ASCII sólo tiene 7 de los 8 bits de un byte codificado: 00000000 a 01111111 en binario.
Esto significa que los 8 bits del código ASCII siempre se establece en 0. (recordatorio: tenga en cuenta que los bits se cuentan de derecha a izquierda. El bit 1 es, pues, a la derecha, y la última es a la izquierda).
Como en la mayoría lenguajes de programación, los 8 bits de un byte se utilizan generalmente para definir el signo (positivo o negativo) de un valor firmado, esto también significa que firmó bytes que contiene un código ASCII será siempre positiva (8 bit puesto a 0).
Para propósito de la compatibilidad, la codificación UTF-8 se evite para usar valores positivos, porque un aplicaciones incompatibles interpretarán caracteres Unicode codificados en 4 bytes como 4 diferentes extendido de caracteres ASCII: y por el código de los controles (0 a 31), esto puede conducir a varios resultados inesperados.