Paso 2: Opcional recordatorio acerca de Unicode:
Unicode es compatible con el antiguo estándar ASCII (esto significa que los primeros 128 caracteres de Unicode tienen los mismos códigos que los de ASCII) y contiene cada código de cada posible caracteres y símbolos de todos los alfabetos, adjabs y logogramas de todas las Naciones y culturas del mundo. Y en la actualidad, hay unos 100.000 caracteres diferentes.
Esto significa que necesitamos más de 1 byte para almacenar el código de la mayoría de ellos.
Con un byte (8 bits), podríamos codificar sólo los 256 primeras caracteres Unicode (que son ASCII compatible)
Con dos bytes (16 bits), podríamos codificar los primeros 65.536 caracteres de Unicode.
Con cuatro bytes (32 bits), podríamos codificarlos todos y aún más...
Así, parece la más universal forma de almacenar texto compatible con Unicode en archivos de computadora sería usar 4 bytes por carácter.
Sin embargo, antiguos archivos de texto ASCII sería ilegibles (ya que utilizan sólo 1 byte por carácter). Y convertirlos a 4 bytes por caracteres serían perder mucho espacio (cuatro veces más espacio)...
Por eso inventaron varios métodos de codificación para codificar texto Unicode sin perder demasiado espacio y manteniendo la compatibilidad con viejos archivos ASCII. Nombran a estos métodos de codificación: UTF-7, UTF-8, UTF-16 y UTF-32.
.