Paso 1: Recordatorio opcional sobre archivos de texto y conjuntos de caracteres:
Archivos binarios de la computadora (fotos, música, ejecutables, etc.) y archivos de texto de computadora (archivos .txt) son la misma cosa: son todos los archivos de computadora.
Un archivo de la computadora es lista de bytes.
Un byte está formado por 8 bits.
Un bit es un elemento binario fundamental (estado 2). Puede ser fijado (contiene 1) o (contiene 0).
Cambiando los Estados de los 8 bits de un byte, es posible hacer 256 combinaciones diferentes.
Cada combinación forma un número binario.
Es posible convertir a números binarios en números decimales.
Por lo tanto, es posible contar en binario:
00000000 (0)
00000001 (1)
00000010 (2)
00000011 (3)
00000100 (4)
00000101 (5)
...
11111100 (252)
11111101 (253)
11111110 (254)
11111111 (255)
Así, cada byte de un archivo de computadora contiene un valor numérico de 00000000 a 11111111 en binario (de 0 a 255 en decimal).
Luego podemos utilizar para almacenar cualquier número entero de 0 a 255 bytes.
Si queremos almacenar valores matemáticos como 1.41421 o fechas históricas como 1783, nos vemos obligados a "codificar" a través de varios bytes.
Con dos bytes, es posible almacenar números enteros entre 0 y 65.535.
Con 4 bytes, es posible codificar (con algún eventual aproximación) cualquier número real.
Lo mismo ocurre con el texto: cada carácter de una cadena está codificada en un valor de 0 a 255, dando, así, un máximo de 256 caracteres diferentes.
Al principio, como computadoras eran principalmente una tecnología occidental, 256 caracteres posibles era más que suficiente: 26 minúsculas, 26 letras mayúsculas, 10 números, algunos símbolos de puntuación...
Los estadounidenses crearon el estándar ASCII (código estándar americano para el intercambio de información).
Fue ampliamente usado (y adaptado) en Europa también. Incluso se ha ampliado para contener la mayoría de los caracteres acentuados, ampliamente utilizados en Europa.
Así, cada byte de un archivo ASCII (o texto) contiene 1 carácter.
Sin embargo, no todos los países del mundo utilizan el alfabeto latino.
Por ejemplo, los rusos crearon su propio estándar, que era incompatible con el estándar ASCII. Griega creó su propio estándar, que era incompatible con el estándar, etc. de ASCII.
Por largo tiempo, en internet, era muy difícil Mostrar varios alfabeto diferentes juntos en la misma página porque cada alfabeto necesita otra "charset encoding", y sólo un "juego de caracteres codificación" por página era fácilmente posible.
Sitios internacionales como Wikipedia habría sido muy difíciles de hacer.
El truco más común para Mostrar fórmulas matemáticas o caracteres chinos en una página en inglés, fue mostrar como cuadros...
Pasaron rápidamente a la conclusión de que 256 caracteres no era suficiente, y que todos los diferentes y posibles caracteres y símbolos del mundo debían agruparse en un conjunto único y universal de caracteres: Unicode.
.