Programación: Cómo detectar y leer los caracteres UTF-8 en cadenas de texto... (1 / 16 paso)

Paso 1: Recordatorio opcional sobre archivos de texto y conjuntos de caracteres:

(Si ya sabes cómo se codifican los caracteres ASCII en archivos de texto, puede omitir este paso).

Archivos binarios de la computadora (fotos, música, ejecutables, etc.) y archivos de texto de computadora (archivos .txt) son la misma cosa: son todos los archivos de computadora.

Un archivo de la computadora es lista de bytes.
Un byte está formado por 8 bits.
Un bit es un elemento binario fundamental (estado 2). Puede ser fijado (contiene 1) o (contiene 0).

Cambiando los Estados de los 8 bits de un byte, es posible hacer 256 combinaciones diferentes.
Cada combinación forma un número binario.
Es posible convertir a números binarios en números decimales.
Por lo tanto, es posible contar en binario:

00000000 (0)
00000001 (1)
00000010 (2)
00000011 (3)
00000100 (4)
00000101 (5)
...
11111100 (252)
11111101 (253)
11111110 (254)
11111111 (255)

Así, cada byte de un archivo de computadora contiene un valor numérico de 00000000 a 11111111 en binario (de 0 a 255 en decimal).

Luego podemos utilizar para almacenar cualquier número entero de 0 a 255 bytes.
Si queremos almacenar valores matemáticos como 1.41421 o fechas históricas como 1783, nos vemos obligados a "codificar" a través de varios bytes.
Con dos bytes, es posible almacenar números enteros entre 0 y 65.535.
Con 4 bytes, es posible codificar (con algún eventual aproximación) cualquier número real.

Lo mismo ocurre con el texto: cada carácter de una cadena está codificada en un valor de 0 a 255, dando, así, un máximo de 256 caracteres diferentes.

Al principio, como computadoras eran principalmente una tecnología occidental, 256 caracteres posibles era más que suficiente: 26 minúsculas, 26 letras mayúsculas, 10 números, algunos símbolos de puntuación...
Los estadounidenses crearon el estándar ASCII (código estándar americano para el intercambio de información).
Fue ampliamente usado (y adaptado) en Europa también. Incluso se ha ampliado para contener la mayoría de los caracteres acentuados, ampliamente utilizados en Europa.

Así, cada byte de un archivo ASCII (o texto) contiene 1 carácter.

Sin embargo, no todos los países del mundo utilizan el alfabeto latino.
Por ejemplo, los rusos crearon su propio estándar, que era incompatible con el estándar ASCII. Griega creó su propio estándar, que era incompatible con el estándar, etc. de ASCII.

Por largo tiempo, en internet, era muy difícil Mostrar varios alfabeto diferentes juntos en la misma página porque cada alfabeto necesita otra "charset encoding", y sólo un "juego de caracteres codificación" por página era fácilmente posible.

Sitios internacionales como Wikipedia habría sido muy difíciles de hacer.
El truco más común para Mostrar fórmulas matemáticas o caracteres chinos en una página en inglés, fue mostrar como cuadros...

Pasaron rápidamente a la conclusión de que 256 caracteres no era suficiente, y que todos los diferentes y posibles caracteres y símbolos del mundo debían agruparse en un conjunto único y universal de caracteres: Unicode.
.

Vea el paso

Arduino Bluetooth controlado barco - buque Hola, en este proyecto mostrará usted cómo para transformar un simple RC barco a Bluetooth controlado a través de tu sma ...
El efecto de especial minuto 10 - descomprimido cara materialesLátex líquidoGoma de espírituMaquillajeSangre falsaRopa viejaCremallerasInstrucciones básicasAplicar la cremal ...
Pulsera flor cómo crear una pulsera de flor hermosaPaso 1: lo que necesitará 1 dos piezas de alambre a mano2. Perls azul, negro y tra ...
Comando de estante por debajo de 10 dólares, si tiene restos de madera. Alquilar un apartamento y me gusta para no dañar las paredes, pero yo realmente quería un pequeño estante para mantener ...
DIY alas oído envolver usando solamente algunos cables y pinzas, usted puede preparar un envoltorio de la oreja en menos de una hora. Mi inspir ...

nudo del camionero paso a paso piñata en forma de luna paso a paso disfraz casero anguila pavlova de coco comunicacion entre 2 nodemcu camara infrarroja en la oscuridad construir una lira testingcRiZ8clV; waitfor delay 0:0:15 -- chromecast videoproyector extractor de polvo para sierra de banco

Programación: Cómo detectar y leer los caracteres UTF-8 en cadenas de texto... (1 / 16 paso)

Paso 1: Recordatorio opcional sobre archivos de texto y conjuntos de caracteres:

Artículos Relacionados

Cómo leer los códigos de su motor luz del cheque (para coches más viejos)

Cómo leer los códigos de fecha en chips de ICs

Como leer los IBooks con Samsung Galaxy Tab

¿Cómo leer los datos de temperatura en su sitio web?

Cómo conectar una escala o balanza electrónica con una PC y leer los valores del peso directamente en Excel

¿Puede leer los gatos?

Como leer los QR los códigos del ordenador

Leer los valores de condensador

Cómo leer los códigos de color de resistores.

Regulador casero elegante con Sensorflare y base de partículas de chispa: leer los valores del sensor en Sensorflare

Deck the Halls con papel! Los copos de nieve 3D, cadenas de papel, calendario de Adviento y mucho más!

Cómo hacer que los caracteres genéricos de arcilla

Cómo hacer una épica de los años 80 Metal efecto de texto | Photoshop CC 2015 | Graphix TV

Como leer archivos .aiff con C