[Ovillo] Problemas con carecteres especiales

Ramón Corominas listas en ramoncorominas.com
Vie Mayo 30 21:03:03 UTC 2008


Javier:

UTF-8 utiliza *siempre* menos bytes que cualquier texto ISO con 
entidades HTML. Los caracteres por debajo del ASCII 128 se representan 
por un único byte, y cuando se supera ese rango, se marca el bit más 
significativo a 1 y se pasa al siguiente byte. Todas las tildes, eñes, 
etc., se representan por dos bytes. Para idiomas con más caracteres, 
como el chino, japonés, etc., nos pasamos del rango de dos bytes, 
marcando el bit más alto del segundo byte a 1 y pasando al siguiente... 
Así hasta el 4º byte.

Y como ya han comentado, si no utilizas UTF-8 los comentarios en idiomas 
que tú no hayas contemplado se verán como pura basura.

Además, una ventaja adicional es que puedes escribir directamente 
símbolos de monedas, flechas, y muchísimos otros que con ISO son 
imposibles de representar, ni siquiera con entidades HTML.

Saludos,
Ramón.



Más información sobre la lista de distribución Ovillo