HTML jeux de caractères
Les jeux de caractères HTML
Pour afficher une page HTML correctement, le navigateur doit savoir ce que le jeu de caractères à utiliser.
Le jeu de caractères pour le Web mondial au début éventail était ASCII. ASCII gère les numéros de 0-9, l’alphabet en majuscules et minuscules en anglais, et certains caractères spéciaux.
Comme de nombreux pays d’utiliser des caractères qui ne sont pas une partie de l’ASCII, le jeu de caractères par défaut pour les navigateurs modernes est certifiée ISO-8859-1.
Si une page Web utilise un autre jeu de caractères que la norme ISO-8859-1, il devrait être spécifié dans la balise meta.
Personnage ISO Définit
Il est l’Organisation internationale de normalisation (ISO) qui définit les standards pour les jeux de caractères de différents alphabets ou langues.
Les différents jeux de caractères utilisés dans le monde entier sont répertoriés ci-dessous:
Jeu de caractères |
Description |
Couvre |
ISO-8859-1 |
Partie alphabet latin 1 |
Amérique du Nord, Europe de l’Ouest, en Amérique latine, les Caraïbes, le Canada, l’Afrique |
ISO-8859-2 |
Partie alphabet latin 2 |
Europe de l’Est |
ISO-8859-3 |
Partie alphabet latin 3 |
SE l’Europe, l’espéranto, d’autres divers |
ISO-8859-4 |
Partie alphabet latin 4 |
Scandinavie / Pays baltes (et d’autres pas dans la norme ISO-8859-1) |
ISO-8859-5 |
Latin / cyrillique partie 5 |
Les langues qui utilisent l’alphabet cyrillique comme le bulgare, le biélorusse, le russe et macédonienne |
ISO-8859-6 |
Latin / arabe la partie 6 |
Les langues qui utilisent l’alphabet arabe |
ISO-8859-7 |
Latin / grec partie 7 |
La langue grecque moderne ainsi que des symboles mathématiques dérivés du grec |
ISO-8859-8 |
Latin / hébreu partie 8 |
Les langues qui utilisent l’alphabet hébreu |
ISO-8859-9 |
Latin 5 la partie 9 |
La langue turque. Identique à la norme ISO-8859-1 sauf les caractères turcs remplacer les islandais |
ISO-8859-10 |
Latin 6 lapone, nordique, Eskimo |
Les langues nordiques |
ISO-8859-15 |
Latin 9 (aka latine 0) |
Semblable à la norme ISO 8859-1, mais remplace certains symboles moins courantes avec le symbole de l’euro et quelques autres personnages disparus |
ISO-2022-JP |
Latine / Japonais partie 1 |
La langue japonaise |
ISO-2022-JP-2 |
Latine / japonais partie 2 |
La langue japonaise |
ISO-2022-KR |
Latine / Coréen partie 1 |
La langue coréenne |
Le standard Unicode
Parce que le personnage-ensembles énumérés ci-dessus sont limités en taille, et ne sont pas compatibles dans des environnements multilingues, le Consortium Unicode a développé le standard Unicode.
Le standard Unicode couvre tous les personnages, les signes de ponctuation et les symboles dans le monde.
Unicode permet le traitement, le stockage et l’échange de données texte, peu importe ce que la plate-forme, quel que soit le programme, quelle que soit la langue.
Le consortium Unicode
Le Consortium Unicode développe le standard Unicode. Leur but est de remplacer les actuels jeux de caractères avec son Transformation Format standard Unicode (UTF).
Le standard Unicode est devenu un succès et est mis en œuvre en XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML, etc La norme Unicode est également pris en charge dans de nombreux systèmes d’exploitation et tous les navigateurs modernes.
Le Consortium Unicode coopère avec les principales organisations d’élaboration de normes, comme ISO, W3C, et ECMA.
Unicode peut être mis en œuvre par différents jeux de caractères. Les codages les plus couramment utilisés sont l’UTF-8 et UTF-16:
Jeu de caractères |
Description |
UTF-8 |
Un personnage en UTF8 peut être de 1 à 4 octets de long. UTF-8 peut représenter n’importe quel caractère dans la norme Unicode. UTF-8 est compatible avec ASCII. UTF-8 est le codage préféré pour les pages e-mail et Web |
UTF-16 |
16-bit Unicode Transformation Format est un codage de caractères de longueur variable pour Unicode, capable de coder l’ensemble du répertoire Unicode. UTF-16 est utilisé dans les systèmes d’exploitation principaux et des environnements, comme Microsoft Windows 2000/XP/2003/Vista/CE et le Java et. NET environnements byte-code |
Astuce: Les 256 premiers caractères de caractères Unicode définit correspondent aux 256 caractères de la norme ISO-8859-1.
Astuce: Tous les 4 processeurs supportent déjà HTML UTF-8, et tous les processeurs XHTML et XML charge le codage UTF-8 et UTF-16!