Glib::ustring

Peut-être serez-vous surpris d'apprendre que gtkmm n'utilise pas la classe std::string dans ses interfaces. À la place, gtkmm utilise la classe Glib::ustring ; les deux classes sont tout à fait semblables et tellement amalgamées que vous pouvez vraiment prétendre que chaque Glib::ustring est un std::string et ignorer la suite de ce paragraphe. Mais poursuivez la lecture si vous voulez utiliser des langues autres que l'anglais dans vos applications.

std::string utilise 8 bits par caractère, mais 8 bits ne sont pas suffisants pour coder des langues telles que l'arabe, le chinois ou le japonais. Même si les codages pour ces langues ont maintenant été définis par le Consortium Unicode, les langages informatiques C et C++ ne fournissent pas encore une prise en charge normalisée de l'Unicode. GTK+ et GNOME ont choisi d'implémenter l'Unicode en utilisant l'UTF-8 ; c'est ce codage qui est intégré dans Glib::ustring. Il fournit une interface pratiquement identique à std::string, tout en permettant des conversions automatiques de ou vers std::string.

Un des avantages de UTF-8 est que son utilisation n'est pas obligatoire, sauf à le vouloir ; vous n'avez pas besoin de retoucher tout votre code sur le champ. std::string fonctionne toujours bien avec les chaînes ASCII 7 bits. Mais si vous essayez de régionaliser vos applications pour des langues comme le chinois, par exemple, vous constaterez des erreurs étranges, voire des blocages. Alors, il ne vous reste plus qu'à utiliser dès maintenant Glib::ustring à la place.

Notez que UTF-8 n'est pas compatible avec des encodages 8 bits comme ISO-8859-1. Par exemple, les trémas de l'allemand ne font pas partie de la gamme des caractères ASCII ; ils nécessitent plus d'un octet en UTF-8. Si votre code comporte des chaînes littérales sur 8 bits, vous devez les convertir en UTF-8 (par exemple, la formule de salut bavaroise « Grüß Gott » devient « Gr\xC3\xBC\xC3\x9F Gott »).

Vous devez éviter les arithmétiques de pointeurs dans le style du C et les fonctions comme strlen(). En UTF-8, chaque caractère peut nécessiter de 1 à 6 octets ; il n'est donc pas possible de présupposer que l'octet suivant est un nouveau caractère. Glib::ustring se préoccupe de ces détails à votre place ; vous pouvez employer des fonctions membres telles que Glib::ustring::substr() en pensant caractères et non octets.

Contrairement à la solution de l'Unicode UCS-2 de Windows, UTF-8 ne requiert aucune option spéciale de compilation pour le traitement des chaînes de caractères ; en conséquence, il n'existe pas de bibliothèque ou d'exécutable Unicode incompatible avec ceux en ASCII.

Référence

Consultez le chapitre sur l'Internationalisation pour des informations concernant les chaînes littérales UTF-8.