L’Unicode, détail et explications

La récente mise à jour opérée dans Sarbacane a introduit un nouveau type de codage de jeux de caractères : l’Unicode UTF-8.

Retour sur cette nouveauté, explications et réponses à vos questions …

 

Définition

Que ce soit dans une page web ou dans un email, il est nécessaire de spécifier le type de codage utilisé pour une bonne interprétation des textes par le navigateur Internet ou le logiciel de messagerie.

Jusqu’à présent, Sarbacane était configuré par défaut pour utiliser la norme d’encodage ISO-8859-1 (appelé aussi Latin 1), ce qui signifie que vous pouvez afficher jusqu’à 191 caractères. Cette norme très largement utilisée dans les pays occidentaux regroupe tous les caractères (lettres et caractères spéciaux) des alphabets qui sont utilisés couramment dans cette partie du Monde : anglais, espagnol, allemand, français, etc.

Il existe autant de codages que d’alphabet dans le monde et ceux-ci tiennent compte des spécificités de chacun (par exemple l’ISO 233-2 est utilisé pour l’Arabe).

Mais ces normes de codage ont malheureusement quelques limites puisqu’ils sont propres à un alphabet et qu’il est donc impossible par exemple de faire apparaître dans le même message du japonais avec des caractères spécifiques aux langues occidentales tels que le « à » ou le « ç » typiques de la langue française.

L’Unicode UTF-8 quant à lui est un jeu de caractères universel permettant d’afficher n’importe quels caractères, qu’ils appartiennent à l’alphabet chinois, russe, allemand ou arabe. La dernière version d’Unicode permet la représentation de plus de 130 000 caractères !

 

Pourquoi maintenir ces différents encodages si l’UTF-8 est universel ?

Depuis l’intégration de cette mise à jour, Sarbacane vous propose de choisir, en plus des jeux de caractères habituels, l’Unicode. Même si l’UTF-8 ou Unicode est universel, l’ISO conserve malgré tout un intérêt : le poids de l’encodage. En effet l’ISO consiste à spécifier le jeu de caractères à utiliser, et donc de préciser à l’aide d’un seul octet le caractère à afficher. L’UTF-8 de son côté utilise généralement entre 1 à 4 octets pour pouvoir permettre la distinction de plusieurs dizaines de milliers de caractères. 

La conséquence de l’universalité de l’UTF-8 est donc son poids d’encodage, légèrement plus lourd que l’ISO. Cela étant dit, les ressources en bande passante et en stockage disponibles aujourd’hui diminuent considérablement l’intérêt de l’ISO et l’on observe que ce soit pour le codage d’une page web ou d’un email une standardisation de l’Unicode ou UTF-8.

Le graphique ci-dessous proposé par Google, et basé sur les pages indexées d’un site web en particulier, vous montre où se situe l’Unicode par rapport aux autres grands protocoles en vigueur sur le Net : l’ASCII, ISO 1258, 8859 …

http://www.goopilation.com/2010/01/google-unicode-utf8-50.html

Avantages

Ainsi, grâce à l’Unicode, vous pouvez désormais rédiger un email en arabe ou en mandarin, ou encore mieux rédiger un paragraphe en français, puis proposer dans le même message une traduction dans un autre alphabet, tout en étant certain que vos destinataires puissent vous lire quelles que soient leur lieu de résidence ou leur langue d’origine.

Il s’agit donc là d’une réelle avancée pour ceux qui communiquent (ou ceux qui le souhaitent) de manière internationale avec un alphabet différent de celui utilisé dans notre quotidien.

Dans un souci d’uniformité, nous vous conseillons, et ce quelle que soit votre ambition géographique de communication, de paramétrer, si vous ne l’avez pas encore réalisé, vos nouvelles campagnes en Unicode UTF-8 afin d’éviter tout problème de compatibilité avec des sigles de type €, $, £ ou encore & par exemple.

 

Voici la marche à suivre …

Au moment où vous souhaitez paramétrer l’en-tête de votre message, cliquez sur le menu déroulant « Codage » situé en bas de cette fenêtre.

Un message d’alerte automatique vous alertera sur le fait que l’ensemble des caractères rédigés dans votre message risque de ne pas être représenté correctement.

Cliquez ensuite sur « Autre jeu … ». Le logiciel vous surligne alors en jaune les caractères non pris en compte avec votre choix de jeu de caractères initial. Cliquez tout en bas du menu déroulant proposé pour choisir « Unicode ». Vous apercevrez ainsi que les caractères surlignés en jaune pour indiquer un caractère incompatible ont disparu. Le jeu de caractères prends alors effectivement en compte les caractères désirés.

Sarbacane se souviendra automatiquement de votre dernier choix de codage lors de l’ouverture ou de la création d’une nouvelle campagne.

  • email
  • Print
  • PDF
  • RSS
  • Twitter
  • viadeo FR
  • Facebook
  • LinkedIn
  • Wikio FR
  • Netvibes
  • Yahoo! Buzz
  • Google Bookmarks
  • Live
  • Digg
  • Posterous
  • StumbleUpon
  • Technorati
  • Tumblr
Une réponse à L’Unicode, détail et explications

Laisser un commentaire

Votre adresse email ne sera pas publiée.

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>