Qu’est-ce que le texte ASCII et comment est-il utilisé?

ASCII est un acronyme que vous avez peut-être entendu en relation avec le texte informatique, mais c'est un terme qui devient rapidement hors d'usage grâce à un nouveau venu plus puissant. Mais qu'est-ce que l'ASCII et à quoi sert-il?

Que signifie ASCII?

L'endroit le plus simple pour commencer est peut-être l'acronyme lui-même, alors développons-le:

Ricainedela S tandard C ode I nformation I nterchange

Cette bouchée d'une phrase ne donne pas vraiment une image complète, mais certaines parties offrent immédiatement des indices, notamment les deux premiers mots. L'ASCII est une norme américaine dont la signification deviendra bientôt évidente.

«Code for Information Interchange» suggère que nous parlons d'un format pour la transmission des données dans les deux sens. Plus précisément, l'ASCII traite des données textuelles: des caractères constituant des mots dans un langage généralement lisible par l'homme.

ASCII résout le problème de la façon d'attribuer des valeurs aux lettres et autres caractères de sorte que, lorsqu'ils sont stockés sous forme de uns et de zéros dans un fichier, ils peuvent être traduits en lettres lorsque le fichier est lu ultérieurement. Si différents systèmes informatiques s'accordent sur le même code à utiliser, ces informations peuvent être interchangées de manière fiable.

En relation: Comment trouver des symboles et rechercher leur signification

L'histoire de l'ASCII

Parfois appelé US-ASCII, ASCII était une innovation américaine développée dans les années 1960. La norme a subi de nombreuses révisions depuis, principalement en 1977 et 1986, lorsque l'ASCII a été mise à jour pour la dernière fois.

Les extensions et les variations se sont appuyées sur l'ASCII au fil des ans, principalement pour tenir compte du fait que l'ASCII omet de nombreux caractères utilisés, voire requis, par des langues autres que l'anglais américain. L'ASCII ne prend même pas en charge le symbole de la devise britannique («£»), bien que la livre soit présente en Latin-1, une extension 8 bits développée dans les années 1980, qui encode également plusieurs autres devises.

L'ASCII a été considérablement étendu et remplacé par Unicode, une norme beaucoup plus complète et ambitieuse, qui est discutée ci-dessous. En 2008, Unicode a dépassé l'ASCII en popularité pour une utilisation en ligne.

Quels caractères ASCII représente-t-il?

Pour un ordinateur, la lettre «A» est tout aussi peu familière que la couleur violette ou le sentiment de jalousie. Les ordinateurs utilisent des uns et des zéros, et c'est aux humains de décider comment utiliser ces uns et ces zéros pour représenter des nombres, des mots, des images et toute autre chose.

Vous pouvez considérer l'ASCII comme le code Morse du monde numérique – la première tentative, en tout cas. Alors que le code Morse est utilisé pour représenter seulement 36 caractères différents (26 lettres et 10 chiffres), l'ASCII a été conçu pour représenter jusqu'à 128 caractères différents sur 7 bits de données.

ASCII est sensible à la casse, ce qui signifie qu'il représente 52 lettres majuscules et minuscules de l'alphabet anglais. Avec les mêmes 10 chiffres, c'est environ la moitié de l'espace utilisé.

Les symboles de ponctuation, mathématiques et typographiques occupent le reste, et une collection de caractères de contrôle, qui sont des codes spéciaux non imprimables avec des significations fonctionnelles – voir ci-dessous pour plus d'informations.

Voici quelques caractères typiques encodés en ASCII:

Binaire Décimal Personnage
010 0001 33 !
011 0000 48 0
011 1001 57 9
011 1011 59 ;
100 0001 65 UNE
100 0010 66 B
101 1010 90 Z
101 1011 91 [
110 0001 97 une
110 0010 98 b
111 1101 125 }

Notez que les valeurs choisies ont quelques propriétés utiles, notamment:

  • Les lettres de la même casse peuvent toujours être triées numériquement puisqu'elles sont dans l'ordre. Par exemple, A a une valeur inférieure à B, qui a une valeur inférieure à Z.
  • Les lettres de casse différentes sont décalées d'exactement 32. Cela rend très facile la traduction entre les minuscules et les majuscules car un seul bit doit être commuté pour chaque lettre, dans les deux cas.

Caractères de contrôle

Outre les lettres, la ponctuation et les chiffres, l'ASCII peut représenter un certain nombre de caractères de contrôle, des points de code spéciaux qui ne produisent pas de sortie à un seul caractère, mais fournissent à la place des significations alternatives sur les données à tout ce qui pourrait les consommer.

Par exemple, ASCII 000 1001 est le caractère de tabulation horizontale. Il représente l'espace que vous obtiendrez lorsque vous appuyez sur la touche TAB. Vous ne verrez généralement pas ces caractères directement, mais leur effet sera souvent montré. Voici quelques exemples supplémentaires:

Binaire Décimal Personnage
000 1001 9 Onglet horizontal
000 1010 dix Saut de ligne
001 0111 23 Fin du bloc de transmission

Et les autres personnages?

L'ASCII a connu un énorme succès pendant les premiers jours de l'informatique car il était simple et largement adopté. Cependant, dans un monde avec une perspective plus internationale, un système d'écriture ne suffit pas. Les communications modernes doivent être possibles en français, en japonais – en fait, dans toutes les langues dans lesquelles nous souhaitons stocker du texte.

Le jeu de caractères Unicode peut adresser un total de 1 112 064 caractères différents, même si seulement environ un dixième de ceux-ci sont actuellement définis. Cela peut sembler beaucoup, mais l'encodage vise non seulement à prendre en charge des dizaines de milliers de caractères chinois, mais également les emoji (près d'un millier et demi) et même les systèmes d'écriture éteints tels que Jurchen.

En relation: Les 100 émojis les plus populaires expliqués

Unicode a reconnu la domination de l'ASCII dans son choix des 128 premiers caractères: ils sont exactement les mêmes que l'ASCII. Cela permet aux fichiers encodés en ASCII d'être utilisés dans des situations où Unicode est attendu, offrant une compatibilité descendante.

Sommaire

Le texte ASCII représente les 26 lettres de l'alphabet anglais, avec des chiffres, des signes de ponctuation et quelques autres symboles ajoutés. Il a très bien rempli son rôle pendant la meilleure partie d'un demi-siècle,

Il a maintenant été remplacé par Unicode, qui prend en charge un grand nombre de langues et d'autres symboles, y compris les emoji. UTF-8 est, à toutes fins pratiques, l'encodage qui doit être utilisé pour représenter les caractères Unicode en ligne.