ToolPilot

Convertisseur d'encodage

Corrigez les problèmes d'encodage (mojibake) dans vos textes. Convertissez entre UTF-8 et Latin-1, visualisez les octets et réparez les caractères mal encodés.

Exemples courants de mojibake (UTF-8 lu comme Latin-1)

Texte corrompuTexte corrigé
éé
èè
à à
ââ
îî
ôô
ùù
çç
ëë
ïï
üü

Cliquez sur un exemple pour le charger dans le champ de saisie.

Réparez et convertissez l'encodage de vos textes en ligne

Pourquoi utiliser un convertisseur d'encodage de texte ?

L'encodage de texte est un système qui associe chaque caractère à une séquence d'octets permettant son stockage et sa transmission numérique. Lorsque deux systèmes utilisent des encodages incompatibles, des caractères illisibles ou absurdes apparaissent — un phénomène appelé mojibake. Ces corruptions sont fréquentes lors de migrations de bases de données, d'imports de fichiers CSV ou d'échanges entre applications anciennes et modernes.

UTF-8 est aujourd'hui le standard universel pour l'encodage du texte sur le web et dans la majorité des systèmes modernes, car il supporte l'intégralité du répertoire Unicode, soit plus de 140 000 caractères couvrant toutes les langues du monde. En revanche, Latin-1 (ISO-8859-1) est un encodage hérité limité à 256 caractères, conçu pour les langues d'Europe occidentale. La confusion entre ces deux encodages est la cause la plus courante de mojibake pour les textes français, espagnols ou allemands.

Notre outil de conversion d'encodage vous permet de diagnostiquer et réparer instantanément des textes corrompus sans aucune installation logicielle. La visualisation des octets hexadécimaux facilite la compréhension des différences entre encodages et aide les développeurs à identifier précisément la source d'un problème. Que vous soyez développeur, administrateur de base de données ou simple utilisateur confronté à des caractères étranges, cet outil vous offre une solution rapide et fiable.

Cas d'utilisation courants

Réparation de mojibake
Les textes affichant des séquences comme « é » à la place de « é », ou « à » à la place de « à », sont victimes de mojibake UTF-8/Latin-1. Cet outil réinterprète les octets du texte dans le bon encodage source afin de restituer les caractères originaux. Il est particulièrement utile pour corriger des données importées depuis des anciens systèmes ou des fichiers mal étiquetés.
Conversion de fichiers legacy vers UTF-8
De nombreux systèmes d'information anciens stockent leurs données en Latin-1, Windows-1252 ou ISO-8859-15. Lors d'une migration vers une application moderne, il est indispensable de convertir ces données en UTF-8 pour éviter toute corruption. Notre convertisseur prend en charge ces transformations et vous permet de vérifier le résultat avant d'appliquer la conversion à grande échelle.
Débogage d'API et de flux de données
Les développeurs intégrant des API tierces ou traitant des flux JSON, XML ou CSV rencontrent parfois des problèmes d'encodage lorsque les en-têtes HTTP ou les métadonnées de fichier déclarent un encodage incorrect. La visualisation octet par octet proposée par cet outil permet d'identifier rapidement si le contenu est réellement encodé en UTF-8 ou dans un autre jeu de caractères, facilitant ainsi le débogage.
Analyse et apprentissage de l'encodage Unicode
Pour les étudiants, formateurs et développeurs souhaitant comprendre les mécanismes internes de l'encodage Unicode, la vue hexadécimale offre une représentation pédagogique des séquences d'octets correspondant à chaque caractère. Il devient ainsi facile de visualiser pourquoi un caractère accentué occupe deux octets en UTF-8, ou pourquoi certaines émojis nécessitent quatre octets.

Comment fonctionne le convertisseur d'encodage ?

Collez ou saisissez votre texte dans le champ de saisie, puis sélectionnez l'encodage source (par exemple Latin-1 ou Windows-1252) ainsi que l'encodage cible souhaité (généralement UTF-8). L'outil réinterprète immédiatement les octets du texte selon l'encodage source spécifié.

Le moteur de conversion analyse chaque séquence d'octets du texte d'entrée, la décode conformément à la table de caractères de l'encodage source, puis la réencode selon la norme cible. Cette opération préserve la sémantique de chaque caractère tout en adaptant sa représentation binaire au nouvel encodage.

Le texte converti s'affiche instantanément dans le champ de résultat, accompagné d'une visualisation hexadécimale optionnelle des octets avant et après conversion. Vous pouvez copier le résultat en un clic ou l'exporter pour l'utiliser directement dans votre application, base de données ou fichier.

Questions fréquentes

Qu'est-ce que le mojibake et comment se produit-il ?
Le mojibake (mot japonais signifiant littéralement « transformation de caractères ») désigne l'affichage de séquences de caractères absurdes résultant d'une mauvaise interprétation de l'encodage d'un texte. Il se produit lorsqu'un texte encodé dans un jeu de caractères donné (par exemple UTF-8) est lu par un système qui le traite comme s'il était encodé différemment (par exemple Latin-1). Les octets sont identiques, mais leur signification change selon la table de correspondance utilisée, produisant des caractères parasites comme « é » pour « é ».
Quelle est la différence entre UTF-8 et Latin-1 (ISO-8859-1) ?
UTF-8 est un encodage à longueur variable capable de représenter tous les caractères du standard Unicode (plus de 140 000 points de code), en utilisant de 1 à 4 octets par caractère. Les caractères ASCII de base occupent un seul octet, tandis que les caractères accentués en nécessitent deux. Latin-1, ou ISO-8859-1, est un encodage à longueur fixe d'un octet par caractère, limité à 256 caractères couvrant l'alphabet latin de base et les caractères d'Europe occidentale. Les 128 premiers codes sont identiques entre les deux encodages, ce qui explique pourquoi les confusions ne se manifestent que sur les caractères spéciaux.
Comment détecter automatiquement l'encodage d'un texte inconnu ?
La détection automatique de l'encodage repose sur des algorithmes statistiques et heuristiques qui analysent les séquences d'octets pour déterminer l'encodage le plus probable. Des bibliothèques comme chardet (Python) ou jschardet (JavaScript) utilisent cette approche. Cependant, la détection automatique n'est jamais garantie à 100 %, surtout pour les textes courts ou multilingues. Notre outil vous permet de tester manuellement différents encodages source afin d'identifier celui qui produit un texte lisible.
Est-il possible de corriger un fichier entièrement corrompu par un problème d'encodage ?
Dans la plupart des cas, oui — à condition que la corruption soit due à une mauvaise interprétation de l'encodage et non à une perte de données physique. Si les octets originaux sont intacts et que seule leur interprétation est erronée, il suffit de les relire avec le bon encodage source pour récupérer le texte original. En revanche, si le texte a déjà subi plusieurs conversions successives avec des encodages incorrects, une partie de l'information peut être définitivement perdue, car certaines séquences d'octets invalides sont parfois remplacées par des caractères de remplacement lors du processus.
Mes données personnelles sont-elles protégées ?
Entièrement. Le calcul est réalisé à 100 % côté client, directement dans votre navigateur web. Aucune donnée personnelle n'est envoyée vers un serveur distant ni stockée. Toutes les informations restent sur votre appareil.