Convertisseur d’Homoglyphes — Détecter et Nettoyer l’Unicode
La conversion s'effectue au mieux : les confusables mappés et le pliage NFKC sont déterministes, mais certains Unicode légitimes ne seront pas signalés.
Coller ou taper : les résultats sont mis à jour au fur et à mesure que vous tapez (légèrement rebondis pour une saisie longue).
Les caractères suspects dans la vue d'origine sont soulignés et étiquetés « susp ». en plus de mettre en évidence la couleur.
Aucun caractère à analyser pour l'instant. Collez le texte ci-dessus pour voir une répartition des homoglyphes et des éléments confondables.
Détectez les caractères Unicode trompeurs et convertissez-les en ASCII plus sûr ou Unicode normalisé. Gratuit, dans le navigateur.
Que fait ce convertisseur d'homoglyphes
Un convertisseur d'homoglyphes détecte les caractères Unicode qui peuvent ressembler à des lettres ou des chiffres latins ordinaires (confusables) et montre comment ils ont été normalisés ou remplacés. Vous pouvez également exécuter Generate homoglyphs pour créer des chaînes déterministes de type usurpation à partir d'ASCII simple à des fins de test. Ce convertisseur de confusions gratuit et ce vérificateur de confusion Unicode s'exécutent entièrement dans votre navigateur. Utilisez-le comme outil de normalisation Unicode, nettoyeur de texte frauduleux ou convertisseur de caractères similaires pour la sécurité et la modération.
Comment utiliser cet outil de normalisation Unicode
- Collez ou tapez le texte que vous souhaitez inspecter dans la zone de saisie.
- Choisissez Conserver l'Unicode lisible, Repli ASCII strict ou Générer des homoglyphes selon que vous nettoyez du texte collé ou créez des échantillons de test à partir d'ASCII.
- Comparez l'original (avec les surbrillances) et la sortie côte à côte ; examinez le tableau d’analyse pour connaître les points de code et les raisons.
- Utilisez Copier le texte de sortie pour copier le résultat ou Effacer pour réinitialiser.
Modes de conversion : Unicode lisible vs Unicode vers ASCII vs générer
- Preserve Readable Unicode applique d'abord la carte de confusables fournie, puis la normalisation NFKC lorsqu'elle modifie un caractère. La sortie peut toujours contenir des lettres non-ASCII qui n'ont pas été signalées.
- Strict ASCII Fallback utilise les mêmes règles de détection mais préfère les remplacements ASCII de la carte. Les caractères qui ne figurent pas sur la carte restent tels quels à moins que NFKC ne les modifie ; ce mode est plus strict et meilleur pour les flux de travail de nettoyage de texte usurpé.
- Générer des homoglyphes parcourt votre entrée de gauche à droite et remplace chaque lettre ou chiffre ASCII par un seul homoglyphe déterministe de la même carte groupée (inverse du nettoyage). Les caractères sans substitut choisi restent ASCII.
Ce qui est considéré comme suspect ici
Dans les modes de nettoyage, un caractère est signalé lorsqu'il est connu comme pouvant être confondu avec un remplacement défini, ou lorsque la normalisation NFKC le modifie (par exemple des chiffres pleine chasse). En mode génération, « suspect » marque chaque position où une lettre ou un chiffre ASCII a été remplacé. Il ne s’agit pas d’un audit de sécurité Unicode complet, mais uniquement de règles déterministes.
Cas d'utilisation courants
- Vérification des noms d'utilisateur, des domaines ou des attaques d'homoglyphes usurpés dans les chaînes collées.
- Modération et examen de la confiance et de la sécurité des astuces de caractères ressemblants.
- Débogage par les développeurs des problèmes d'encodage avec une vue du détecteur d'homoglyphes.
Limites et notes de sécurité
La carte groupée couvre les sosies courants en cyrillique, en grec et en pleine largeur, tous les Unicode ne pouvant pas être confondus. Le mode Générer est réservé aux tests autorisés ; ne l'utilisez pas pour tromper les gens ou contourner les protections. Les résultats sont des scores de risque déterministes et non basés sur le ML. Combinez toujours avec un examen humain pour les décisions à enjeux élevés.
Confidentialité
Toutes les détections et conversions s'exécutent localement en JavaScript après le chargement de la page. Aucun texte n'est envoyé à un serveur pour traitement.
Foire aux questions
Qu'est-ce qu'un homoglyphe ?
Un homoglyphe est un caractère qui ressemble à un autre caractère provenant d’une écriture ou d’un codage différent, comme un « а » cyrillique qui ressemble au « a » latin. Les attaquants les utilisent dans des domaines, des noms d'utilisateur et des messages usurpés. Cet outil fait apparaître ces caractères avec des points de code et des remplacements.
En quoi est-ce différent de la normalisation Unicode ?
La normalisation Unicode (par exemple NFKC) regroupe les variantes de compatibilité et de largeur de manière standard. Cet outil combine NFKC avec une petite carte explicite et confuse afin que vous puissiez voir pourquoi chaque caractère a été signalé – utile au-delà d'une simple passe d'outil de normalisation Unicode.
Le mode ASCII strict modifiera-t-il le texte légitime non anglais ?
Le repli ASCII strict remplace les caractères qui apparaissent dans la carte de confusables fournie ou qui changent sous NFKC. Les autres lettres non-ASCII restent inchangées. Le texte légitime peut toujours changer s'il contient ces caractères mappés, alors consultez la liste d'analyse.
Mon texte est-il envoyé à un serveur ?
Non. Une fois la page chargée, la détection et la conversion utilisent uniquement JavaScript. Ce convertisseur de confusion ne télécharge pas votre pâte pour analyse.
Est-ce que cela peut détecter toutes les usurpations ?
Non. La couverture est déterministe et basée sur des cartes, et non sur l'apprentissage automatique. Cela aide avec les astuces courantes des caractères ressemblants, mais ne constitue pas un audit de sécurité complet.
À quoi sert le mode Générer des homoglyphes ?
Il remplace les lettres et les chiffres ASCII dans votre entrée par des sosies déterministes de la même carte groupée utilisée pour le nettoyage, utile pour créer des chaînes de test dans des environnements autorisés (par exemple, contrôle qualité de modération). Il ne s’agit pas d’usurpation d’identité ou de contournement des protections.