0

Décodé

Unicode NFD
Unicode NFKD

Encodé

Unicode NFC
Unicode NFKC

À propos de la normalisation Unicode

La normalisation Unicode est le processus de décomposition et de composition des caractères. Certains caractères Unicode ont la même apparence mais peuvent être représentés de plusieurs manières. Par exemple, "â" peut être représenté comme un seul point de code "â" (U+00E2) ou comme deux points de code décomposés "a" (U+0061) et " ̂" (U+0302) (caractère de base + caractère combiné). Le premier est appelé caractère précomposé et le second est appelé séquence de caractères combinés (combining character sequence, CCS).

Il existe les types de normalisation Unicode suivants.

Forme de normalisationDescriptionExemple
Normalization Form D (NFD)Décomposition canonique"â"(U+00E2) -> "a"(U+0061) + " ̂"(U+0302)
Normalization Form KD (NFKD)Décomposition de compatibilité"fi"(U+FB01) -> "f"(U+0066) + "i"(U+0069)
Normalization Form C (NFC)Décomposition canonique suivie de la composition canonique"â"(U+00E2) -> "a"(U+0061) + " ̂"(U+0302) -> "â"(U+00E2)
Normalization Form KC (NFKC)Décomposition de compatibilité suivie de la composition canonique"fi"(U+FB01) -> "f"(U+0066) + "i"(U+0069) -> "f"(U+0066) + "i"(U+0069)

L'équivalence canonique normalise tout en préservant les caractères visuellement et fonctionnellement équivalents. Ex. "â" <-> "a" + " ̂"

L'équivalence de compatibilité normalise également les caractères qui prennent des formes sémantiquement différentes, en plus de l'équivalence canonique. Ex. "fi" -> "f" + "i"