0

Decodificato

Unicode NFD
Unicode NFKD

Codificato

Unicode NFC
Unicode NFKC

Informazioni sulla Normalizzazione Unicode

La normalizzazione Unicode è il processo di scomposizione e composizione dei caratteri. Alcuni caratteri Unicode hanno lo stesso aspetto ma più rappresentazioni. Ad esempio, "â" può essere rappresentato come un singolo punto di codice "â" (U+00E2) o come due punti di codice scomposti "a" (U+0061) e " ̂" (U+0302) (carattere base + carattere combinante). Il primo è chiamato carattere precomposto e il secondo sequenza di caratteri combinanti (CCS).

Esistono i seguenti tipi di normalizzazione Unicode:

Forma di normalizzazioneDescrizioneEsempio
Normalization Form D (NFD)Scomposizione canonica"â"(U+00E2) -> "a"(U+0061) + " ̂"(U+0302)
Normalization Form KD (NFKD)Scomposizione di compatibilità"fi"(U+FB01) -> "f"(U+0066) + "i"(U+0069)
Normalization Form C (NFC)Scomposizione canonica seguita da composizione canonica"â"(U+00E2) -> "a"(U+0061) + " ̂"(U+0302) -> "â"(U+00E2)
Normalization Form KC (NFKC)Scomposizione di compatibilità seguita da composizione canonica"fi"(U+FB01) -> "f"(U+0066) + "i"(U+0069) -> "f"(U+0066) + "i"(U+0069)

L'equivalenza canonica normalizza mantenendo caratteri visivamente e funzionalmente equivalenti. Es. "â" <-> "a" + " ̂"

L'equivalenza di compatibilità include, oltre all'equivalenza canonica, anche caratteri che assumono forme semanticamente diverse come oggetto della normalizzazione. Es. "fi" -> "f" + "i"