0

Gedecodeerd

Unicode NFD
Unicode NFKD

Gecodeerd

Unicode NFC
Unicode NFKC

Over Unicode-normalisatie

Unicode-normalisatie betekent het ontleden en samenstellen van tekens. Sommige Unicode-tekens hebben meerdere representatiemethoden, zelfs als ze er hetzelfde uitzien. Bijvoorbeeld, "â" kan worden weergegeven als één codepunt "â" (U+00E2), of als twee ontlede codepunten (basisteken + combinerend teken) "a" (U+0061) en " ̂" (U+0302). Het eerste wordt een voorgesamengesteld teken genoemd, en het laatste een combinerende tekenreeks (combining character sequence, CCS).

Er zijn de volgende soorten Unicode-normalisatie:

NormalisatievormBeschrijvingVoorbeeld
Normalization Form D (NFD)Ontleden volgens canonieke equivalentie「â」(U+00E2) -> 「a」(U+0061) + 「 ̂」(U+0302)
Normalization Form KD (NFKD)Ontleden volgens compatibiliteitsequivalentie「fi」(U+FB01) -> 「f」(U+0066) + 「i」(U+0069)
Normalization Form C (NFC)Ontleden volgens canonieke equivalentie en opnieuw samenstellen「â」(U+00E2) -> 「a」(U+0061) + 「 ̂」(U+0302) -> 「â」(U+00E2)
Normalization Form KC (NFKC)Ontleden volgens compatibiliteitsequivalentie en canoniek opnieuw samenstellen「fi」(U+FB01) -> 「f」(U+0066) + 「i」(U+0069) -> 「f」(U+0066) + 「i」(U+0069)

Canonieke equivalentie normaliseert met behoud van visueel en functioneel equivalente tekens. Bijv. 「â」 <-> 「a」 + 「 ̂」

Compatibiliteitsequivalentie omvat, naast canonieke equivalentie, ook de normalisatie van tekens die semantisch verschillende vormen aannemen. Bijv. 「fi」 -> 「f」 + 「i」