0

Декодировано

Unicode NFD
Unicode NFKD

Закодировано

Unicode NFC
Unicode NFKC

О Нормализации Unicode

Нормализация Unicode - это декомпозиция и композиция символов. Некоторые символы Unicode имеют одинаковый внешний вид, но имеют несколько представлений. Например, «â» может быть представлен как одна кодовая точка для «â» (U+00E2) и две разложенные кодовые точки для «a» (U+0061) и « ̂» (U+0302). Его также можно выразить как (базовый символ + объединяющий символ). Первый называется предварительно составленным символом, а второй - последовательностью комбинируемых символов (combining character sequence, CCS).

Существуют следующие типы нормализации Unicode:

Форма нормализацииОписаниепример
Normalization Form D (NFD)Персонажи разлагаются по канонической эквивалентности«â» (U+00E2) -> «a» (U+0061) + « ̂» (U+0302)
Normalization Form KD (NFKD)Персонажи разложены по совместимости«fi» (U+FB01) -> «f» (U+0066) + «i» (U+0069)
Normalization Form C (NFC)Персонажи раскладываются, а затем перекомпоновываются в соответствии с канонической эквивалентностью«â» (U+00E2) -> «a» (U+0061) + « ̂» (U+0302) -> «â» (U+00E2)
Normalization Form KC (NFKC)Символы разлагаются по совместимости, а затем перекомпоновываются в соответствии с канонической эквивалентностью«fi» (U+FB01) -> «f» (U+0066) + «i» (U+0069) -> «f» (U+0066) + «i» (U+0069)

Каноническая эквивалентность нормализуется таким образом, чтобы сохранить визуально и функционально эквивалентные символы. например «â» <-> «a» + « ̂»

Помимо канонической эквивалентности, эквивалентность совместимости также нормализует символы, имеющие разные семантические формы. например «fi» -> «f» + «i»