Нормализация Unicode (NFC, NFKC, NFD, NFKD) Конвертер онлайн

Декодировано

Unicode NFD
Unicode NFKD

Закодировано

Unicode NFC
Unicode NFKC

Другие конвертеры строк здесь

О Нормализации Unicode

Нормализация Unicode - это декомпозиция и композиция символов. Некоторые символы Unicode имеют одинаковый внешний вид, но имеют несколько представлений. Например, «â» может быть представлен как одна кодовая точка для «â» (U+00E2) и две разложенные кодовые точки для «a» (U+0061) и « ̂» (U+0302). Его также можно выразить как (базовый символ + объединяющий символ). Первый называется предварительно составленным символом, а второй - последовательностью комбинируемых символов (combining character sequence, CCS).

Существуют следующие типы нормализации Unicode:

Форма нормализации	Описание	пример
Normalization Form D (NFD)	Персонажи разлагаются по канонической эквивалентности	«â» (U+00E2) -> «a» (U+0061) + « ̂» (U+0302)
Normalization Form KD (NFKD)	Персонажи разложены по совместимости	«ﬁ» (U+FB01) -> «f» (U+0066) + «i» (U+0069)
Normalization Form C (NFC)	Персонажи раскладываются, а затем перекомпоновываются в соответствии с канонической эквивалентностью	«â» (U+00E2) -> «a» (U+0061) + « ̂» (U+0302) -> «â» (U+00E2)
Normalization Form KC (NFKC)	Символы разлагаются по совместимости, а затем перекомпоновываются в соответствии с канонической эквивалентностью	«ﬁ» (U+FB01) -> «f» (U+0066) + «i» (U+0069) -> «f» (U+0066) + «i» (U+0069)

Каноническая эквивалентность нормализуется при сохранении визуально и функционально эквивалентных символов. например «â» <-> «a» + « ̂»

Помимо канонической эквивалентности, эквивалентность совместимости также нормализует символы, имеющие разные семантические формы. например «ﬁ» -> «f» + «i»