0

Kết quả Giải mã

Phi chuẩn hóa (NFD)
Phi chuẩn hóa (NFKD - Tương thích)

Kết quả Mã hóa

Chuẩn hóa (NFC)
Chuẩn hóa (NFKC - Tương thích)

Về Chuẩn hóa Unicode

Chuẩn hóa Unicode là việc phân tách và tổng hợp các ký tự. Các ký tự Unicode có thể có nhiều cách biểu diễn dù trông giống nhau. Ví dụ, "â" có thể được biểu diễn bằng 1 mã point là "â" (U+00E2), hoặc bằng 2 mã point phân tách là "a" (U+0061) và " ̂" (U+0302) (ký tự cơ sở + ký tự kết hợp). Trường hợp trước gọi là ký tự đã tổng hợp (precomposed character), trường hợp sau gọi là chuỗi ký tự kết hợp (combining character sequence, CCS).

Có các loại chuẩn hóa Unicode sau:

Dạng chuẩn hóaMô tảVí dụ
Normalization Form D (NFD)Phân tách theo tương đương chính quy (Canonical Equivalence)"â"(U+00E2) -> "a"(U+0061) + " ̂"(U+0302)
Normalization Form KD (NFKD)Phân tách theo tương đương tương thích (Compatibility Equivalence)"fi"(U+FB01) -> "f"(U+0066) + "i"(U+0069)
Normalization Form C (NFC)Phân tách theo tương đương chính quy và tổng hợp lại"â"(U+00E2) -> "a"(U+0061) + " ̂"(U+0302) -> "â"(U+00E2)
Normalization Form KC (NFKC)Phân tách theo tương đương tương thích và tổng hợp lại theo tương đương chính quy"fi"(U+FB01) -> "f"(U+0066) + "i"(U+0069) -> "f"(U+0066) + "i"(U+0069)

Tương đương chính quy chuẩn hóa trong khi vẫn giữ lại các ký tự tương đương về mặt thị giác và chức năng. Ví dụ: "â" <-> "a" + " ̂"

Tương đương tương thích, ngoài tương đương chính quy, cũng bao gồm các ký tự có dạng khác nhau về mặt ngữ nghĩa trong phạm vi chuẩn hóa. Ví dụ: "fi" -> "f" + "i"