0

डिकोड परिणाम

असामान्यीकरण
असामान्यीकरण (संगतता)

एन्कोड परिणाम

सामान्यीकरण
सामान्यीकरण (संगतता)

Unicode Normalization के बारे में

Unicode Normalization का अर्थ है वर्णों का अपघटन (decomposition) और संरचना (composition)। Unicode के कुछ वर्ण दृष्टिगत रूप से समान होते हैं लेकिन उनके प्रतिनिधित्व के कई तरीके होते हैं। उदाहरण के लिए, "â" को "â" (U+00E2) के 1 कोडपॉइंट के रूप में भी दर्शाया जा सकता है, और "a" (U+0061) और "̂" (U+0302) के 2 अपघटित कोडपॉइंट्स (आधार वर्ण + संयोजन वर्ण) के रूप में भी दर्शाया जा सकता है। पहले वाले को पूर्व-संयोजित वर्ण (precomposed character) और बाद वाले को संयोजन वर्ण अनुक्रम (combining character sequence, CCS) कहा जाता है।

Unicode Normalization के निम्नलिखित प्रकार हैं।

Normalization Formविवरणउदाहरण
Normalization Form D (NFD)Canonical Equivalence द्वारा अपघटन"â"(U+00E2) -> "a"(U+0061) + "̂"(U+0302)
Normalization Form KD (NFKD)Compatibility Equivalence द्वारा अपघटन"fi"(U+FB01) -> "f"(U+0066) + "i"(U+0069)
Normalization Form C (NFC)Canonical Equivalence द्वारा अपघटन और पुन: संयोजन"â"(U+00E2) -> "a"(U+0061) + "̂"(U+0302) -> "â"(U+00E2)
Normalization Form KC (NFKC)Compatibility Equivalence द्वारा अपघटन, और Canonical Equivalence द्वारा पुन: संयोजन"fi"(U+FB01) -> "f"(U+0066) + "i"(U+0069) -> "f"(U+0066) + "i"(U+0069)

Canonical Equivalence उन वर्णों को सामान्य (normalize) करता है जो दृष्टिगत और कार्यात्मक रूप से समान हैं। उदाहरण: "â" <-> "a" + "̂"

Compatibility Equivalence में, Canonical Equivalence के अलावा, अर्थगत रूप से भिन्न रूप लेने वाले वर्ण भी सामान्यीकरण का विषय होते हैं। उदाहरण: "fi" -> "f" + "i"