0

डिकोड परिणाम

Unicode एस्केप

एन्कोड परिणाम

Unicode एस्केप
प्रारूप
A-F

Unicode Escape Sequence के बारे में

स्ट्रिंग को Unicode Escape Sequence प्रारूप में बदलता है।

Unicode Escape Sequence एक वर्ण को \uXXXX जैसे 4-अंकीय हेक्साडेसिमल कोडपॉइंट प्रारूप में परिवर्तित करता है। उदाहरण के लिए, "あ" "\u3042" हो जाता है।

DenCode \uXXXX प्रारूप के अलावा निम्नलिखित नोटेशन प्रारूपों का भी समर्थन करता है।

प्रारूप"ABC" का रूपांतरण परिणामविवरण / प्रोग्रामिंग भाषा
\uXXXX\u0041\u0042\u0043General Unicode Escape Sequence
\u{X}\u{41}\u{42}\u{43}Lua
\x{X}\x{41}\x{42}\x{43}Perl
\X\41\42\43CSS
&#xX;ABCHTML, XML
%uXXXX%u0041%u0042%u0043Percent Encoding (गैर-मानक)
U+XXXXU+0041 U+0042 U+0043कोडपॉइंट का Unicode मानक नोटेशन (स्पेस से अलग)
0xX0x41 0x42 0x43कोडपॉइंट का हेक्साडेसिमल नोटेशन (स्पेस से अलग)

उपरोक्त कुछ प्रारूप RFC 5137 (ASCII Escaping of Unicode Characters) में BEST CURRENT PRACTICE के रूप में वर्णित हैं, लेकिन कोई अंतरराष्ट्रीय मानक नहीं है।

%uXXXX प्रारूप Microsoft IIS द्वारा समर्थित है, लेकिन यह एक गैर-मानक प्रारूप है। C# के System.Web.HttpUtility.UrlEncodeUnicode से %u प्रारूप में एन्कोड किया जा सकता है, लेकिन यह विधि .NET Framework 4.5 से पदावनत (deprecated) है।

\X प्रारूप के लिए, कृपया ध्यान दें कि CSS विनिर्देश के रूप में, डिकोडिंग के दौरान बाद में आने वाले एक आधे-चौड़ाई वाले स्थान (half-width space) को सीमांकक (delimiter) के रूप में माना जाता है और अनदेखा कर दिया जाता है। U+XXXX या 0xX प्रारूप में, एन्कोडिंग के दौरान प्रत्येक वर्ण को आधे-चौड़ाई वाले स्थान से अलग किया जाता है, और डिकोडिंग के दौरान \X प्रारूप की तरह बाद में आने वाले निरंतर आधे-चौड़ाई वाले स्थान को अनदेखा कर दिया जाता है।

Unicode नाम द्वारा Escape (Escape by Unicode Name)

Unicode Escape Sequence के रूप में, हम Unicode नामों द्वारा एस्केप का भी समर्थन करते हैं।

प्रारूप"A" का रूपांतरण परिणामविवरण / प्रोग्रामिंग भाषा
\N{name}\N{LATIN CAPITAL LETTER A}C++23, Python, Perl

Unicode नामों की पुष्टि Names List Charts - Unicode या NamesList.txt - Unicode पर की जा सकती है।

Unicode Escape Sequence में Unicode BMP सीमा से बाहर के वर्ण

Unicode के गैर-BMP वर्णों के लिए, क्योंकि कोडपॉइंट 4 अंकों में फिट नहीं होते हैं, इसलिए उन्हें प्रोग्रामिंग भाषा के अनुसार निम्नलिखित नोटेशन प्रारूपों में दर्शाया जाता है।

उदाहरण के लिए, "😀"(U+1F600) को बदलने पर परिणाम इस प्रकार है।

प्रारूप"😀"(U+1F600) का रूपांतरण परिणामप्रोग्रामिंग भाषा
\uXXXX\uD83D\uDE00Java, Kotlin, Scala
\u{X}\u{1F600}C++23, Rust, Swift, JavaScript, PHP, Ruby, Dart, Lua
\U00XXXXXX\U0001F600C, C++, Objective-C, C#, Go, Python, R
\x{X}\x{1F600}Perl
\X\1F600CSS
&#xX;😀HTML, XML
%uXXXX%uD83D%uDE00-
U+XXXXU+1F600-
0xX0x1F600-
\N{name}\N{GRINNING FACE}C++23, Python, Perl

\uXXXX और %uXXXX प्रारूप में, गैर-BMP वर्णों को UTF-16 के सरोगेट पेयर (surrogate pair) के रूप में 2 कोड यूनिट्स में दर्शाया जाता है। अन्य प्रारूपों में, 1 वर्ण को 1 कोडपॉइंट द्वारा दर्शाया जाता है।