Unicode एस्केप (\u %u \x &#x U+ 0x \N) एन्कोडर / डिकोडर ऑनलाइन

डिकोड परिणाम

Unicode एस्केप

एन्कोड परिणाम

Unicode एस्केप	प्रारूप A-F

अन्य स्ट्रिंग रूपांतरण यहाँ

Unicode Escape Sequence के बारे में

स्ट्रिंग को Unicode Escape Sequence प्रारूप में बदलता है।

Unicode Escape Sequence एक वर्ण को \uXXXX जैसे 4-अंकीय हेक्साडेसिमल कोडपॉइंट प्रारूप में परिवर्तित करता है। उदाहरण के लिए, "あ" "\u3042" हो जाता है।

DenCode \uXXXX प्रारूप के अलावा निम्नलिखित नोटेशन प्रारूपों का भी समर्थन करता है।

प्रारूप	"ABC" का रूपांतरण परिणाम	विवरण / प्रोग्रामिंग भाषा
\uXXXX	\u0041\u0042\u0043	General Unicode Escape Sequence
\u{X}	\u{41}\u{42}\u{43}	Lua
\x{X}	\x{41}\x{42}\x{43}	Perl
\X	\41\42\43	CSS
&#xX;	ABC	HTML, XML
%uXXXX	%u0041%u0042%u0043	Percent Encoding (गैर-मानक)
U+XXXX	U+0041 U+0042 U+0043	कोडपॉइंट का Unicode मानक नोटेशन (स्पेस से अलग)
0xX	0x41 0x42 0x43	कोडपॉइंट का हेक्साडेसिमल नोटेशन (स्पेस से अलग)

उपरोक्त कुछ प्रारूप RFC 5137 (ASCII Escaping of Unicode Characters) में BEST CURRENT PRACTICE के रूप में वर्णित हैं, लेकिन कोई अंतरराष्ट्रीय मानक नहीं है।

%uXXXX प्रारूप Microsoft IIS द्वारा समर्थित है, लेकिन यह एक गैर-मानक प्रारूप है। C# के System.Web.HttpUtility.UrlEncodeUnicode से %u प्रारूप में एन्कोड किया जा सकता है, लेकिन यह विधि .NET Framework 4.5 से पदावनत (deprecated) है।

\X प्रारूप के लिए, कृपया ध्यान दें कि CSS विनिर्देश के रूप में, डिकोडिंग के दौरान बाद में आने वाले एक आधे-चौड़ाई वाले स्थान (half-width space) को सीमांकक (delimiter) के रूप में माना जाता है और अनदेखा कर दिया जाता है। U+XXXX या 0xX प्रारूप में, एन्कोडिंग के दौरान प्रत्येक वर्ण को आधे-चौड़ाई वाले स्थान से अलग किया जाता है, और डिकोडिंग के दौरान \X प्रारूप की तरह बाद में आने वाले निरंतर आधे-चौड़ाई वाले स्थान को अनदेखा कर दिया जाता है।

Unicode नाम द्वारा Escape (Escape by Unicode Name)

Unicode Escape Sequence के रूप में, हम Unicode नामों द्वारा एस्केप का भी समर्थन करते हैं।

प्रारूप	"A" का रूपांतरण परिणाम	विवरण / प्रोग्रामिंग भाषा
\N{name}	\N{LATIN CAPITAL LETTER A}	C++23, Python, Perl

Unicode नामों की पुष्टि Names List Charts - Unicode या NamesList.txt - Unicode पर की जा सकती है।

Unicode Escape Sequence में Unicode BMP सीमा से बाहर के वर्ण

Unicode के गैर-BMP वर्णों के लिए, क्योंकि कोडपॉइंट 4 अंकों में फिट नहीं होते हैं, इसलिए उन्हें प्रोग्रामिंग भाषा के अनुसार निम्नलिखित नोटेशन प्रारूपों में दर्शाया जाता है।

उदाहरण के लिए, "😀"(U+1F600) को बदलने पर परिणाम इस प्रकार है।

प्रारूप	"😀"(U+1F600) का रूपांतरण परिणाम	प्रोग्रामिंग भाषा
\uXXXX	\uD83D\uDE00	Java, Kotlin, Scala
\u{X}	\u{1F600}	C++23, Rust, Swift, JavaScript, PHP, Ruby, Dart, Lua
\U00XXXXXX	\U0001F600	C, C++, Objective-C, C#, Go, Python, R
\x{X}	\x{1F600}	Perl
\X	\1F600	CSS
&#xX;	😀	HTML, XML
%uXXXX	%uD83D%uDE00	-
U+XXXX	U+1F600	-
0xX	0x1F600	-
\N{name}	\N{GRINNING FACE}	C++23, Python, Perl

\uXXXX और %uXXXX प्रारूप में, गैर-BMP वर्णों को UTF-16 के सरोगेट पेयर (surrogate pair) के रूप में 2 कोड यूनिट्स में दर्शाया जाता है। अन्य प्रारूपों में, 1 वर्ण को 1 कोडपॉइंट द्वारा दर्शाया जाता है।