0

Resultado Decodificado

Unicode Escape

Resultado Codificado

Unicode Escape
Notación
A-F

Sobre secuencias de escape Unicode

Convierte cadenas al formato de secuencia de escape Unicode.

La secuencia de escape Unicode convierte un carácter a un formato de punto de código hexadecimal de 4 dígitos como \uXXXX. Por ejemplo, "あ" se convierte en "\u3042".

En DenCode, además del formato \uXXXX, también se soportan las siguientes notaciones:

FormatoResultado de conversión "ABC"Descripción / Lenguaje de programación
\uXXXX\u0041\u0042\u0043Secuencia de escape Unicode común
\u{X}\u{41}\u{42}\u{43}Lua
\x{X}\x{41}\x{42}\x{43}Perl
\X\41\42\43CSS
&#xX;ABCHTML, XML
%uXXXX%u0041%u0042%u0043Codificación porcentual (no estándar)
U+XXXXU+0041 U+0042 U+0043Notación estándar Unicode de punto de código (separado por espacios)
0xX0x41 0x42 0x43Notación hexadecimal de punto de código (separado por espacios)

Algunos de los formatos anteriores se mencionan en RFC 5137 (ASCII Escaping of Unicode Characters) como MEJOR PRÁCTICA ACTUAL, pero no existen estándares internacionales.

El formato %uXXXX es soportado por Microsoft IIS, pero es un formato no estándar. Puede codificar al formato %u con System.Web.HttpUtility.UrlEncodeUnicode de C#, pero este método está obsoleto desde .NET Framework 4.5.

Tenga en cuenta que para el formato \X, como especificación de CSS, un espacio de ancho medio posterior se trata como un delimitador y se ignora durante la decodificación. En los formatos U+XXXX y 0xX, se separan por un espacio de ancho medio para cada carácter durante la codificación, y durante la decodificación, se ignora un espacio de ancho medio consecutivo posterior, al igual que en el formato \X.

Escape por nombre Unicode

Como secuencia de escape Unicode, también se soporta el escape por nombre Unicode.

FormatoResultado de conversión "A"Descripción / Lenguaje de programación
\N{name}\N{LATIN CAPITAL LETTER A}C++23, Python, Perl

Los nombres Unicode se pueden verificar en Names List Charts - Unicode o NamesList.txt - Unicode.

Caracteres fuera del rango Unicode BMP en secuencias de escape Unicode

Para caracteres Unicode no BMP, dado que el punto de código no cabe en 4 dígitos, se representan en los siguientes formatos según el lenguaje de programación.

Por ejemplo, el resultado de convertir "😀" (U+1F600) es el siguiente:

FormatoResultado de conversión "😀" (U+1F600)Lenguaje de programación
\uXXXX\uD83D\uDE00Java, Kotlin, Scala
\u{X}\u{1F600}C++23, Rust, Swift, JavaScript, PHP, Ruby, Dart, Lua
\U00XXXXXX\U0001F600C, C++, Objective-C, C#, Go, Python, R
\x{X}\x{1F600}Perl
\X\1F600CSS
&#xX;😀HTML, XML
%uXXXX%uD83D%uDE00-
U+XXXXU+1F600-
0xX0x1F600-
\N{name}\N{GRINNING FACE}C++23, Python, Perl

En los formatos \uXXXX y %uXXXX, los caracteres no BMP se representan con dos unidades de código como un par sustituto UTF-16. En otros formatos, un carácter se representa con un solo punto de código.