Cadenas de caracteres multibyte
PHP Manual

Resumen de codificaciones soportadas

Resumen de codificaciones soportadas
Nombre en el registro de conjuntos de caracteres de la IANA Conjunto de Caracteres Descripción Notas adicionales
ISO-10646-UCS-4 ISO 10646 Conjunto Universal de Caracteres con 31 bits de codificación, estandarizado como UCS-4 por ISO/IEC 10646. Forma parte de la última versión de Unicode. Si se utiliza este nombre con la utilidad de conversión de codificación, el convertidor intentará identificar, mediante el byte de marca de orden (BOM), en qué formato (little-endian o big-endian) están representados los siguientes bytes.
ISO-10646-UCS-4 UCS-4 Ver más arriba. En contraste con UCS-4, las cadenas de caracteres siempre apareceran en formato big-endian.
ISO-10646-UCS-4 UCS-4 Ver más arriba. En contraste con UCS-4, las cadenas de caracteres siempre apareceran en formato little-endian.
ISO-10646-UCS-2 UCS-2 Conjunto Universal de Caracteres con 16 bits de codificación, estandarizado como UCS-2 por ISO/IEC 10646. Forma parte de la última versión de Unicode. Si se utiliza este nombre con la utilidad de conversión de codificación, el convertidor intentará identificar, mediante el byte de marca de orden (BOM), en qué formato (little-endian o big-endian) están representados los siguientes bytes.
ISO-10646-UCS-2 UCS-2 Ver más arriba. En contraste con UCS-2, las cadenas de caracteres siempre apareceran en formato big-endian.
ISO-10646-UCS-2 UCS-2 Ver más arriba. En contraste con UCS-2, las cadenas de caracteres siempre apareceran en formato little-endian.
UTF-32 Unicode Formato de Transformación UCS de 32 bits de ancho, cuya espacio de codificación está incluido en el estándar Unicode. Esta codificación no es igual a UCS-4, porque el espacio de codificación de Unicode está limitado a 21 bits. Si se utiliza este nombre con la utilidad de conversión de codificación, el convertidor intentará identificar, mediante el byte de marca de orden (BOM), en qué formato (little-endian o big-endian) están representados los siguientes bytes.
UTF-32BE Unicode Ver más arriba En contraste con UTF-32, las cadenas de caracteres siempre apareceran en formato big-endian.
UTF-32LE Unicode Ver más arriba En contraste con UTF-32, las cadenas de caracteres siempre apareceran en formato little-endian.
UTF-16 Unicode Formato de Transformación UCS de 16 bits de ancho. Hay que tener en cuenta que es muy parecido a UCS-2, gracias al mecanismo de subrogación introducido en Unicode 2.0 y UTF-16, por lo que se requiere un máximo de 21 bits para la representación de cualquier carácter. Si se utiliza este nombre con la utilidad de conversión de codificación, el convertidor intentará identificar, mediante el byte de marca de orden (BOM), en qué formato (little-endian o big-endian) están representados los siguientes bytes.
UTF-16BE Unicode Ver más arriba. En contraste con UTF-16, las cadenas de caracteres siempre apareceran en formato big-endian.
UTF-16LE Unicode Ver más arriba. En contraste con UTF-16, las cadenas de caracteres siempre apareceran en formato little-endian.
UTF-8 Unicode / UCS Formato de Transformación UCS de 8 bits de ancho.. Ninguna
UTF-7 Unicode Formato de transformación UCS para el envío de correo electrónico seguro, especificado en » RFC2152. Ninguno
(Ninguno) Unicode Variante de UTF-7 recomendado para usar con el » protocolo IMAP. Ninguno
US-ASCII (preferred MIME name) / iso-ir-6 / ANSI_X3.4-1986 / ISO_646.irv:1991 / ASCII / ISO646-US / us / IBM367 / CP367 / csASCII ASCII / ISO 646 Código Estándar Americano para el Intercambio de Información, de utilización muy extendida con una codifiación de 7 bits. Estandarizado a nivel Internacional, ISO 646. (Ninguno)
EUC-JP (nombre preferido por MIME) / Extended_UNIX_Code_Packed_Format_for_Japanese / csEUCPkdFmtJapanese Compuesto de US-ASCII / JIS X0201:1997 (hankaku kana part) / JIS X0208:1990 / JIS X0212:1990 Derivado de la abreviación de Formato de Código UNIX Extendido para Japonés, la codificación más utilizada en UNIX y plataformas afines. Esta original codifiación, Código UNIX Extendido, se diseñó sobre la base de ISO 2022. El conjunto de caracteres llamado EUC-JP es diferente a IBM932 / CP932, que son utilizados por OS/2® y Microsoft® Windows®. Para el intercambio de información con estas plataformas es mejor utilizar EUCJP-WIN.
Shift_JIS (nombre preferido por MIME) / MS_Kanji / csShift_JIS Compuesto de JIS X0201:1997 / JIS X0208:1997 Shift_JIS fue desarrollado a principios de los 80, al mismo tiempo que los procesadores de textos en Japonés llegaban al mercado para mantener la compatibilidad con los antiguos esquemas de codifiación JIS X 0201:1976. De acuerdo con la definición de la IANA, el conjunto de caracteres Shift_JIS es ligeramente diferente a IBM932 / CP932. Sin embargo, los nombres "SJIS" / "Shift_JIS" son utilizados de forma incorrecta para referirse a este conjunto de caracteres. Para la codificación CP932, es recomendable utilizar SJIS-WIN.
(Ninguno) Compuesto de JIS X0201:1997 / JIS X0208:1997 / IBM extensions / NEC extensions Aunque esta "codificación" utiliza el mismo esquema de codificación que EUC-JP, el conjunto de caracteres es diferente. Esto es así porque algunos códigos del mapa apuntan a diferentes caracteres del conjunto de caracteres EUC-JP. none
Windows-31J / csWindows31J Compuesto de JIS X0201:1997 / JIS X0208:1997 / IBM extensions / NEC extensions Aunque esta "codificación" utiliza el mismo esquema de codificación que Shift-JIS, el conjunto de caracteres es diferente. Esto es así porque algunos códigos del mapa apuntan a diferentes caracteres del conjunto de caracteres Shift-JIS. (none)
ISO-2022-JP (nombre preferido por MIME) / csISO2022JP US-ASCII / JIS X0201:1976 / JIS X0208:1978 / JIS X0208:1983 » RFC1468 (Ninguno)
JIS
ISO-8859-1
ISO-8859-2
ISO-8859-3
ISO-8859-4
ISO-8859-5
ISO-8859-6
ISO-8859-7
ISO-8859-8
ISO-8859-9
ISO-8859-10
ISO-8859-13
ISO-8859-14
ISO-8859-15
byte2be
byte2le
byte4be
byte4le
BASE64
HTML-ENTITIES
7bit
8bit
EUC-CN
CP936
HZ
EUC-TW
CP950
BIG-5
EUC-KR
UHC (CP949)
ISO-2022-KR
Windows-1251 (CP1251)
Windows-1252 (CP1252)
CP866 (IBM866)
KOI8-R

Cadenas de caracteres multibyte
PHP Manual