Carácter precompuesto
Un carácter precompuesto (también llamado carácter compuesto o carácter descomponible) es una entidad Unicode que también se puede definir como una secuencia de uno o más caracteres. Un carácter precompuesto normalmente puede representar una letra con un signo diacrítico, como é (letra e minúscula latina con acento agudo). Técnicamente, é (U+00E9) es un carácter que se puede descomponer en una cadena equivalente de la letra base e (U+0065) y combinado con un acento agudo (U+0301). De manera similar, las ligaduras son precomposiciones de sus letras o grafemas constituyentes
Los caracteres precompuestos son la solución heredada para representar muchas letras especiales en varios conjuntos de caracteres. En Unicode, se incluyen principalmente para ayudar a los sistemas informáticos con soporte Unicode incompleto, donde los caracteres descompuestos equivalentes pueden representarse incorrectamente.
Comparación de caracteres precompuestos y descompuestos
[editar]En el siguiente ejemplo, hay un apellido sueco común, Åström, escrito con dos métodos alternativos, el primero con una Å (U+00C5) y una ö (U+00F6) precompuestas, y el segundo usando una letra base descompuesta A (U+0041) combinada con un anillo arriba (U+030A) y una o (U+006F) con una diéresis de combinación (U+0308).
- Åström (U+00C5 U+0073 U+0074 U+0072 U+00F6 U+006D)
- Åström (U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)
Excepto por los diferentes colores, las dos soluciones son equivalentes y deberían representarse de manera idéntica. En la práctica, sin embargo, algunas implementaciones Unicode todavía tienen dificultades con los caracteres descompuestos. En el peor de los casos, la combinación de signos diacríticos puede ignorarse o representarse como caracteres no reconocidos después de sus letras base, ya que no están incluidos en todas las fuentes. Para superar los problemas, algunas aplicaciones pueden simplemente intentar reemplazar los caracteres descompuestos con caracteres precompuestos equivalentes.
Sin embargo, con una fuente incompleta, los caracteres precompuestos también pueden ser problemáticos, especialmente si son más exóticos, como en el siguiente ejemplo (que muestra la palabra protoindoeuropea reconstruida para «perro»):
- ḱṷṓn (U+1E31 U+1E77 U+1E53 U+006E)
- ḱṷṓn (U+006B U+0301 U+0075 U+032D U+006F U+0304 U+0301 U+006E)
En algunas situaciones, las k, u y o verdes precompuestas con signos diacríticos pueden aparecer como caracteres no reconocidos, o su apariencia tipográfica puede ser muy diferente de la letra n final sin signos diacríticos. En la segunda línea, las letras base al menos deberían representarse correctamente incluso si no se pudieran reconocer los signos diacríticos combinados.
OpenType tiene la «etiqueta de característica» ccmp para definir glifos que son composiciones o descomposiciones que implican la combinación de caracteres.
Caracteres chinos
[editar]En teoría, la mayoría de caracteres chinos codificados por la unificación Han y esquemas similares podrían tratarse como caracteres precompuestos, ya que pueden reducirse (descomponerse) a sus componentes radicales y fonéticos constitutivos con lenguajes de descripción de caracteres chinos. Este enfoque podría reducir el número de caracteres en el conjunto de caracteres de decenas de miles a unos pocos miles. Por otro lado, un conjunto de caracteres descompuesto presentaría desafíos para el software de búsqueda y edición y requeriría más bytes de codificación por documento. Un desafío particular serían las proyecciones de diversos caracteres descompuestos y precompuestos: un carácter precompuesto puede descomponerse en distintos conjuntos de caracteres descompuestos, mientras que un conjunto de caracteres descompuestos podría contraerse en varios caracteres precompuestos distintos. No existen requisitos ni restricciones respecto a la posición relativa entre los componentes dentro de un carácter, la forma de variante y transformación (estrechar, ampliar, estirar, rotar, etc.) aplicada a los componentes, ni el número de componentes.
Véase también
[editar]Fuentes
[editar]- El estándar Unicode, versión 5.2: Conformidad (consultar la Sección 3.7 para la descomposición). El Consorcio Unicode, diciembre de 2009.
- MSDN: Definición de un juego de caracteres. 8 de abril de 2010.
- Formularios de normalización Unicode (Anexo n.º 15 del estándar Unicode®): http://unicode.org/reports/tr15/
Enlaces externos
[editar]- Free Idg Serif, un derivado de la fuente FreeSerif con declaraciones añadidas de caracteres precompuestos.