El profesional de la información


Abril 1998

Unic: base de datos de caracteres Unicode

Bernhard Eversberg, de la Biblioteca Universitaria de la Universidad Técnica de Braunschweig, Alemania, ha creado una base de datos que trata de la representación de alrededor de 6.600 caracteres cubiertos por Unicode y la conversión entre 40 tablas de códigos.

Es, sin duda, un trabajo de gran valor para todos aquellos interesados en la representación y el tratamiento correcto de los caracteres de distintos idiomas, también para los que fuera de Alemania se ocupan de estos aspectos.

Éste es un resumen del texto en inglés con el que el autor de esta base de datos describe su obra en detalle y la ofrece a cualquiera que tenga interés en ello.

Unicode Reference Database of Character Encodings

La base de datos tiene dos funciones:

1. Ojear y buscar dentro de Unicode y otras listas de códigos.

2. Producción instantánea de listas de conversión entre dos cualesquiera de las 40 listas diferentes de códigos, incluyendo Sgml, UsMarc, Ebcdic, etc.

Unic contiene registros de unos 6.600 caracteres, no ideográficos, comúnmente cubiertos por Unicode. En un esfuerzo similar, David Helliwell, de la Bodleian Library en Oxford, creó una base de datos de letras CJK.

Índices

Hay nueve:

  1. Nombres de caracteres (nombres oficiales Unicode, antigua y nueva versión). Ejemplo: Latin small letter u with caron.
  2. Letras, "ligatures", dígitos (sólo nombres de letras, antigua y nueva versión). Ejemplo: U with caron (antigua: U Hacek).
  3. Índice de palabras clave (todas las palabras que existen en los nombres Unicode). Ejemplo: cada palabra simple de Latin small letter u with caron.
  4. Direccionalidad, tipos de descomposición (detalles técnicos de Unicode).
  5. Valores número y dígitos (de aquellos códigos que designan dígitos y números).
  6. Comentarios (sólo de conveniencia).
  7. Categoría general (una clasificación de símbolos).
  8. Caracteres (equivalentes) relacionados (de equivalentes superior/inferior).
  9. Códigos Unicode 2-Byte (hexadecimal). Ejemplo: 01d4= Latin small letter u with caron

ftp://134.169.20.1/formate/unic.exe

Bernhard Eversberg. Universitaetsbibliothek, Postf. 3329. D-38023 Braunschweig, Alemania.

Tel.: +49-531-391 50 26, 50 11; fax: 391 58 36

B.Eversberg@tu-bs.de

Nota remitida a IweTel por Heinrich Allers. Goethe-Institut. München, Alemania.

allers@goethe.de

http://home.t-online.de/home/allers

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1998/abril/unic_base_de_datos_de_caracteres_unicode.html