Facultad de Ciencias de la Información

 Curso: 2003/2004.

Profesor: Félix del Valle Gastaminza fvalle@ccinf.ucm.es

 

Lenguajes documentales. Los tesauros

Diapositivas de clase: Presentación en Power Point (800 k aprox.)

Un tesauro es una herramienta para el control del vocabulario. Orienta a los indizadores y a los usuarios sobre los términos que pueden utilizar y, así ayuda a mejorar la calidad de la recuperación.

Aunque existe algún tesauro general, de carácter enciclopédico, habitualmente un tesauro se diseña para la indización y búsqueda  en un tema o área específicos. Ejemplos de temas cubiertos por los tesauros son educación, metalurgia,  arte o arquitectura.


¿Qué hay en un tesauro?

Un tesauro da varios tipos de información a los indizadores  y a los usuarios.

Términos Permitidos: Descriptores

Obviamente, el tesauro tiene que indicar qué términos se permite utilizar. Estos términos se llaman descriptores.

Términos No permitidos: No descriptores

El tesauro también necesita indicar algunos términos que los indizadores  y los usuarios no pueden utilizar. Estos términos se llaman no descriptores. A partir de un no descriptor debe ser posible ver qué  término se debe utilizar en lugar del otro. Un tesauro también suele permitir observar los no permitidos a partir de un descriptor.  Esto da una idea mejor de lo que se supone que el término puede significar.

Relaciones Semánticas

Así como relaciona términos válidos con términos no válidos, un tesauro también muestra conexiones entre diversos descriptores. Estas conexiones se establecen generalmente mediante relaciones semánticas. Las conexiones semánticas puede ayudar a dirigir  al término adecuado y a tener el significado del término más claro.

Directrices de aplicación

Un buen tesauro debe dejar muy claro qué significado cubre un  término. Lo hace mediante los términos no válidos y las relaciones semánticas. Otras maneras de dirigir el uso del tesauro son  las notas introductorias  y las notas de alcance. Una nota de alcance toma a menudo la forma de una definición del término. Asegurar que los términos están utilizados constantemente con el mismo significado es otro aspecto importante del control del vocabulario.

Reglas para la síntesis

Generalmente, un tesauro enumera todos sus descriptores explícitamente. Tales tesauros son enumerativos. Algunos tesauros indican algunos descriptores indirectamente: en vez de enumerarlos todos, dan las reglas para crearlos a partir  de ciertos componentes. Tales tesauros son por lo menos en parte sintéticos.


Recogida de Términos

La construcción del tesauro requiere recoger un conjunto de términos. Algunos de éstos terminarán siendo descriptores y otros pueden no aparecer en el tesauro en su forma original, pero pueden sugerir los conceptos que necesitarán ser cubiertos de alguna manera.

Fuentes de términos

Las fuentes de las cuales los términos pueden ser recogidos incluyen

  • listas de términos:
    • otros tesauros, índices, diccionarios, glosarios, etc.

  • textos de los cuales los términos pueden ser extraídos
    • títulos, extractos, o textos completos de items  indizados.
    • preguntas de los usuarios
  • gente
    • especialistas en los temas, etc.

¿Qué clases de términos se deben recoger?

En lo posible, los términos en un tesauro deben ser sustantivos o sintagmas nominales.

Un término debe ser lo bastante general como para ser utilizado en un índice remitiendo a un cierto número de items. Pero un término no debe ser tan general como para que remita a demasiados items.

Por ejemplo, el término " NOTICIAS " no sería útil en un tesauro para la indización de noticias.


Determinación  y modificación  de términos

Normalización formal de los descriptores

Los términos recogidos deben ya ser sustantivos o sintagmas nominales.  Véanse algunas directrices y sugerencias sobre la forma que los términos pueden tomar.

Directrices Ejemplos
Plural para las cosas que pueden ser " contadas" "TUBOS"
Singular para los sustantivos no contables " MADERA "
Singular para los procesos, las características, y las condiciones " REFRIGERACIÓN "
" PESO ",
" POBREZA "
No invertir los términos ANTENAS de RADAR
(y no " ANTENAS, RADAR ")
Evitar el abuso de preposiciones "PROGRAMAS INFANTILES"

(y no "PROGRAMAS PARA NIÑOS)

Excluir signos de puntuación, signos diacríticos, caracteres especiales, y abreviaturas " PROGRAMAS COOPERATIVOS "
(mejor que  " PROGRAMAS CO-OPERATIVOS "
" NOTAS MUSICALES "
(mejor que " (MÚSICA) Notas" o " MUS. NOTAS "

Qué  hacer con términos con más de un significado

Son palabras  polisémicas aquellas que tienen varios significados. Un tesauro debe dejar claro el significado del término.

Se puede eliminar la polisemia añadiendo al término un calificador. RESISTENCIA (ELECTRICIDAD)

Se puede evitar la polisemia por transformación sintagmática: "RESISTENCIA ELÉCTRICA".

Introducción de Nuevos Términos

Además de los términos extraídos de las varias fuentes utilizadas, se pueden introducir nuevos términos.

Por ejemplo,

  1. Términos que expresen conceptos generales..
  2. Términos estructurales
  3. Términos nuevos

Términos que expresan conceptos generales

Los términos que representan  conceptos amplios pueden ser introducidos porque son útiles en búsquedas amplias .

Por ejemplo,  " TERMINALES DE TRANSPORTE"  porque puede ser utilizado para sustituir una búsqueda para los " AEROPUERTOS", "ESTACIONES DE AUTOBÚSES", "ESTACIONES DE TREN" , "HELIPUERTOS" ....

Términos Estructurales

Los términos pueden también ser introducidos porque contribuyen a la claridad de la estructura de relaciones semánticas.

Por ejemplo, " EMPLEO EN GRUPOS ESPECÍFICOS " para clarificar el lazo entre el " EMPLEO " y " EMPLEO JUVENIL ".

Términos para el material No textual

Si se está construyendo un tesauro para la indización de documentos que no están en la forma de texto, hay pocas fuentes para los términos. Habrá que añadir  sus propios términos.


Descriptores y no descriptores

Términos Equivalentes

Después de recoger los términos para el tesauro, hay que decidir cuáles son términos equivalentes. Para los propósitos de la indización  y de la búsqueda, un conjunto de términos equivalentes  será tratado como si significaron la misma cosa y representado por un solo término preferido o descriptor.

Sinónimos

A veces, los términos equivalentes realmente significan la misma cosa. Así pues, tiene obviamente sentido  utilizar un solo descriptor para representar su significado

  1. Un término puede admitir más de una forma de escritura.
  2. Dos palabras pueden tener esencialmente el mismo significado; por ejemplo, " AUTOMATIZACIÓN " y " MECANIZACIÓN ".

Cuasi-sinónimos

A veces, los términos equivalentes significan diversas cosas en lenguaje ordinario. Para la indización  y la recuperación es mejor agrupar los diversos significados juntos. Tales términos equivalentes se llaman cuasi-sinónimos.

Tipos de cuasi-sinónimos

Los términos con significados que se solapan se tratan a veces como equivalentes. Por ejemplo, " GENIOS " y " PRODIGIOS " se pueden tratar como equivalente, aunque los dos términos significan diversas cosas.

Un término cuyo alcance se incluye en el de otro término se trata a veces como equivalente. Por ejemplo, el " ACERO " se pudo tratar como equivalente " METAL " si no es importante distinguir items sobre el acero de items sobre otros metales.

Los contrarios se tratan a veces como equivalente, porque los items sobre uno son probablemente  relevantes en una interrogación sobre el otro. Por ejemplo, " "TRANSPARENCIA " se puede tratar como equivalente de " OPACIDAD ".

Descriptores

Los términos preferidos o descriptores sirven como puntos focales donde se recoge toda la información sobre un concepto .

Términos No Descriptores

Los términos no descriptores se incluyen en un tesauro principalmente para ayudar al usuarios a encontrar los descriptores apropiados. Los términos no descriptores pueden también ayudar a definir el alcance de términos preferidos.

USE/UP

Un término no descriptor se conecta normalmente al descriptor correspondiente mediante la referencia  USE. La referencia correspondiente en la dirección opuesta es UP (" utilizado por ").

Por ejemplo,

REVISTAS
USE PUBLICACIONES PERIÓDICAS
PUBLICACIONES PERIÓDICAS
UF REVISTAS

Aquí el término preferido es " PUBLICACIONES PERIÓDICAS " y el término no descriptor correspondiente es " REVISTAS".

Elección de descriptores

Veamos algunos principios para elegir términos preferidos, junto con ejemplos de aplicación.

Directrices Ejemplos
Uso común CENTROS COMERCIALES
UP COMPLEJOS COMERCIALES
(Es el término más comúnmente usado.)
Amplitud PLÁSTICO
UP POLIETILENO
(los " plásticos " significan claramente todos los plásticos, de los cuales el polietileno es solamente uno.)
Ambigüedad TEJADOS
UP CUBIERTAS
(Es un término menos ambiguo.)
Colocación PERIODISTAS
UP REPORTEROS (en una secuencia alfabética, " PERIODISTAS " aparecerían cerca de " PERIODISMO " y otros términos relacionados)
Concisión SKIN-HEADS
UP MOVIMIENTO SKIN-HEAD
(una palabra más bien que dos.)
   
Coherencia interna Si usted ha decidido preferir los nombres latinos para las plantas, debe hacerse constantemente.
Coherencia externa Se puede preferir determinado descriptor por que esa sea la denominación normal en el sistema para el que trabaja.

Composición de Referencias Use

En vez de un solo término no descriptor, se puede mandar a veces al usuario o al indizador utilizar más de un término preferido en  combinación. En tales casos, las  referencias USE irán hacia todos los términos preferidos, y la referencia de UF estarán marcadas a menudo de una manera especial.

Por ejemplo,

VEHÍCULOS DE NIEVE
USE VEHÍCULOS + NIEVE
NIEVE
UF+  VEHÍCULOS DE NIEVE
VEHÍCULOS
UF+ VEHÍCULOS DE NIEVE

Usted es especialmente útil esto si el término no descriptor consta de más de una palabra.

Por ejemplo,

CAFETERÍAS  ESCOLARES
USE CAFETERÍAS + ESCUELAS
CAFETERÍAS
UF+ CAFETERÍAS ESCOLARES
ESCUELAS
UF+ CAFETERÍAS ESCOLARES

 

Descriptores sintagmáticos

¿Cuándo debe permitirse un descriptor formado por varias palabras?

Un término que tenga más de una palabra debe ser descriptor.

  1. Si  no es posible combinar términos en la etapa de la indización o en la etapa de búsqueda.
  2. Si en caso contrario fueran necesarios demasiados términos para indizar un concepto o documento.
  3. Si el número de términos válidos no es demasiado alto.
  4. Si  el término compuesto es más comprensible que su partición.
  5. Si el término es utilizado con frecuencia en la indización y la búsqueda.
  6. Si los componentes del término aparecen con frecuencia en diversas relaciones sintácticas; por ejemplo,  "CINE HISTÓRICO" , "HISTORIA DEL CINE".
  7. Si el término se necesita en la estructura de las relaciones semánticas; especialmente, si algunos conceptos más específicos son representados por descriptores.
  8. Si hay dudas.

Relaciones Semánticas

Indicar relaciones semánticas ayuda en varios aspectos de la gestión de información: ayuda en varios aspectos de la gestión de información:

  1. Controlando si un término debe ser utilizado en la indización de un item dado o en la formulación de una búsqueda  especifica.
  2. Eligiendo el  correcto nivel de generalidad en la indización y búsqueda.
  3. Permitiendo la generalización o especificación de la búsqueda.

 

Relaciones semánticas entre los términos

Las relaciones semánticas principales indicadas entre los descriptores en un tesauro son las relaciones jerárquicas y relaciones no-jerárquicas.

Conexiones TG y TE

Las conexiones de TG Término Genérico y de TE Término Específico se utilizan para indicar relaciones jerárquicas. En una relación jerárquica un término está por encima de otro término porque es más amplio en alcance.

Al desarrollar un tesauro, es a menudo útil resolver las relaciones jerárquicas primero.

Cuándo hay una relación de término Genérico/Específico?

Hay varias definiciones de qué constituye una relación jerárquica. Se aconseja, sin embargo, restringirse a los casos siguientes.

Género/Especie

A es un término genérico de B (y  B es un término específico de A) si todas las cosas incluidas en la clase nombrada por el término B se incluyen en la clase nombrada por el término A.

Por ejemplo,  " ANIMALES " es un término más amplio que " GATOS " (y " GATOS " es un término más estrecho que "ANIMALES") porque todos los gatos son animales.

Por otra parte, los " ANIMALES DOMÉSTICOS " no son un término más amplio que " GATOS " porque no todos los gatos son animales domésticos.

 

Jerarquía Parte-Todo

A es un término genérico de B (y  B es un término específico de A) si todo lo incluido en la clase nombrada por el término B es una parte de algo incluido en la clase nombrada por el término A.

Por ejemplo, en un tesauro médico,  " CABEZA " puede ser un término genérico de  "NARIZ " porque las narices son normalmente parte de la cabeza.

Por otra parte,  " BOSQUES " no serían un término genérico de   " ÁRBOLES " porque no todos los árboles son parte de un bosque.


Referencias TG, TE y TR

Cuál es el lazo entre TG y el TE?

Normalmente, TG y TE son conexiones " inversas ". Es decir si X es un término más amplio a Y, entonces Y es un término más estrecho a X, y viceversa.

Por ejemplo, si un tesauro contiene la entrada

PLUMAS

    TG MATERIALES DE  ESCRITURA

también aparecerá

MATERIALES DE ESCRITURA

    TE PLUMAS

Cuántos TG puede tener un término ?

Un tesauro es generalmente " polijerárquico "; esto significa que un término puede tener más de un término inmediatamente más amplio y más de una referencia de TG. Por ejemplo,

SICOLOGÍA SOCIAL
    TG SICOLOGÍA
    TG SOCIOLOGÍA 

    TG SICOLOGÍA
    TG SOCIOLOGÍA 

La polijerarquía evita discusiones sobre el " mejor " término genérico.

Algunos términos en un tesauro no tienen ningún término más amplio y por tanto ninguna referencia de TG. Tales términos son generalmente bastante amplios en el significado, por lo menos dentro del tema cubierto por el tesauro. Por ejemplo, en un tesauro de  deportes, " DEPORTES " no puede tener ningún término más amplio.

Cuándo Deben ser omitidas las referencias de TG/TE ?

No se debe indicar cada relación jerárquica explícitamente en su tesauro. Eso podía hacer las entradas demasiado largas y difíciles de leer. En lugar, omita esas conexiones que sean implicadas por otras conexiones.

Supongamos que X es un término más amplio a Y, que a su vez es un término más amplio que Z. No hay que hacer referencias de TG/TE entre X y Z.

Por ejemplo,

ANIMALES
     TE MAMÍFEROS
     

MAMÍFEROS
    TE GATOS
    

pero no

ANIMALES
    TE GATOS
    

Cuándo utilizar una referencia TR

Una referencia TR se utiliza para la relación semántica no-jerárquicas en un tesauro. Para decidir si debe haber una referencia del RT entre dos términos preferidos X y Y que no tengan una relación jerárquica, se puede utilizar la prueba siguiente:

Se debería recordar a un indizador o usuario que  quiere utilizar  X   la existencia de Y?

Cuál es el lazo entre el TR y el TR?

Normalmente, el TR es su propio tipo " inverso "en la conexión. Es decir si X tiene una referencia de TR a Y, entonces Y debe tener una referencia del TR a X. por ejemplo, si un tesauro contiene la entrada

PLUMAS

    TR CALIGRAFÍA

también tendrá la entrada

CALIGRAFÍA

    TR PLUMAS

Categorías semánticas de las referencias del RT

 

Aquí están algunas categorías usadas a veces, con ejemplos.

Categorías Ejemplos
Tiempo LITERATURA DE EVASIÓN
      TR TIEMPO DE OCIO
Lugar IDIOMAS EXTRANJEROS
       TR LABORATORIOS DE IDIOMAS
Producto CÁMARAS FOTOGRÁFICAS
       TR FOTOGRAFÍAS

CONSTRUCCIÓN NAVAL
         TR NAVES

Causa VANDALISMO
TR HOSTILIDAD
Agente ENTRENAMIENTO
        TR ENTRENADOR
Dispositivo PINTURA
         TR PINCELES
Aplicación ORDENADORES
           TR TRATAMIENTO DE TEXTOS  
Parte VEHÍCULOS
             TR RUEDAS 
Complemento PADRES
            TR NIÑOS

Notas De Alcance

El tipo más común de guía sobre el significado o uso de los términos en un tesauro es la nota de alcance NA.

Las notas de alcance toman una variedad de formas.

Definiciones en notas de alcance

Una nota de alcance puede ser una definición; por ejemplo,

ERROR  ESPACIAL

NA TENDENCIA  A ESTAR PREDISPUESTO POR LA POSICIÓN ESPACIAL DE LOS ESTÍMULOS EN RELACIÓN AL OBSERVADOR

Formas de definiciones en notas de alcance

Una definición en una nota de alcance debe aplicarse a la forma del sustantivo, no a un verbo o a un adjetivo relacionado.

Por ejemplo, esta nota de alcance para " INDIZACIÓN"

NA ASIGNAR TÉRMINOS DEL LENGUAJE NATURAL A LOS DOCUMENTOS

es más correcta así:

NA ASIGNACIÓN DE TÉRMINOS DEL LENGUAJE NATURAL A LOS DOCUMENTOS

Contenido de las definiciones en notas de alcance

Un término del tesauro debe tener un solo significado. Cualquier definición en la nota de alcance del término debe reflejar ese significado.

Por ejemplo, esta nota de alcance para  " ACENTO "

NA TENSIÓN PUESTA EN UNA SÍLABA; VARIACIÓN EN LA PRONUNCIACIÓN DEBIDO AL ORIGEN LINGÜÍSTICO

es incorrecta porque confunde dos  significados del término.

Una nota de alcance puede indicar un concepto que está incluido en el alcance del término; por ejemplo,

RECUPERACIÓN AUTOMÁTICA DE DATOS

NA INCLUYE MÉTODOS PRE-INFORMÁTICOS, TALES COMO SISTEMAS DE TARJETA PERFORADOS

Una nota de alcance puede indicar un concepto que se excluya del alcance del término.

Esto se puede hacer para mostrar que el término tiene un significado más estrecho que algunos usuarios del tesauro pudieron tener en mente; por ejemplo,

OSOS

NA NO INCLUYE PANDAS

Puede también ser hecho para llamar la atención sobre un significado excluido de un término ambiguo; por ejemplo,

PARTIDOS

NA PARTIDOS POLÍTICOS  SOLAMENTE. NO USAR PARA DEPORTES

Algunas notas de alcance refieren a otros términos, para indicar especialmente cómo ocuparse de un concepto excluido; por ejemplo,

INFRAESTRUCTURAS HIDRÁULICAS

NA SE EXCLUYEN LOS PUERTOS

Una nota de alcance puede da instrucciones adicionales a los indizadores. Por ejemplo, puede recordarles otros términos que deban asignarse:

HOSPITALIZACIÓN

NA ASIGNAR TAMBIÉN LOS TÉRMINOS PARA LAS CONDICIONES PARA LAS CUALES HOSPITALIZARON A LOS PACIENTES, SI ES APLICABLE

Una nota de alcance puede sugerir que el término  no debe ser utilizado si   hay un término  específico más apropiado; por ejemplo,

EQUIPO

NA TÉRMINO AMPLIO. PREFIERA TÉRMINOS QUE ESPECIFICAN TIPOS DE EQUIPO SI ES POSIBLE; POR EJEMPLO, ' MOBILIARIO DE OFICINAS '

En un tesauro sintetizado, las instrucciones para la síntesis pueden aparecer en notas de alcance; por ejemplo,

ESCULTURA

NA COMBÍNESE CON AGENTES, MATERIALES, TÉCNICAS. ESCULTURAS DE SANTOS: ESCULTURAS + SANTOS; ESCULTURAS EN MADERA: ESCULTURAS + MADERA.

Valor informativo de las notas de alcance

La información incluida en una nota de alcance debe ser provechosa a los usuarios del tesauro.

Debe agregar algo a lo que  el término dice ya por sí mismo. Repetir el término o dar una definición obvia de un término inequívoco no es provechoso.

Recuérdese que un tesauro no es un diccionario, una enciclopedia, o aún un índice.

Forma de las notas de alcance

Las notas de alcance deben estar bien construidas sintácticamente.

Resumen

Las notas de alcance pueden

  1. dar definiciones
  2. indicar qué conceptos son incluidos o excluidos
  3. referirse a otros términos
  4. proporcionar instrucciones adicionales

y deben ser

  1. relevantes
  2. bien formadas

    Presentación de los tesauros

    Para cualquier visualización del tesauro hay que tomar varias decisiones.

    • qué tipos de términos tendrán entradas
    • cómo indicar tipos especiales de términos
    • qué tipos de conexiones serán mostradas
    • cuántos niveles de conexión serán mostrados
    • cómo indicar los tipos de conexión
    • donde se ponen los términos conectados

    Cualesquiera de estas decisiones, por supuesto, estarán mediatizadas  de varias maneras. Por ejemplo, el software  de construcción del tesauro puede producir solamente ciertas clases de visualizaciones.

    Qué tipos de términos tendrán entradas?

    Una parte del tesauro puede tener entradas solamente para los descriptores; por ejemplo,

    ...
    VIÑETAS
    VIOLAS
    VIOLAS DE GAMBA
    VIOLETA
    VIOLETAS
    VIOLINES
    ...

    Por lo menos una de las visualizaciones, sin embargo, debe mostrar entradas para no descriptores también, para permitir que los usuarios lleguen así al término correcto:

    COMISARÍAS
    COMISIONISTAS USE INTERMEDIARIOS
    COMITÉS
    CÓMODAS
    COMPACTACIÓN

    En relación con los demás descriptores

    En un listado alfabético o sistemático cada descriptor indicará, si las tiene, las siguientes relaciones, en este orden:

    • Notas de alcance. NA
    • No descriptores a los que sustituye. UP
    • Términos Genéricos TG
    • Términos Específicos. TE
    • Términos Relacionados. TR
    DIPUTADOS  

    UP CONGRESISTAS

    TG AGENTES EN LEGISLACIÓN

    TR CONGRESO DE DIPUTADOS
           CORTES       
           ESCAÑOS
           PARLAMENTO AUTONÓMICO

     

    En un tesauro automatizado hay más posibilidades. Por ejemplo, el TG puede ir a la izquierda con un fondo de color diferente, los TE a la derecha y los TR arriba y abajo:

     
    AGENTES EN ACTIVIDADES DE SERVICIOS . .
    DIPLOMACIA

    INSTITUCIÓN DIPLOMÁTICA


    DIPLOMÁTICOS


    TRATADO

    PROCESO SOCIOCULTURAL

    . CÓNSULES

    . EMBAJADORES
    . EMISARIOS

    . PROCÓNSULES

    . NUNCIOS

     

    Presentación sistemática

    Se presenta cada descriptor en su área o faceta y dentro de estas alfabéticamente.

 

©Félix del Valle Gastaminza fvalle@ccinf.ucm.es Despacho 208. Tel. 913942206. Página Web de Félix del Valle Home Page