escudo UCM
Oficina de Transferencia de Resultados de Investigación
Universidad Complutense de Madrid

Complutecno: Tecnologías de la Información y la Comunicación

ANÁLISIS AUTOMÁTICO DE DOCUMENTACIÓN Y BASES DE DATOS

Descripción:

Análisis automático de documentación en soporte papel o magnético, particularmente semi-estructurada. Análisis de bases de datos y su recodificación y/o depuración.

¿Cómo funciona?:

El proceso se desarrolla en tres fases fundamentales: captación, análisis de la información y validación del análisis y transformación.

  • Los documentos originales se llevan a soporte magnético, cuando es necesario, y se realizan otras operaciones preliminares de adaptación al sistema.
  • Un sistema propio de análisis documental automático basado en metaprogramación sobre gramáticas lógicas, genera un analizador (parser) para la clase de documentos. El analizador produce una representación uniforme de la información de cada documento.
  • Esta información en notación uniforme se procesa de forma variada. En el caso de conversión retrospectiva de catálogos bibliográficos, un sistema experto en catalogación produce la transformación al formato final. En otros casos se detectan errores de contenido o codificación, incoherencias, duplicaciones o cualquier otro fenómeno de interés.
procedimiento
Fig. 1: Esquema del procedimiento de análisis.

 

Ventajas:

  • Adaptación a muy diversos tipos de documentos.
  • Realización de proyectos inviables manualmente.
  • Análisis en profundidad de la información.
  • Traducción al formato de llegada con calidad alta y constante.
  • Reducción de costes frente a procesos manuales.
imagen
Fig. 2: La información se explicita mediante transformaciones estructurales.

 

¿Dónde se ha desarrollado?:

Esta técnica ha sido desarrollada por el grupo de investigación Verba Lógica del Departamento de Lógica de la Facultad de Filosofía. Este grupo está especializado en la aplicación de técnicas de lingüística computacional, inteligencia artificial y programación lógica al análisis automático de textos, particularmente de documentos semi-estructurados. El grupo ha trabajado con y para instituciones públicas y privadas (CSIC, Biblioteca Nacional, Matra Caps Systèmes, UCM, Ifigenia Plus, Comunidad de Madrid, Universidad S. Pablo,TextTec GmbH, Fundación Universidad Empresa .... ) tanto en conversión retrospectiva como en análisis y depuración de bases de datos relacionales y documentales. Verba Logica ha sido coordinador de BiblioTECA y socio en CANAL/LS, proyectos co-financiados por la Unión Europea (DG XIII, Telematics) en los que han partipado empresas e instituciones de cinco países europeos.

[más información sobre el departamento y el grupo de investigación]

Y además:

Las primeras versiones del sistema se aplicaron en un proyecto de la Biblioteca de la UCM y desde entonces ha ido evolucionando hacia una mayor generalidad y flexibilidad. Las aplicaciones caen en el campo de la document reengineering:

  • Análisis de documentación semi-estructurada: diccionarios, enciclopedias, catálogos, índices, listados,...
  • Transferencia de información en soporte papel a electrónico mejorando las posibilidades originales de recuperación y gestión de la misma.
  • Extracción automática de información WWW. (HTML. XML, etc.)
  • Clasificación y transformación de documentos en y hacia formatos estándar.
  • Depuración de bases de datos con información textual: direcciones, nombres de persona y entidad, acrónimos. Eliminación de duplicados.

Información en Internet:

Científico responsable:

Jaime Sarabia Álvarez-Ude/Carmen López Rincón email
Dpto. de Lógica
Facultad de Filosofía
[Inicio OTRI] - [Inicio Complutecno] || © OTRI-UCM - Queda prohibida la reproducción parcial o total sin permiso.