Lingüística y Lenguas Aplicadas Plan 2019

Grado y Doble Grado. Curso 2023/2024.

PROCESAMIENTO DEL LENGUAJE NATURAL - 805146

Curso Académico 2023-24

Datos Generales

SINOPSIS

COMPETENCIAS

ACTIVIDADES DOCENTES

Clases teóricas
1 ECTS correspondiente a las actividades de preparación de los temas: clases magistrales y explicación de los casos prácticos; resolución y discusión de cuestiones planteadas sobre los temas teóricos y resolución de ejercicios de muestra.
Clases prácticas
5 ECTS correspondientes a la realización de las prácticas y evaluaciones

Presenciales

6

Semestre

8

Breve descriptor:

El procesamiento del lenguaje natural (PLN) es un área científico-tecnológica interdisciplinar que se ocupa de la construcción de sistemas informáticos capaces de comprender y producir lenguaje natural. Recoge y aplica modelos de representación del lenguaje y del procesamiento del lenguaje que proceden de áreas científicas como la Lingüística, la Informática, la Matemática (especialmente la Estadística), Ingeniería de Telecomunicaciones, Psicología Cognitiva, Neurofisiología entre otras. En esta asignatura de introducción abordaremos un aspecto concreto del PLN, la minería de textos, con el fin de aprender a diseñar, construir y utilizar los Sistemas PLN con casos de uso reales. Los conocimientos que se adquieran trabajando en este aspecto particular se pueden extender sin dificultad a otros aspectos del PLN.

La elección del texto para aprender PLN no es arbitraria. Se puede afirmar que el texto es el formato estándar de la información en los entornos digitales, y, en todo caso, el formato más sencillo de procesar. Actualmente hay más de 15 exabytes (1018 bytes) de texto digital en internet y su crecimiento es mayor que los formatos de audio y vídeo. Esto significa que la minería de textos (que es el tratamiento automático de textos para la obtención de información y conocimiento) tiene, y tendrá previsiblemente, un gran interés científico y económico. De esta forma los conocimientos adquiridos proporcionarán una capacitación profesional y una visión ajustada a las necesidades de la sociedad de la información.

Requisitos

El alumno debe tener capacidad de autoaprendizaje y trabajo en grupo. Es imprescindible que el alumno haya cursado la asignatura de Programación para el Procesamiento del Lenguaje Natural (1er. Cuatrimestre). Además, los alumnos deben tener suficientes conocimientos de Lingüística, especialmente en Morfología y Sintaxis. Es muy recomendable que el alumno disponga de un ordenador con conexión a internet para el uso del Campus Virtual y la realización de las prácticas. En todo caso la Facultad dispone de equipamiento en las Aulas de Informática y en la Biblioteca para los estudiantes.

Objetivos

-    Conocer los conceptos básicos del Procesamiento del Lenguaje Natural
-    Conocer y ser capaz de utilizar aplicaciones PLN para llevar a cabo sencillas tareas de procesamiento del lenguaje natural (segmentación, etiquetado, recuperación de información, clasificación automática, …)
-    Conocer y ser capaz de utilizar recursos lingüísticos como los corpus y vocabularios para llevar a cabo tareas de procesamiento del lenguaje natural
-    Ser capaz de construir sistemas PLN prototípicos sencillos para el análisis del lenguaje natural.
-    Saber definir y llevar a cabo un proyecto de PLN

Contenido

1. Introducción al Procesamiento del Lenguaje Natural

1.1. Definición, objetivo, terminología, problemas del PLN (revisión)

1.2. Cómo procesa el LN el cerebro humano

1.3. Arquitectura y funciones básicas de un Sistema PLN

1.4. Aplicaciones

1.5. Python: entorno de desarrollo y revisión de programación

1.6. Evaluación

2. Análisis textual

2.1. Recolección y almacenamiento de textos

2.2. Estudio y descripción del corpus textual con herramientas de análisis textual

2.3. Verificación de la calidad de los textos

2.4. Práctica: descripción de los textos fuente

3. Preparación de los datos

3.1. Tareas y resultados de la preparación de datos

3.2. Segmentación y etiquetado

3.3. Representación formal y almacenamiento

3.4. Práctica: preparación los datos para su clasificación

4. Modelo de procesamiento

4.1. Selección de las técnicas de modelado

4.2. Corpus de prueba y corpus de evaluación

4.3. Construcción del modelo

4.4. Aplicación del modelo

4.5. Práctica: construcción de un clasificador de textos

5. Evaluación y depuración

5.1. Métricas de evaluación

5.2. Evaluación del modelo

5.3. Depuración del modelo

5.4. Práctica: evaluación y ajustes del clasificador

6. Desarrollo de un proyecto de minería de textos

6.1. El modelo CRISP-DM 1.0

6.2. Especificación del proyecto desarrollado en el curso

Evaluación

La evaluación será continua y se realizará a partir de las calificaciones obtenidas en las evaluaciones de conocimiento y en las prácticas de entrega obligatoria que se hagan de cada tema. Los plazos de realización de las evaluaciones y entrega de prácticas son únicos. El alumno que no entregue en el plazo establecido tendrá una penalización en la calificación que depende del tiempo de retraso.

Al finalizar el curso se realizará un examen final con preguntas de carácter teórico y práctico sobre los contenidos de la asignatura. Para aprobar la asignatura es imprescindible aprobar el examen final.

La calificación final se obtendrá:
- El 10 % se obtiene de la participación y trabajo continuo en las sesiones presenciales.
- El 40 % se obtiene de las calificaciones de las prácticas y evaluaciones continuas de cada tema.
- El 50 % se obtiene de la calificación en el examen final sobre los contenidos teóricos y prácticos desarrollados durante el curso. Es requisito indispensable aprobar el examen al margen de que la media final supere el 5.

Bibliografía

Bird, S.; Klein, E. y Loper, E. (2009). Natural Language Processing with Python. O’Reilly. Versión en línea: http://www.nltk.org/book/
Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C. and Wirth, R. (1999), “CRISP-DM 1.0: Step-by-Step Data Mining Guide,” Accessed online 1 August 2015: https://the-modeling-agency.com/crisp-dm.pdf
GraphLab User Guide: https://dato.com/products/create/resources.html
WordSmith Tools Manual: http://lexically.net/downloads/version6/HTML/index.html?getting_started.htm

Estructura

MódulosMaterias
No existen datos de módulos o materias para esta asignatura.

Grupos

Clases teóricas y/o prácticas
GrupoPeriodosHorariosAulaProfesor
Grupo A22/01/2024 - 08/05/2024JUEVES 10:30 - 12:00A-LAB 007LARA ALONSO SIMON
VIERNES 10:30 - 12:00A-LAB 007LARA ALONSO SIMON