Lingüística y Lenguas Aplicadas Plan 2019

Grado y Doble Grado. Curso 2021/2022.

PROCESAMIENTO DEL LENGUAJE NATURAL - 805146

Curso Académico 2021-22

Datos Generales

SINOPSIS

COMPETENCIAS

ACTIVIDADES DOCENTES

Clases teóricas
1 ECTS correspondiente a las actividades de preparación de los temas: clases magistrales y explicación de los casos prácticos; resolución y discusión de cuestiones planteadas sobre los temas teóricos y resolución de ejercicios de muestra.
Clases prácticas
5 ECTS correspondientes a la realización de las prácticas y evaluaciones

Presenciales

6

Semestre

8

Breve descriptor:

El procesamiento del lenguaje natural (PLN) es un área científico-tecnológica interdisciplinar que se ocupa de la construcción de sistemas informáticos capaces de comprender y producir lenguaje natural. Recoge y aplica modelos de representación del lenguaje y del procesamiento del lenguaje que proceden de áreas científicas como la Lingüística, la Informática, la Matemática (especialmente la Estadística), Ingeniería de Telecomunicaciones, Psicología Cognitiva, Neurofisiología entre otras. En esta asignatura de introducción abordaremos un aspecto concreto del PLN, la minería de textos, con el fin de aprender a diseñar, construir y utilizar los Sistemas PLN con casos de uso reales. Los conocimientos que se adquieran trabajando en este aspecto particular se pueden extender sin dificultad a otros aspectos del PLN.

La elección del texto para aprender PLN no es arbitraria. Se puede afirmar que el texto es el formato estándar de la información en los entornos digitales, y, en todo caso, el formato más sencillo de procesar. Actualmente hay más de 15 exabytes (1018 bytes) de texto digital en internet y su crecimiento es mayor que los formatos de audio y vídeo. Esto significa que la minería de textos (que es el tratamiento automático de textos para la obtención de información y conocimiento) tiene, y tendrá previsiblemente, un gran interés científico y económico. De esta forma los conocimientos adquiridos proporcionarán una capacitación profesional y una visión ajustada a las necesidades de la sociedad de la información.

Requisitos

El alumno debe tener capacidad de autoaprendizaje y trabajo en grupo. Es imprescindible que el alumno haya cursado la asignatura de Programación para el Procesamiento del Lenguaje Natural (1er. Cuatrimestre). Además, los alumnos deben tener suficientes conocimientos de Lingüística, especialmente en Morfología y Sintaxis. Es muy recomendable que el alumno disponga de un ordenador con conexión a internet para el uso del Campus Virtual y la realización de las prácticas. En todo caso la Facultad dispone de equipamiento en las Aulas de Informática y en la Biblioteca para los estudiantes.

Objetivos

-    Conocer los conceptos básicos del Procesamiento del Lenguaje Natural
-    Conocer y ser capaz de utilizar aplicaciones PLN para llevar a cabo sencillas tareas de procesamiento del lenguaje natural (segmentación, etiquetado, recuperación de información, clasificación automática, …)
-    Conocer y ser capaz de utilizar recursos lingüísticos como los corpus y vocabularios para llevar a cabo tareas de procesamiento del lenguaje natural
-    Ser capaz de construir sistemas PLN prototípicos sencillos para el análisis del lenguaje natural.
-    Saber definir y llevar a cabo un proyecto de PLN

Contenido

1. Introducción al Procesamiento del Lenguaje Natural

1.1. Definición, objetivo, terminología, problemas del PLN (revisión)

1.2. Cómo procesa el LN el cerebro humano

1.3. Arquitectura y funciones básicas de un Sistema PLN

1.4. Aplicaciones

1.5. Python: entorno de desarrollo y revisión de programación

1.6. Evaluación

2. Análisis textual

2.1. Recolección y almacenamiento de textos

2.2. Estudio y descripción del corpus textual con herramientas de análisis textual

2.3. Verificación de la calidad de los textos

2.4. Práctica: descripción de los textos fuente

3. Preparación de los datos

3.1. Tareas y resultados de la preparación de datos

3.2. Segmentación y etiquetado

3.3. Representación formal y almacenamiento

3.4. Práctica: preparación los datos para su clasificación

4. Modelo de procesamiento

4.1. Selección de las técnicas de modelado

4.2. Corpus de prueba y corpus de evaluación

4.3. Construcción del modelo

4.4. Aplicación del modelo

4.5. Práctica: construcción de un clasificador de textos

5. Evaluación y depuración

5.1. Métricas de evaluación

5.2. Evaluación del modelo

5.3. Depuración del modelo

5.4. Práctica: evaluación y ajustes del clasificador

6. Desarrollo de un proyecto de minería de textos

6.1. El modelo CRISP-DM 1.0

6.2. Especificación del proyecto desarrollado en el curso

Evaluación

La evaluación será continua y se realizará a partir de las calificaciones obtenidas en las prácticas de entrega obligatorias al finalizar cada tema. Los plazos de entrega son únicos. El alumno que no entrege en plazo tendrá una penalización en la calificación de la práctica que entregue tarde. La penalización depende del tiempo de retraso, siendo de 1 punto por cada semana de retraso y teniendo que cuenta que los días 1º al 7º después del fin del plazo se consideran una semana de retraso y así sucesivamente.

La calificación final se obtendrá de la forma siguiente:
El 10% se obtiene de la participación y trabajo continuado en las sesiones presenciales y virtuales
El 90% restante se obtiene de la media aritmética de las calificaciones de las prácticas de cada tema

Si el alumno no supera la evaluación continua podrá presentarse a un examen presencial en las fechas fijadas en el calendario oficial de la Facultad (http://filologia.ucm.es/examenes-de-grado). En ese caso la calificación final de la asignatura será la del examen. El examen estará formado por preguntas de carácter teórico-práctico sobre los ejercicios y las prácticas desarrolladas a lo largo del curso.

Bibliografía

Bird, S.; Klein, E. y Loper, E. (2009). Natural Language Processing with Python. O’Reilly. Versión en línea: http://www.nltk.org/book/
Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C. and Wirth, R. (1999), “CRISP-DM 1.0: Step-by-Step Data Mining Guide,” Accessed online 1 August 2015: https://the-modeling-agency.com/crisp-dm.pdf
GraphLab User Guide: https://dato.com/products/create/resources.html
WordSmith Tools Manual: http://lexically.net/downloads/version6/HTML/index.html?getting_started.htm

Estructura

MódulosMaterias
No existen datos de módulos o materias para esta asignatura.

Grupos

Clases teóricas y/o prácticas
GrupoPeriodosHorariosAulaProfesor
Grupo A31/01/2022 - 10/05/2022JUEVES 10:30 - 12:00-ANA MARIA FERNANDEZ-PAMPILLON CESTEROS
VIERNES 10:30 - 12:00-ANA MARIA FERNANDEZ-PAMPILLON CESTEROS