Corpus ROBOT-TALK

El corpus ROBOT TALK se creó con el objetivo de servir de muestra del lenguaje para hacer los análisis lingüísticos contrastivos tanto cuantitativos como cualitativos necesarios para responder a la pregunta principal del proyecto: ¿es posible distinguir si un texto en español ha sido generado por un LLM o por una persona utilizando rasgos lingüísticos del texto?

Se trata de un corpus comparable monitor en español. Está compuesto por textos comparables por autor (humano, Gemini, Claude, GPT-3.5-Turbo, GPT-4, Mixtral y DeepSeek) de tres géneros principales, noticias, reseñas de cine y artículos científicos especializados en lingüística. Estos fueron recopilados entre diciembre 2022 y junio 2025.

Composición del corpus

GÉNEROS

Artículos científicos

Noticias

Reseñas de cine

FUENTES

Revistas científicas de lingüística

RSEL, Revista de investiación Lingüística, Revista electrónica de lingüística aplicada, Sintagma, Círculo de Lingüística Aplicada a la Comunicación, Asterisco, …

Noticieros en línea:

RTVE, EFE

Web de reseñas de cine:

Filmaffinity

Corpus comparable	Autor	Humano	Gemini	Claude	GPT-3.5-Turbo	GPT-4	Mixtral	Deep Seek	N.º de textos por género
Género de los textos	Artículos científicos	155	155	155	90	144	90	155	944
	Noticias	185	185	185	111	171	111	185	1133
	Reseñas de cine	174	174	174	95	160	95	174	1046
N.º total de textos		514	514	514	296	475	296	514	3123

Muestra del corpus

Características del corpus

Texto escrito en español
Comparables por autor
- humano
- Gemini
- Claude
- GPT-3.5-Turbo
- GPT-4
- Mixtral
- DeepSeek

Proyecto ROBOT-TALK

Proyectos de Investigación

Corpus ROBOT-TALK

Composición del corpus

Muestra del corpus

Características del corpus