Proyectos de Investigación

Corpus ROBOT-TALK

El corpus ROBOT TALK se creó con el objetivo de servir de muestra del lenguaje para hacer los análisis lingüísticos contrastivos tanto cuantitativos como cualitativos necesarios para responder a la pregunta principal del proyecto:  ¿es posible distinguir si un texto en español ha sido generado por un LLM o por una persona utilizando rasgos lingüísticos del texto?

Se trata de un corpus comparable monitor en español. Está compuesto por textos comparables por autor (humano, Gemini, Claude, GPT-3.5-Turbo, GPT-4, Mixtral y DeepSeek) de tres géneros principales, noticias, reseñas de cine y artículos científicos especializados en lingüística. Estos fueron recopilados entre diciembre 2022 y  junio 2025.

 

  Muestra del corpus 

 

Características del corpus

  • Texto escrito en español
  • Comparables por autor
    • humano
    • Gemini
    • Claude
    • GPT-3.5-Turbo
    • GPT-4
    • Mixtral
    • DeepSeek
 
GÉNEROS Artículos científicos Noticias Reseñas de cine
FUENTES

Revistas científicas de lingüística

RSEL, Revista de investiación Lingüística, Revista electrónica de lingüística aplicada, Sintagma, Círculo de Lingüística Aplicada a la Comunicación, Asterisco, …

Noticieros en línea:

RTVE, EFE

Web de reseñas de cine:

Filmaffinity

 

Composición del corpus

Corpus comparable Autor Humano  Gemini  Claude GPT-3.5-Turbo GPT-4 Mixtral Deep Seek N.º de textos por género
Género de los textos Artículos científicos 152 152 152 90 144 90 152 982
Noticias 182 172 182 111 171 111 182 1250
Reseñas de cine 171 171 171 95 160 95 171 1050
N.º total de textos 505 475 505 296 475 296 505 3282