Proyectos de Investigación

Corpus ROBOT-TALK

El corpus ROBOT TALK se creó con el objetivo de servir de muestra del lenguaje para hacer los análisis lingüísticos contrastivos tanto cuantitativos como cualitativos necesarios para responder a la pregunta principal del proyecto:  ¿es posible distinguir si un texto en español ha sido generado por un LLM o por una persona utilizando rasgos lingüísticos del texto?

Se trata de un corpus comparable monitor en español. Está compuesto por textos comparables por autor (humano, Gemini, Claude, GPT-3.5-Turbo, GPT-4, Mixtral y DeepSeek) de tres géneros principales, noticias, reseñas de cine y artículos científicos especializados en lingüística. Estos fueron recopilados entre diciembre 2022 y  marzo 2025.

 

  Muestra del corpus 

 

Características del corpus

  • Texto escrito en español
  • Comparables por autor
    • humano
    • Gemini
    • Claude
    • GPT-3.5-Turbo
    • GPT-4
    • Mixtral
    • DeepSeek
 
GÉNEROS Artículos científicos Noticias Reseñas de cine
FUENTES

Revistas científicas de lingüística

RSEL, Revista de investiación Lingüística, Revista electrónica de lingüística aplicada, Sintagma, Círculo de Lingüística Aplicada a la Comunicación, Asterisco, …

Noticieros en línea:

RTVE, EFE

Web de reseñas de cine:

Filmaffinity

 

Composición del corpus

Corpus comparable Autor Humano  Gemini  Claude GPT-3.5-Turbo GPT-4 Mixtral Deep Seek N.º de textos por género
Género de los textos Artículos científicos 144 144 144 90 144 90 144 900
Noticias 171 171 171 111 171 111 171 1077
Reseñas de cine 160 160 160 95 160 95 160 990
N.º total de textos 475 475 475 296 475 296 475 2967