Proyectos de Investigación

Corpus ROBOT-TALK

El corpus ROBOT TALK se creó con el objetivo de servir de muestra del lenguaje para hacer los análisis lingüísticos contrastivos tanto cuantitativos como cualitativos necesarios para responder a la pregunta principal del proyecto:  ¿es posible distinguir si un texto en español ha sido generado por un LLM o por una persona utilizando rasgos lingüísticos del texto?

Se trata de un corpus comparable monitor en español. Está compuesto por textos comparables por autor (humano, Gemini, Claude, GPT-3.5-Turbo, GPT-4, Mixtral y DeepSeek) de tres géneros principales, noticias, reseñas de cine y artículos científicos especializados en lingüística. Estos fueron recopilados entre diciembre 2022 y  junio 2025.

 

Composición del corpus

 

 
GÉNEROS Artículos científicos Noticias Reseñas de cine
FUENTES

Revistas científicas de lingüística

RSEL, Revista de investiación Lingüística, Revista electrónica de lingüística aplicada, Sintagma, Círculo de Lingüística Aplicada a la Comunicación, Asterisco, …

Noticieros en línea:

RTVE, EFE

Web de reseñas de cine:

Filmaffinity

 

Corpus comparable Autor Humano  Gemini  Claude GPT-3.5-Turbo GPT-4 Mixtral Deep Seek N.º de textos por género
Género de los textos Artículos científicos 155 155 155 90 144 90 155 944
Noticias 185 185 185 111 171 111 185 1133
Reseñas de cine 174 174 174 95 160 95 174 1046
N.º total de textos 514 514 514 296 475 296 514 3123

 

 

  Muestra del corpus 

 

Características del corpus

  • Texto escrito en español
  • Comparables por autor
    • humano
    • Gemini
    • Claude
    • GPT-3.5-Turbo
    • GPT-4
    • Mixtral
    • DeepSeek