Corpus ROBOT-TALK
El corpus ROBOT TALK se creó con el objetivo de servir de muestra del lenguaje para hacer los análisis lingüísticos contrastivos tanto cuantitativos como cualitativos necesarios para responder a la pregunta principal del proyecto: ¿es posible distinguir si un texto en español ha sido generado por un LLM o por una persona utilizando rasgos lingüísticos del texto?
Se trata de un corpus comparable monitor en español. Está compuesto por textos comparables por autor (humano, Gemini, Claude, GPT-3.5-Turbo, GPT-4, Mixtral y DeepSeek) de tres géneros principales, noticias, reseñas de cine y artículos científicos especializados en lingüística. Estos fueron recopilados entre diciembre 2022 y marzo 2025.
Muestra del corpus
Características del corpus
- Texto escrito en español
- Comparables por autor
- humano
- Gemini
- Claude
- GPT-3.5-Turbo
- GPT-4
- Mixtral
- DeepSeek
Composición del corpus
Corpus comparable | Autor | Humano | Gemini | Claude | GPT-3.5-Turbo | GPT-4 | Mixtral | Deep Seek | N.º de textos por género |
---|---|---|---|---|---|---|---|---|---|
Género de los textos | Artículos científicos | 144 | 144 | 144 | 90 | 144 | 90 | 144 | 900 |
Noticias | 171 | 171 | 171 | 111 | 171 | 111 | 171 | 1077 | |
Reseñas de cine | 160 | 160 | 160 | 95 | 160 | 95 | 160 | 990 | |
N.º total de textos | 475 | 475 | 475 | 296 | 475 | 296 | 475 | 2967 |