Proyectos de Investigación

Corpus ROBOT-TALK-TRAD

Descripción / Description

El corpus ROBOT TALK TRAD se ha creado con el objetivo de servir de muestra de lenguaje para hacer los análisis lingüísticos contrastivos, tanto cuantitativos como cualitativos, que nos permitirán comparar los textos traducidos por humanos, los textos traducción por DEEPL, y los textos traducidos por dos LLM: GPT-4 y DEEP SEEK. 

Se trata de un corpus de textos paralelos con traducciones del inglés al español. Está compuesto originales en inglés, sus traducciones humanas y las realizadas por DEEPL y los dos LLM generativos GPT-4 y DEEP SEEK. Los textos pertenecen a tres géneros: noticias, reseñas de cine y artículos científicos especializados en lingüística y fueron recopilados entre enero y julio de 2025. Las noticias se han extraído de Global Voices, una web que publica reportajes y noticias de todo el mundo desde 2005, las reseñas proceden de la Wikipedia en inglés y, junto con sus traducciones humanas al español, pueden encontrarse en la página web del proyecto educativo UAH-Sostenibilidad ambiental y cultural a través de la publicación multilingüe en Wikipedia, 2024-2025, finalmente, los artículos científicos se extrajeron de la revista Monografías de Traducción e Interpretación (MonTI), de la Revista española de lingüística aplicada (RESLA), de la Revista Estudios de Lingüística Inglesa Aplicada (ELIA) y de la Revista Estudios de Fonética Experimental (EFE). Las noticias utilizadas en este corpus corresponden a publicaciones anteriores a 2022, con el fin de garantizar que fueran generadas por humanos y no por modelos de lenguaje.

 Muestra del corpus ROBOT TALK TRAD / Sample from the ROBOT TALK TRAD corpus


The ROBOT TALK TRAD corpus has been developed as a linguistic resource for conducting both quantitative and qualitative contrastive analyses. Its purpose is to enable comparisons between texts translated by humans, those translated by DEEPL, and those produced by two large language models (LLMs).

This is a parallel corpus featuring translations from English into Spanish. It consists of original English texts along with their human translations and those generated by DEEPL, GPT-4, and DEEPSEEK. The texts span three genres—news articles, film reviews, and linguistics-related scientific papers—and were collected between January and July 2025. The news items were sourced from Global Voices, a platform that has been publishing international reports and news since 20005. The reviews were taken form the English Wikipedia and, along with their human translations into Spanish, are available on the website of the UAH educational project Environmental and Cultural Sustainability through Multilingual Publication on Wikipedia (2024-2025). Finally, the scientific articles were drawn from the journals Monografías de Traducción e Interpretación (MonTi), the Revista Española de Lingüísitca Aplicada (RESLA), Estudios de Lingüística Inglesa Aplicada (ELIA), Estudios de Fonética Experimental (EFE). The news used in this corpus corresponds to publications prior to 2022, to ensure they were generated by humans and not by language models.

 

Composición del corpus / composition of the corpus

 

  AUTOR / AUTHOR
GÉNERO / GENRE

Humano inglés /

Human english

Humano español /

Human spanish

DEEPL GPT-4 DEEPSEEK Total

Artículos científicos /

Cientific articles

25 25 25 25 25 125

Noticias /

News

50 50 50 50 50 250

Reseñas de cine /

Film reviews

10 10 10 10 10 50
Total 500