Michael Popham
Director del Oxford Text Archive



Michael Popham. Head of OTA P- ¿En qué consiste tu trabajo como director del Oxford Text Archive (OTA)?

R- Soy el responsable de la organización del archivo, tanto en el trabajo diario como en la planificación estratégica, que por supuesto ha de estar coordinada con el resto de la Unidad, los servicios informáticos y los servicios de biblioteca e información de la Universidad.

P- ¿Cuánta gente trabaja en el OTA?

R- Ahora somos cuatro (Alan, John, Karen y yo), además de Andy, que trabaja en un proyecto externo pero pertenece a nuestro grupo. Y pronto habrá una persona más, con sueldo financiado por la Arts and Humanities Research Board (AHRB) del Reino Unido.

P- ¿Cuál es la misión principal del OTA?

R- Archivamos textos para las futuras generaciones de investigadores. Lou Burnard fundó el OTA en 1976 para evitar que la gente duplicara el trabajo que otros ya habían hecho. Por ejemplo, alguien puede pasarse cinco años tecleando un texto en griego antiguo, y si nadie se entera, otra persona podría empezar a hacer lo mismo. El objetivo de Lou era reunir copias de este tipo de material para distribuirlo a cualquier parte del mundo cuando alguien lo necesitara. Esto era antes de la red, antes del FTP. Al principio, los textos se distribuían en cintas, discos, etc, luego via FTP, y más recientemente a través de la red. Lou comenzó a hacer esto solo, sin trabajar oficialmente para los servicios informáticos ni nada. Ahora, tanto Karen como yo trabajamos para la Universidad de Oxford, pero el resto de los puestos en el OTA dependen de financiación externa, porque somos parte de un servicio nacional: el Arts and Humanities Data Service. Los textos son útiles para la gente que quiera hacer ediciones electrónicas y otro tipo de investigaciones, como análisis lingüísticos, estadísticos, etc. Cuando alguien ha transformado un texto a formato digital, como una obra de Shakespeare, parece lógico que otros puedan beneficiarse de este trabajo.

P- ¿Cómo afrontais el problema del copyright?

R- Hay muchos problemas de copyright. Cuando alguien deposita material en el archivo tiene que firmar un acuerdo de depósito. En las primeras versiones de este acuerdo no se trataba el tema del copyright. La versión actual tiene que respetar los acuerdos del Arts and Humanities Data Service, así que esencialmente dice que la persona que nos dona el material se hace responsable de que el tema de los derechos esté lo más claro posible.

P- O sea, que si hay algún problema, esa persona será la que vaya a juicio y no el OTA.

R- Sí. Legalmente esto no está muy claro todavía, porque si una editorial demanda a alguien, le resultaría sin duda más beneficioso intentar demandarnos a nosotros primero. Pero nunca hemos llegado tan lejos. A menudo recibimos protestas de las editoriales diciendo que no deberíamos tener cierto material, pero están equivocados en la mayoría de los casos. Por ejemplo, si uno de nuestros depósitos consiste en una serie de textos medievales que una editorial publicó a mediados de los sesenta, entonces tienen derechos sobre la tipografía, pero no sobre el contenido en sí. Si nuestro donante ha limpiado el texto de notas o introducción, la editorial no tiene ningún derecho sobre el texto que tenemos nosotros. La mayoría de las editoriales no veían ningún sentido en los textos electrónicos en los ochenta, y todavía hay bastantes que no lo ven. Hay ediciones impresas buenas y baratas de autores populares como Jane Austen o Molière, así que las editoriales saben que no podrían sacar ningún beneficio de una versión electrónica, con lo que no tienen ningún problema en darnos esos textos. Sin embargo, ahora están empezando a querer utilizar ese material para ponerlo en sus páginas web.

P- ¿Cuál es vuestra política de acceso? ¿Quién puede obtener los textos?

R- Tenemos distintos niveles de acceso, y en realidad la decisión depende del donante. Les instamos a que hagan sus materiales tan accesibles como sea posible, mientras sea para la investigación y la enseñanza. Si alguien quiere aprovechar este material para sacar dinero de alguna forma les remitimos al donante original. Hay otras categorías, por ejemplo hay académicos que quieren supervisar cada entrega de su texto. A veces hay instituciones y departamentos que compiten en un área, y si han puesto mucho esfuerzo en un texto no quieren que sus rivales lo tengan. Pero casi nadie se preocupa tanto por esto, a menudo les interesa simplemente saber quién ha solicitado su texto porque así pueden ponerse en contacto con gente que trabaja en el mismo campo. Aunque es verdad que a algunos investigadores les pone muy nerviosos el hecho de que sus textos estén en nuestro archivo, les parece que perderán el control sobre ellos, que alguien lo publicará sin su permiso y su trabajo no será reconocido.

P- ¿Qué tipo de materiales teneis? ¿Sólo literatura? ¿Está todo en inglés?

R- Al principio la colección se creó según el interés personal de Lou. Le entusiasmaba la literatura inglesa del XVII, XVIII y XIX, y también la francesa, así que tenemos una colección bastante extensa en esas áreas. Nuestro objetivo ahora es más la investigación, nos interesan textos de investigación académica. Hay un debate muy vivo dentro del Arts and Humanities Data Service acerca de qué se debe recoger y cómo catalogarlo, porque para ciertas cosas funciona muy bien el modelo de temas o áreas, pero no hay dinero para hacerlo de igual modo para todas las áreas dentro de las humanidades. Otra forma de hacerlo es pensar en la naturaleza de los textos, en nuestro caso queremos textos electrónicos, así que nos da igual si están en inglés, francés o alemán, siempre que tengamos los datos necesarios sobre su autor, el tema, etc. para poder catalogarlo y distribuirlo, porque es imposible que seamos expertos en todas las disciplinas. El texto ocupa muy poco espacio si consideramos los estándares de almacenamiento actuales (comparándolo con el video, por ejemplo), por eso hay pocas limitaciones técnicas referentes a todo lo que podemos archivar y dar acceso a la gente. El problema es que sólo podemos ofrecer aquello que nos han donado previamente. Tenemos acuerdos con algunas instituciones internacionales para intercambiar textos, sin embargo ninguna de ellas es española, aunque Lou ha estado en contacto con la gente que trabaja en la Biblioteca Cervantes.

OTA staff: Michael Popham, Alan Morrison and John Leedham

P- ¿Pertenece vuestro contenido exclusivamente al canon literario? ¿Teneis sólo escritores famosos?

R- En la mayor parte de los casos sí, aunque también tenemos algunas cosas raras. Mi opinión en esto es que en general no deberíamos preocuparnos por los textos de los grandes autores, porque las editoriales y la Universidad ya se ocupan de ellos. Quizá debamos ocuparnos más de los otros autores de los que es muy difícil encontrar algún libro impreso, o que no han sido tan estudiados a lo largo de los años.

P- ¿No hay ninguna restricción? Por ejemplo, ¿publicaríais un manifiesto nazi?

R- No hay restricciones, consideraríamos incluso eso. Simplemente no lo haríamos público para todo el mundo, quizá sólo para la investigación, por ejemplo se lo daríamos a un historiador que está estudiando la propaganda nazi. Pero la verdad es que no tenemos textos de este tipo. Nuestro mayor problema ahora es que hacer páginas web es tan fácil que muchos investigadores no se preocupan de depositar sus textos en nuestro archivo porque los ponen en la página web de su departamento. Pero estás páginas pueden morir, o el profesor puede abandonar esa Universidad, etc., y entonces quizá se pierda ese trabajo.

P- ¿Tiene vuestro material alguna ventaja sobre el HTML básico? ¿Se pueden hacer búsquedas, por ejemplo?

R- Inentamos persuadir a la gente de que siga las directrices de la TEI (Text Encoding Initiative) (Iniciativa para la codificación de textos), y de que usen estándares internacionales como SGML y XML, pero no podemos obligarles a hacerlo. De momento aceptamos también otros formatos, pero aconsejamos a los donantes que conviertan sus textos a TEI SGML/XML. Nosotros no podemos hacer la conversión, primero por falta de tiempo y recursos, pero también porque para hacerlo se necesita saber mucho acerca del texto original. Si está en turco da igual que yo sepa SGML. Todo lo que podemos garantizar es que los archivos que guardamos estarán disponibles en 10, 20, 30 o 40 años.

P- ¿Qué haceis cuando cambian los estándares de formato?

R- Ahora guardamos todas las versiones de los archivos, incluyendo las versiones originales de los donantes, que antes se tiraban cuando se convertían los textos a caracteres ASCII en los setenta y ochenta. A veces las versiones de los programas son tan viejas que incluso si pudiéramos leerlas no seríamos capaces de aprovechar los textos, así que intentamos ir convirtiendo los archivos a versiones más modernas. Por ejemplo, tenemos textos de los sesenta que se pueden abrir, pero a lo mejor te sale también una columna extraña de código a un lado de la página, y en principio no sabemos lo que es eso; pero si al final del documento hay una transliteración de algo a griego antiguo, sabremos que el código extraño es probablemente el texto en griego, y entonces podríamos convertirlo si quisiéramos.

P- ¿Hay consenso internacional acerca de cómo han de digitalizarse los textos?

R- En los grandes proyectos de digitalización como el de la Universidad de Virginia o la de Michigan, están escaneando las páginas de los libros antiguos tal cual, porque hay gente que se interesa por el aspecto visual de las páginas, las imágenes, etc. Pero los grandes archivos de imágenes resultantes no son cómodos para descargar. Así que al mismo tiempo están transcribiendo el texto y codificándolo hasta un cierto punto, para que los usuarios puedan hacer búsqueda en regiones específicas de los textos (por ejemplo, los títulos, etc.) No van a etiquetar partes del discurso. Pero el potencial está ahí, si alguien cogiera un texto codificado en TEI SGML/XML y quisiera añadir un nivel más profundo de codificación no sería difícil.

Some users at work

P- ¿Puedes darnos algunas cifras impresionantes acerca del OTA?

R- Es difícil saber exactamente cuántos textos tenemos, porque tenemos varios corpora, que cuentan cada uno como un sólo texto. Por ejemplo, el corpus de inglés antiguo tiene más de tres mil textos individuales, y esto era muy grande en los ochenta (35 megas), pero hoy en día a la gente no le importa descargarse archivos de ese tamaño en la red. Lo peor es la catalogación, porque si sólo te interesa un texto breve dentro de ese corpus, ¿cómo lo encuentras? No quieres bajarte todo el corpus, porque es una serie de líneas contiunas de texto que están bien para un ordenador, pero no están preparadas para un ser humano. También tenemos bastantes antologías y obras completas de algunos escritores, y todas esas cuentan como un sólo texto. Algunas editoriales hacen justamente lo contrario, y cuentan una antología de 200 poemas como 200 textos. En un mes, la gente se descarga 5500 textos del servidor y otros 3000 usando el viejo sistema FTP, así que aproximadamente unos 8500 al mes. Pero es difícil evaluar esto, porque hay gente que quizá sólo quiera un párrafo de un texto, y gente que usará todo el corpus. Además no controlamos la actividad de los servidores que hacen de mirror de nuestros contenidos.

Hay un problema, y es que la gente está acostumbrada ahora a que se lo den todo instantáneamente en la red, pero algunos de nuestros textos tienen problemas de IPR, así que les pedimos a los usuarios que rellenen una ficha cuando pidan esos materiales. Y aunque nuestro servicio es gratuito y no tienen que pagar nada, a la gente no le gusta tener que hacer esto, lo perciben como una limitación en su uso de los recursos digitales.

Home