|
|
P- ¿En qué consiste tu trabajo como director del
Oxford Text
Archive (OTA)?
R- Soy el responsable de la organización del archivo,
tanto en el trabajo diario como en la planificación estratégica, que por supuesto
ha de estar coordinada con el resto de la Unidad, los servicios informáticos y los
servicios de biblioteca e información de la Universidad.
P- ¿Cuánta gente trabaja en el OTA?
R- Ahora somos cuatro (Alan, John, Karen y yo), además
de Andy, que trabaja en un proyecto externo pero pertenece a nuestro grupo. Y pronto
habrá una persona más, con sueldo financiado por la Arts and
Humanities Research Board (AHRB) del Reino Unido.
P- ¿Cuál es la misión principal del OTA?
R- Archivamos textos para las futuras generaciones de
investigadores. Lou Burnard fundó el OTA en 1976 para evitar que la gente duplicara
el trabajo que otros ya habían hecho. Por ejemplo, alguien puede pasarse cinco años
tecleando un texto en griego antiguo, y si nadie se entera, otra persona podría
empezar a hacer lo mismo. El objetivo de Lou era reunir copias de este tipo de material
para distribuirlo a cualquier parte del mundo cuando alguien lo necesitara. Esto era
antes de la red, antes del FTP. Al principio, los textos se distribuían en cintas,
discos, etc, luego via FTP, y más recientemente a través de la red. Lou comenzó a
hacer esto solo, sin trabajar oficialmente para los servicios informáticos ni nada.
Ahora, tanto Karen como yo trabajamos para la Universidad de Oxford, pero el resto
de los puestos en el OTA dependen de financiación externa, porque somos parte de un
servicio nacional: el Arts
and Humanities Data Service. Los textos son útiles para la gente que quiera hacer
ediciones electrónicas y otro tipo de investigaciones, como análisis lingüísticos,
estadísticos, etc. Cuando alguien ha transformado un texto a formato digital, como
una obra de Shakespeare, parece lógico que otros puedan beneficiarse de este trabajo.
P- ¿Cómo afrontais el problema del copyright?
R- Hay muchos problemas de copyright. Cuando alguien
deposita material en el archivo tiene que firmar un acuerdo de depósito. En las
primeras versiones de este acuerdo no se trataba el tema del copyright. La versión
actual tiene que respetar los acuerdos del Arts and Humanities Data Service, así
que esencialmente dice que la persona que nos dona el material se hace responsable
de que el tema de los derechos esté lo más claro posible.
P- O sea, que si hay algún problema, esa persona será
la que vaya a juicio y no el OTA.
R- Sí. Legalmente esto no está muy claro todavía, porque
si una editorial demanda a alguien, le resultaría sin duda más beneficioso intentar
demandarnos a nosotros primero. Pero nunca hemos llegado tan lejos. A menudo recibimos
protestas de las editoriales diciendo que no deberíamos tener cierto material, pero
están equivocados en la mayoría de los casos. Por ejemplo, si uno de nuestros depósitos
consiste en una serie de textos medievales que una editorial publicó a mediados de
los sesenta, entonces tienen derechos sobre la tipografía, pero no sobre el contenido
en sí. Si nuestro donante ha limpiado el texto de notas o introducción, la editorial
no tiene ningún derecho sobre el texto que tenemos nosotros. La mayoría de las editoriales
no veían ningún sentido en los textos electrónicos en los ochenta, y todavía hay
bastantes que no lo ven. Hay ediciones impresas buenas y baratas de autores populares como
Jane Austen o Molière, así que las editoriales saben que no podrían sacar ningún
beneficio de una versión electrónica, con lo que no tienen ningún problema en darnos
esos textos. Sin embargo, ahora están empezando a querer utilizar ese material para
ponerlo en sus páginas web.
P- ¿Cuál es vuestra política de acceso? ¿Quién puede
obtener los textos?
R- Tenemos distintos niveles de acceso, y en realidad
la decisión depende del donante. Les instamos a que hagan sus materiales tan accesibles
como sea posible, mientras sea para la investigación y la enseñanza. Si alguien
quiere aprovechar este material para sacar dinero de alguna forma les remitimos
al donante original. Hay otras categorías, por ejemplo hay académicos que quieren
supervisar cada entrega de su texto. A veces hay instituciones y departamentos que
compiten en un área, y si han puesto mucho esfuerzo en un texto no quieren que sus
rivales lo tengan. Pero casi nadie se preocupa tanto por esto, a menudo les interesa
simplemente saber quién ha solicitado su texto porque así pueden ponerse en contacto
con gente que trabaja en el mismo campo. Aunque es verdad que a algunos investigadores
les pone muy nerviosos el hecho de que sus textos estén en nuestro archivo, les
parece que perderán el control sobre ellos, que alguien lo publicará sin su permiso
y su trabajo no será reconocido.
P- ¿Qué tipo de materiales teneis? ¿Sólo literatura? ¿Está todo
en inglés?
R- Al principio la colección se
creó según el interés personal de Lou. Le entusiasmaba la literatura inglesa del
XVII, XVIII y XIX, y también la francesa, así que tenemos una colección bastante
extensa en esas áreas. Nuestro objetivo ahora es más la investigación, nos interesan
textos de investigación académica. Hay un debate muy vivo dentro del Arts and Humanities
Data Service acerca de qué se debe recoger y cómo catalogarlo, porque para ciertas
cosas funciona muy bien el modelo de temas o áreas, pero no hay dinero para hacerlo
de igual modo para todas las áreas dentro de las humanidades. Otra forma de hacerlo
es pensar en la naturaleza de los textos, en nuestro caso queremos textos
electrónicos, así que nos da igual si están en inglés, francés o alemán, siempre
que tengamos los datos necesarios sobre su autor, el tema, etc. para poder catalogarlo
y distribuirlo, porque es imposible que seamos expertos en todas las disciplinas. El
texto ocupa muy poco espacio si consideramos los estándares de almacenamiento actuales
(comparándolo con el video, por ejemplo), por eso hay pocas limitaciones técnicas
referentes a todo lo que podemos archivar y dar acceso a la gente. El problema es que
sólo podemos ofrecer aquello que nos han donado previamente. Tenemos acuerdos con
algunas instituciones internacionales para intercambiar textos, sin embargo ninguna
de ellas es española, aunque Lou ha estado en contacto con la gente que trabaja en la
Biblioteca Cervantes.
P- ¿Pertenece vuestro contenido exclusivamente
al canon literario? ¿Teneis sólo escritores famosos?
R- En la mayor parte de los casos sí, aunque también
tenemos algunas cosas raras. Mi opinión en esto es que en general no deberíamos
preocuparnos por los textos de los grandes autores, porque las editoriales y la
Universidad ya se ocupan de ellos. Quizá debamos ocuparnos más de los otros autores
de los que es muy difícil encontrar algún libro impreso, o que no han sido tan
estudiados a lo largo de los años.
P- ¿No hay ninguna restricción? Por ejemplo,
¿publicaríais un manifiesto nazi?
R- No hay restricciones, consideraríamos incluso eso.
Simplemente no lo haríamos público para todo el mundo, quizá sólo para
la investigación, por ejemplo se lo daríamos a un historiador que está estudiando
la propaganda nazi. Pero la verdad es que no tenemos textos de este tipo. Nuestro
mayor problema ahora es que hacer páginas web es tan fácil que muchos investigadores
no se preocupan de depositar sus textos en nuestro archivo porque los ponen en
la página web de su departamento. Pero estás páginas pueden morir, o el profesor
puede abandonar esa Universidad, etc., y entonces quizá se pierda ese trabajo.
P- ¿Tiene vuestro material alguna ventaja sobre el
HTML básico? ¿Se pueden hacer búsquedas, por ejemplo?
R- Inentamos persuadir a la gente de que siga las
directrices de la TEI (Text Encoding Initiative)
(Iniciativa para la codificación de textos), y de que usen estándares internacionales
como SGML y XML, pero no podemos obligarles a hacerlo. De momento aceptamos también
otros formatos, pero aconsejamos a los donantes que conviertan sus textos a TEI
SGML/XML. Nosotros no podemos hacer la conversión, primero por falta de tiempo y
recursos, pero también porque para hacerlo se necesita saber mucho acerca del texto
original. Si está en turco da igual que yo sepa SGML. Todo lo que podemos garantizar
es que los archivos que guardamos estarán disponibles en 10, 20, 30 o 40 años.
P- ¿Qué haceis cuando cambian los estándares de formato?
R- Ahora guardamos todas las versiones de los archivos,
incluyendo las versiones originales de los donantes, que antes se tiraban cuando
se convertían los textos a caracteres ASCII en los setenta y ochenta. A veces las
versiones de los programas son tan viejas que incluso si pudiéramos leerlas no seríamos
capaces de aprovechar los textos, así que intentamos ir convirtiendo los archivos
a versiones más modernas. Por ejemplo, tenemos textos de los sesenta que se pueden
abrir, pero a lo mejor te sale también una columna extraña de código a un lado de la
página, y en principio no sabemos lo que es eso; pero si al final del documento hay
una transliteración de algo a griego antiguo, sabremos que el código extraño es
probablemente el texto en griego, y entonces podríamos convertirlo si quisiéramos.
P- ¿Hay consenso internacional acerca de
cómo han de digitalizarse los textos?
R- En los grandes proyectos de digitalización como
el de la
Universidad de Virginia o la de Michigan, están escaneando las páginas
de los libros antiguos tal cual, porque hay gente que se interesa por el aspecto
visual de las páginas, las imágenes, etc. Pero los grandes archivos de imágenes
resultantes no son cómodos para descargar. Así que al mismo tiempo están transcribiendo
el texto y codificándolo hasta un cierto punto, para que los usuarios puedan
hacer búsqueda en regiones específicas de los textos (por ejemplo, los títulos, etc.)
No van a etiquetar partes del discurso. Pero el potencial está ahí, si alguien
cogiera un texto codificado en TEI SGML/XML y quisiera añadir un nivel más profundo
de codificación no sería difícil.
P- ¿Puedes darnos algunas cifras impresionantes acerca
del OTA?
R- Es difícil saber exactamente cuántos textos tenemos,
porque tenemos varios corpora, que cuentan cada uno como un sólo texto. Por ejemplo,
el corpus de inglés antiguo tiene más de tres mil textos individuales, y esto era
muy grande en los ochenta (35 megas), pero hoy en día a la gente no le importa
descargarse archivos de ese tamaño en la red. Lo peor es la catalogación, porque
si sólo te interesa un texto breve dentro de ese corpus, ¿cómo lo encuentras? No
quieres bajarte todo el corpus, porque es una serie de líneas contiunas de texto
que están bien para un ordenador, pero no están preparadas para un ser humano.
También tenemos bastantes antologías y obras completas de algunos escritores, y
todas esas cuentan como un sólo texto. Algunas editoriales hacen justamente lo
contrario, y cuentan una antología de 200 poemas como 200 textos. En un mes, la
gente se descarga 5500 textos del servidor y otros 3000 usando el viejo sistema
FTP, así que aproximadamente unos 8500 al mes. Pero es difícil evaluar esto, porque
hay gente que quizá sólo quiera un párrafo de un texto, y gente que usará todo el
corpus. Además no controlamos la actividad de los servidores que hacen de mirror
de nuestros contenidos.
Hay un problema, y es que la gente está acostumbrada ahora a que se lo den todo
instantáneamente en la red, pero algunos de nuestros textos tienen problemas de IPR,
así que les pedimos a los usuarios que rellenen una ficha cuando pidan esos
materiales. Y aunque nuestro servicio es gratuito y no tienen que pagar nada, a la
gente no le gusta tener que hacer esto, lo perciben como una limitación en su uso
de los recursos digitales.
Home
|
|