El archivo de la web española de la Biblioteca Nacional de España

Recientemente ha finalizado el proyecto “Servicio de apoyo a la gestión de colecciones del depósito legal de las publicaciones en línea de la Biblioteca Nacional de España”. Dicho proyecto comenzó en marzo de 2017 y ha contado con un total de 4 profesionales  de Abana a lo largo de su desarrollo.

Igual que en el S. XVI, el rey de Francia Francisco I pensó que era importante guardar una serie de ejemplares de los libros editados en un país, para su conservación y consulta en el futuro, con la aparición de Internet y la tendencia cada vez más extendida de publicar a través de este medio, diversas instituciones se plantearon la necesidad de “guardar Internet” creando de esta manera los Archivos de la web.

El archivo de la web es la colección compuesta por una selección de sitios web recolectados automáticamente. La BNE inició este proyecto en el 2009 con el fin de conservar y facilitar la consulta en un futuro de todo lo producido en Internet dentro del ámbito español, llevando a cabo ocho recolecciones masivas del dominio .es y dos recolecciones selectivas, realizadas por Internet Archive. En esta primera fase, contó con la colaboración de Abana para realizar el control de calidad de un porcentaje de los sitios recolectados.

En el 2014 se comenzaron a hacer recolecciones con medios propios y ya en el 2015 se aprobó el Real Decreto que regula el depósito legal de las publicaciones en línea y la manera de hacer este depósito. Se contemplan varias formas de ingreso de las publicaciones objeto de depósito legal:

  • la recolección automática de la web por medio de robots, cuando los contenidos estén públicamente accesibles
  • el depósito vía transferencia de archivos cuando las publicaciones no estén accesibles libremente en la web.

Para llevar a cabo la recolección automática de los sitios web, para la BNE son imprescindibles las siguientes herramientas:

  • CWeb (Colecciones en la Web): es una aplicación desarrollada por la Biblioteca Nacional de Francia (BnF), y cedida a la Biblioteca Nacional de España (BNE) que permite a los conservadores web de la BNE y de las Comunidades Autónomas, gestionar las colecciones de sitios web, introduciendo datos como URL (semilla), parámetros de recolección (frecuencia, profundidad y tamaño) y descripción (materia, palabras clave, título, notas de contenido y notas técnicas).
  • NetArchiveSuite (NAS): Es el robot rastreador al que se transfieren las listas de las URL seleccionadas, con la configuración que se haya especificado en CWeb. Recorre la web de la misma manera que lo haríamos nosotros y guarda todo lo que se va encontrando manteniendo su estructura.
  • OpenWayback: Es el visor en el podremos consultar los sitios que se han recolectado.

Archivo de la Web

Captura realizada sobre la web de Abana. Fuente de la imagen: consulta realizada en la URL de acceso público http://www.dl-e.es/openwayback/wayback/

 

Otro protagonista imprescindible en el proceso de la recolección de los sitios de Internet, es el conservador web, es decir, la persona encargada de gestionar todos los procesos llevados a cabo en una archivo web,  desde la selección de las semillas que se van a recolectar hasta el control de calidad de lo archivado, siendo esto último fundamental para detectar errores y aplicar soluciones. Estas tareas son las que Abana ha llevado a cabo en las distintas ocasiones en las que ha colaborado con la BNE en este proyecto tan novedoso como interesante.

Más información en:

 



Autor: Carmen Peguero en colaboración con Pilar Ordás
Supervisora de Proyectos

Deja un comentario