Outil d’extraction de documents de la bibliothèque numérique Heidelberg

Le notebook « BaOIA_scraper_heidleberg.ipynb » permet d’extraire automatiquement des documents issus de la bibliothèque numérique Heidelberg (https://www.ub.uni-heidelberg.de/helios/Welcome.html). Celle-ci contient notamment un grand nombre de périodiques, tous triés par année, puis volume, puis exemplaire ce qui représente un grand nombre de manipulations manuelles s’il s’agit de les télécharger un par par. De plus, il n’est possible de les télécharger qu’en un seul format.

Cet outil permet de télécharger tous les volumes d’un seul coup pour se former une base de documents solide et d’obtenir des formats de fichiers divers, qui permettent des études différentes selon le projet :

– des fichiers ALTO contenant le texte océrisé et sa position sur la page (peu détaillée) → .xml
– un fichier recensant les métadonnées essentielles des documents téléchargés → .json
– des fichiers ALTO contenant le texte océrisé et sa position précise sur la page, ainsi que celle des illustrations → .xml
– les fichiers images correspondant aux pages des documents → .jpg
– les illustrations reconnues et détourées présentes à l’intérieur des pages → .jpg
– les fichiers de métadonnées IIIF par page → .json
– les fichiers texte contenant le texte brut océrisé → .txt

Accès au notebook et pas à pas

L’outil sous forme de notebook est disponible sur le dépôt Github (https://github.com/baoia/scripts) « scripts » dans le dossier « presse_illustrée_estampes_satiriques ». Pour l’utiliser, il suffit de télécharger le dépôt et d’ajouter le notebook sur son Google drive, ou bien d’ouvrir un notebook vierge (Google Colaboratory) à partir de son Drive. Dans ce cas, cliquer sur l’onglet fichier dans le notebook, puis sur « Importer le notebook », puis dans l’onglet « Github » coller le lien du dépôt puis sélectionner « BaOIA_scraper_heidelberg.ipynb ».

– 1^ère cellule : Son exécution permet de se connecter à son drive Google sur lequel vont être téléchargés tous les documents (cf. aide technique). Dans le champ « chemin_vers_dossier_travail », indiquer le chemin vers le dossier de travail dans lequel les fichiers seront téléchargés. Si le dossier n’existe pas, celui-ci sera créé lors de l’exécution de la cellule.

– 2^ème cellule : Avant de lancer la cellule, remplir le champ demandé. Il s’agit du lien général vers le document conservé numériquement par la bibliothèque Heidelberg. Le début du lien est toujours « https://digi.ub.uni-heidelberg.de/diglit/ » suivi du dénominateur du document utilisé par la bibliothèque. Par exemple : « jugend » pour le Jugend: Münchner illustrierte Wochenschrift für Kunst und Leben (périodique satirique illustré). Il suffit de se rendre sur la page du document : https://digi.ub.uni-heidelberg.de/diglit/jugend disponible avec la recherche, de copier ce lien et de le coller dans le champ attendu à cet effet. Ainsi, l’outil va détecter automatiquement tous les volumes disponibles : ce sont les « Related items » sur la page web du document.

– 3^ème cellule : À partir de la liste de volumes qui s’est affichée après la cellule précédente, choisir de télécharger, en inscrivant dans le champ « volume_a_telecharger » :

– tous les volumes : indiquer « tout » .
– un seul volume : indiquer le numéro du document de la liste qui s’est affichée en dessous de la cellule de code précédente. ⚠ Le numéro à inscrire correspondant au volume est le premier de la ligne : par exemple, pour obtenir les fichiers du volume 1, il faut inscrire le numéro 0.

Ensuite, cocher / décocher les formats souhaités pour le téléchargement. ⚠ Pour télécharger les illustrations, il est absolument nécessaire de cocher aussi les cases « telecharger_les_fichiers_alto » et « telecharger_les_fichiers_iiif » qui sont requis pour la détection des illustrations. Les fichiers IIIF sont des fichiers de métadonnées dont le notebook a besoin pour extraire les images. Il est possible de supprimer ensuite ces fichiers téléchargés s’ils ne sont plus utiles.

Quand toutes les options de format de fichiers sont choisies, exécuter la cellule. Laisser tourner le script, qui peut s’exécuter un long moment si tout le corpus de documents doit être téléchargé dans plusieurs formats !

Résultats

Un dossier sera créé dont le nom reprend le nom du périodique choisi. Au sein de ce dossier, un dossier est créé par volume étudié. Pour chaque volume, on trouvera des fichiers alto (.json) généraux permettant le téléchargement des autres fichiers ainsi que de dossiers classés par format de fichier choisi précédemment contenant tous les documents téléchargés; en général, un fichier par page du périodique.