Outil d’extraction de résultats de bases de données : Joconde, Gallica et Europeana

Cet outil permet la récupération de données (textuelles et iconographiques) à partir de termes de recherche de trois bases de données : Gallica, la base Joconde et Europeana.

  • Accès au notebook et pas à pas

L’outil sous forme de notebook est disponible sur le dépôt Github (https://github.com/baoia/scripts) « scripts » dans le dossier « monumenTAL ». Pour l’utiliser, il suffit de télécharger le dépôt et d’ajouter le notebook sur son Google drive, ou bien d’ouvrir un notebook vierge (Google Colaboratory à partir de son Drive). Dans ce cas, cliquer sur l’onglet fichier dans le notebook, puis sur « Importer le notebook », puis dans l’onglet « Github » coller le lien du dépôt puis sélectionner « BaOIA_API_bases_de_donnees.ipynb ».

1ère cellule : Son exécution permet de se connecter à son drive Google sur lequel vont être téléchargés tous les documents (cf. aide technique). Dans le champ « chemin_vers_dossier_travail », indiquer le chemin vers le dossier de travail dans lequel les fichiers seront téléchargés. Si le dossier n’existe pas, celui-ci sera créé lors de l’exécution de la cellule.

2ème cellule : Elle permet de récupérer les fichiers textes correspondant aux termes recherchés dans les trois bases de données. Ils contiennent les informations « brutes » tirées des bases de données.

           – « terme_a_chercher » : indiquer un ou plusieurs termes pour la recherche. Par exemple : Vénus ou Venus de Milo. La cellule passe par les API des trois bases de données pour y récupérer le maximum de documents en lien avec la recherche. 

           – Les trois autres champs à remplir concernent la création et le nommage des fichiers de données récupérées avec les résultats de recherche. Il sont au format JSON qui permet un traitement de données facilité.

3ème cellule : Elle permet de normaliser et de rendre lisible les fichiers de données préalablement téléchargés. Une sélection d’informations a été conservée. Les nouveaux fichiers créés sont lisibles et utilisables. Quant aux images, elles sont enregistrées sur le Google Drive avec pour nom le titre des résultats. Deux champs différents sont à remplir avant de lancer la cellule :

           – « dossier_bases_europeana/gallica » : ce sont le nom des dossiers créés dans lesquels seront téléchargés les images correspondant aux résultats des deux bases de données. 

           – « nom_du_fichier_nettoye_base » : ce sont les noms des fichiers finaux, obtenus après nettoyage, contenant les résultats des recherches pour chaque base de données.

4ème cellule : Aucun champ n’est à remplir, elle permet de repérer les doublons entres les trois bases de données suivant les titres strictement identiques. Il peut donc avoir des doublons entre les bases qui ne sont pas repérés par cette méthode. 

5ème cellule : Elle permet de cartographier les lieux de conservation des résultats obtenus via la base Joconde. Un seul champ est à indiquer : le nom de la carte qui sera créée dans le Google Drive. Celle-ci s’affiche en dessous de la cellule après lancement et s’enregistre au format HTML dans le dossier de travail. Il suffit de la télécharger sur son ordinateur pour l’ouvrir via un navigateur web.

  • Résultats

Tous les fichiers sont enregistrés dans le dossier de travail énoncé au départ : les fichiers de données originaux et nettoyés, les dossiers contenant les images téléchargées, ainsi que la carte au format HTML.