Cet outil permet la recherche, l’extraction des entités nommées ou différents traitements lexicométriques dans des documents de Gallica.
Document d’entrée/nécessaire : fichier Excel au format .xlsx
. Ce fichier doit contenir AU MOINS les liens Gallica vers les documents OU les identifiants ark. Exemple : https://gallica.bnf.fr/ark:/12148/bpt6k63947766 OU bpt6k63947766. Un lien doit être indiqué par case, sur une colonne du fichier Excel. Ce n’est pas un problème si le fichier Excel contient d’autres informations (titre, auteur, date, etc.). Exemple de fichier Excel :
Ici, c’est la colonne D qui contient les liens vers Gallica.
- Accès au notebook et pas à pas
L’outil sous forme de notebook est disponible sur le dépôt Github (https://github.com/baoia/scripts) « scripts » dans le dossier « guides_de_voyage ». Pour l’utiliser, il suffit de télécharger le dépôt et d’ajouter le notebook sur son Google drive, ou bien d’ouvrir un notebook vierge (Google Colaboratory à partir de son Drive. Dans ce cas, cliquer sur l’onglet fichier dans le notebook, puis sur « Importer le notebook », puis dans l’onglet « Github » coller le lien du dépôt puis sélectionner » BaOIA_gallica_text.ipynb « .
Il faut ajouter le document Excel initial (ici appelé « Corpus de Guides Paris ») au dossier contenant le notebook concerné sur le Google Drive : soit ici, le dossier « guides_de_voyage ».
– 1ère cellule : Son exécution permet de se connecter à son drive Google sur lequel vont être téléchargés tous les documents (cf. aide technique).
– 2ème cellule : avant d’exécuter la cellule, remplir les champs demandés :
– chemin_vers_le_dossier_de_travail : il est inutile de le changer si le dossier de travail est le même que celui téléchargé de Github contenant les carnets et le fichier Excel avec la liste des documents, soit /content/drive/My Drive/scripts-main/guides_de_voyage
.
– chemin_vers_le_fichiers_excel : il s’agit du chemin précédent auquel vient s’ajouter à la fin le nom du fichier Excel avec son format. Le fichier excel exemple se nomme Corpus de Guides Paris, donc le chemin final sera : /content/drive/My Drive/scripts-main/guides_de_voyage/Corpus de Guides Paris.xlsx
– nom_de_la_feuille : un fichier Excel peut contenir plusieurs feuilles, il faut indique celle qui contient les liens. La feuille est indiquée en bas à gauche du fichier Excel. Dans notre exemple, la feuille de travail s’appelle « Guides Paris », c’est donc l’information exacte à indiquer dans la case.
– lettre_de_la_colonne : c’est la lettre qui correspond à la colonne qui contient les liens : ici, la colonne D.
– nom_dossier_telechargement : indiquer le nom du dossier souhaité dans lequel les fichiers textes extraits seront téléchargés. Ici, il est nommé « fichiers textes guides gallica ».
Lancer la cellule. Laisser la cellule s’exécuter (plusieurs minutes sont nécessaires pour télécharger les fichiers). Ici, pour 12 liens, la cellule s’exécute en 3 minutes et 30 secondes.
- Résultats
Dans le dossier de travail Google drive, on peut voir que le dossier a été créé et qu’il contient les fichiers textes nommés avec leur date, le titre du document téléchargé et son identifiant ARK.
⚠ Seuls les documents océrisés sont téléchargeables au format texte. Ainsi, si le nombre de documents présents dans le dossier de téléchargement est inférieur à celui du nombre de liens dans le fichier Excel d’origine, c’est que le document n’a pas été océrisé par la BnF et donc que le texte n’est pas téléchargeable. En dessous du script s’affiche les documents concernés.
Documents de sortie/créés : fichiers au format .txt
dans le dossier de téléchargement. Il est possible de les ouvrir et de les consulter. Ils contiennent uniquement le texte brut océrisé, il n’y a donc aucune indication bibliographique ou de mise en page.