Actualités du projet

1er atelier affiches numérisées – La Contemporaine

Le premier atelier concernant la valorisation des affiches numérisées de La Contemporaine a eu lieu le 31 mars 2022. Il avait pour objectif de définir les exploitations souhaitées pour ce fonds à l’aide d’outils d’apprentissage machine. Présentation du corpus et travaux réalisés Le fonds d’affiches numérisées se compose de 26 712 fichiers JPG ; une […]

Réalisations

Plusieurs outils sont disponibles sur le GitHub du projet BaOIA et accessibles à cette adresse : https://github.com/baoia/scripts. Téléchargement des données : BaOIA_gallica_txt.ipynb : télécharge les documents issus de Gallica en fichiers de texte brut. BaOIA_gallica_jpg.ipynb : télécharge les documents issus de Gallica en format image. BaOIA_images_iiif.ipynb : télécharge les images des documents sur Gallica en […]

2ème séance de séminaire BaOIA/ModOAP : les guides de voyage et manuels scolaires

11 février 2021 Tous les scripts sont disponibles sur les dépôts Github des projets. I. Présentation des outils A) Extraction et classification – Script 1 : téléchargement des documents nécessaires disponibles sur Gallica. Cet outil permet de récupérer automatiquement les données issues des corpus (guides et manuels) sous la forme d’un fichier JSON. Ce format […]

1ère séance de séminaire BaOIA/ModOAP : les guides de voyage et manuels scolaires

2 décembre 2020 1. Présentation des corpus a) Guides touristiques : Le corpus est composé d’une sélection des guides de la BnF libres de droits, datant du XVIIe au XXe siècles. Les guides sont en français et déjà numérisés, beaucoup sont océrisés. Les cartes et plans contenus dans les guides ont été numérisés à part. […]