Affiches

Métadonnées

Le travail effectué sur les affiches a porté en majorité sur les métadonnées des affiches numérisées :
– Regroupement des métadonnées disponibles (fichier inventaire + instruments de recherche Calames)
– Structuration d’un fichier de métadonnées en liant la cote au fichier jpg issu de la numérisation
– Harmonisation et nettoyage des métadonnées en ajoutant le résultat de l’océrisation des affiches et le repérage des doublons et images similaires pour un fichier donné
– Vectorisation de chaque fichier jpg pour de potentielles futures comparaisons
– Versement des métadonnées et des fichiers jpg des affiches libres de droit (antérieures ou égales à 1945) dans la base de données du CSLF accessible via un identifiant

Le fichier de métadonnées final est disponible sur le GitHub du projet via le lien suivant. Il comprend les colonnes suivantes :

  • Identifiant Calames
  • Cote
  • Fichier jpg issu de la numérisation
  • Titre Calames
  • Numéro de pochette/tube
  • Date
  • Date de début (intervalle de date)
  • Date de fin (intervalle de date)
  • Pays/aire impliqué(s)
  • Langue(s)
  • Taux de fiabilité de la langue lorsqu’elle n’était pas dans les métadonnées originelles et qu’elle a été détectée via l’océrisation
  • Description sujets pochette/tube
  • Thématiques
  • Sujets
  • Origine
  • Description Calames
  • Auteur(s)
  • Commanditaire(s)
  • Producteur(s)/Éditeur(s)
  • Lieux de production
  • Imprimeur(s)
  • Lien Argonnaute
  • Dimensions réduites
  • Dimensions entières
  • Texte
  • Doublon(s)
  • Image(s) similaire(s)
  • Distances (la distance entre l’image similaire détectée et l’image de référence).

Les fichiers json contenant les vecteurs de chaque fichier jpg sont disponible via le lien suivant.

À terme, l’ensemble des métadonnées concernant les affiches numérisées sera disponible sur un site de consultation dédié ouvert à tous.

Technologies utilisées : logiciel Dataiku, logiciel OpenRefine, API Google Vision.

Visualisations de données

Une autre partie du travail a été consacrée à la réalisation de visualisations.

Tout d’abord, l’outil PixPlot a été utilisé pour classer les fichiers jpg suivant leur ressemble physique ; plus deux images sont proches, plus elles sont similaires. PixPlot génère des clusters, groupes thématiques cohérents d’images, dont il s’agit ensuite d’identifier la particularité commune. La visualisation PixPlot des affiches numérisées libres de droit (antérieures ou égales à 1945) est disponible via le lien suivant.

Le logiciel Tableau Public a été utilisé pour la tenue d’un atelier de discussion sur les attendus du projet concernant le fonds des affiches numérisées :

  • Un premier tableau comportant des visualisations sur la date, la langue, le lieux de production et les pays concernés.
  • Un second tableau concernant les auteurs, les commanditaires, les imprimeurs et les sujets abordés par les affiches.

Ces visualisations, ayant été réalisées au début du processus de regroupement des métadonnées, ne portent pas sur l’ensemble du corpus d’affiches numérisées mais sur un échantillon d’environ 11 000 fichiers. Pour reproduire ces visualisations, les fichiers nécessaires sont disponibles via le GitHub du projet ; leur ouverture ne peut se faire que dans le même logiciel.

Technologies utilisées : logiciel Tableau Public, visualiseur PixPlot.