Quatre corpus sont utilisés pour développer les outils.
Fonds d’affiches numérisées (La Comtemporaine):
25 000 affiches françaises et internationales, politiques et culturelles de la première partie de XIXème siècle, ainsi que de la Commune et de la période post-1950. Les circulations et réutilisations des images sont interrogées: la circulation des motifs graphiques comme vecteurs de l’internationalisation des luttes dans les années 1960-1980 ainsi que les réutilisations des photographies d’un même photographe indépendant dans la presse (Elie Kagan) dans le but d’automatiser la recherche de formes. https://argonnaute.parisnanterre.fr/
Guides de voyage numérisés (Bnf)
Corpus contenant des guides indépendants et touristiques: premières éditions en langue originale et traductions françaises, dans le but de réaliser une analyse comparée des discours et des thèmes qui structurent ce genre bibliographique. Différents outils sont développés pour faire émerger les grands axes de l’histoire des guides de voyage pour la reconnaissance de mise en page, le repérages de doublons textuels, le plongement de mots multilingue et un dispositif de visualisation des données.
Corpus de dépêches d’agences de presse soviétiques (La Contemporaine)
Articles, dépêches et textes journalistiques soviétiques des années 1960-1990, utilisés comme armes de guerre idéologiques transforment les nouvelles selon des modèles récurrents. Pour les repérer, des outils de classification des types de discours et d’analyse sémantique automatisés visent à révéler les manipulations historiques idéologiques et à évaluer le degré de fiabilité des archives.
Presse illustrée et estampes satiriques
Corpus de journaux, suppléments illustrés du dimanche numérisés par la Bnf et La Contemporaine, auquel s’ajoute un corpus de presse numérisée internationale (des revues artistiques, de petites revues littéraires). L’explosion du nombre de titre de presse engendre une circulation sans précédent des images (plagiées, clichées, réduites, copiées). L’utilisation des outils de reconnaissance informatique des images vise à rechercher de façon automatique l’origine des images et les réemplois à l’oeuvre: dépouillement automatisé des périodiques, détourage et extraction des images, étiquetage des images par reconnaissance des objets et personnages, classification selon des similarités graphiques et repérage des modifications apportées.