Aller au contenu principal

Pour nous joindre

Guide de traitement documentaire

Guide du Groupe de travail sur le Traitement des ressources documentaires du PBUQ

Bulletin de veille no 2 (Janvier 2025)

Pour le deuxième numéro du bulletin de veille Traitement documentaire et intelligence artificielle, nous vous présentons 4 documents qui abordent le développement, l’utilisation et l’apprentissage de différents outils de l’intelligence artificielle pour appuyer les tâches de description et d’analyse documentaire dans différents types de bibliothèques. 

Bonne lecture!

 

Leclaire, C., & Leroy-Terquem, M. (2021). Quelques projets d'intelligence artificielle en cours à la BnF. Repéré le 16 janvier 2025 à https://www.bnf.fr/fr/quelques-projets-dintelligence-artificielle-en-cours-la-bnf

La Bibliothèque nationale de France a plusieurs projets en cours qui permettent de mieux explorer leurs collections.  

Voici les descriptions de ces projets :

  • GallicaSnoop (https://snoop.inria.fr/bnf) qui permet d'indexer automatiquement et de rechercher des images.
  • La base de données REMDM (pour Répertoire des écritures manuscrites du département de la Musique) permettra à terme d'identifier les auteurs anonymes de partitions de musique grâce à l'intelligence artificielle.
  • Litté_Bot est un chatbot littéraire basé sur un corpus de 400 pièces de théâtre du XVIIe siècle et qui permet de discuter avec des personnages de la littérature. 
  • NewsEye (https://www.newseye.eu/fr) permet d'explorer la presse ancienne numérisée grâce à des outils qui analysent automatiquement le texte et la structure des journaux.
  • Lors du dépôt légal du Web, la BnF a créé une collection de ressources qui traitent de l’IA sur le web (https://www.bnf.fr/fr/parcours-guides-archives-de-linternet#bnf-l-intelligence-artificielle-sur-le-web).
  • Datacatalogue est un projet qui permet de segmenter et structurer les données contenues dans 17 000 catalogues de vente numismatiques pour améliorer la recherche pour les historiens de l'art.

Auteure du résumé 
Anita Mazur, Polytechnique Montréal

 

Lo, L. S. (2024). Transforming academic librarianship through AI reskilling: Insights from the GPT-4 exploration program. The Journal of Academic Librarianship, 50(3), 102883. https://doi.org/10.1016/j.acalib.2024.102883

L'article Transforming Academic Librarianship through AI Reskilling: Insights from the GPT-4 Exploration Program explore comment l'intelligence artificielle transforme les bibliothèques universitaires en exigeant le développement de nouvelles compétences de la part des professionnels de l’information.  À travers une étude de cas du programme de formation sur l'utilisation de la technologie GPT-4 offert par l'Université du Nouveau-Mexique, l'auteur décrit le développement des compétences en IA grâce à un apprentissage collaboratif. En s'appuyant sur les principes d'apprentissage pour adultes élaboré par Malcolm Knowles, le programme a permis aux participants de développer leurs connaissances des outils IA et d’améliorer leur confiance dans leur capacité à appliquer ces technologies dans leurs pratiques professionnelles. En adoptant une approche pratique et collaborative, ils ont réalisé divers projets d’intégration de l’IA dans les services des bibliothèques, comme l'automatisation des tâches d’indexation des ressources documentaires et l'amélioration de l'expérience utilisateur. Les résultats montrent que le succès de telles initiatives repose sur la création d'une culture d'apprentissage collaboratif. La collaboration entre les participants a permis un partage des connaissances et des expériences et a enrichi les apprentissages individuels et collectifs, notamment en ce qui concerne les biais algorithmiques et la confidentialité des données. Les discussions sur ces enjeux ont aidé les participants à développer une approche critique envers l’IA. 

L'article offre quelques recommandations pour les bibliothèques universitaires souhaitant lancer des programmes de formation similaires.  Ces milieux doivent encourager leurs professionnels à adopter une culture d’apprentissage continue pour s’adapter aux évolutions rapides des technologies IA. Il est essentiel de les soutenir en mettant en place des structures qui encouragent l’exploration et réduisent la peur de l’échec, comme des ateliers interactifs. 

Il est à noter que l’article semble s’appuyer principalement sur des retours qualitatifs des quelques participants. L’absence de données quantitatives pour mesurer l’impact du programme (par exemple, des statistiques sur l’amélioration des compétences ou la productivité des participants) limite l’évaluation critique des résultats. Le nombre de participants et la diversité de leurs profils professionnels ne sont pas suffisamment détaillés. Cela soulève des questions sur la généralisation des résultats à d'autres contextes. Toutefois, nous sommes d’avis que l'article constitue une contribution importante au débat sur l’intégration de l’IA dans les bibliothèques universitaires. Il se distingue par son approche pratique et fournit une base solide pour inspirer des initiatives similaires.

Auteure du résumé 
Teresa Bascik, Université de Montréal

 

Malmsten, M., Lundborg, V., Fano, E., Haffenden, C., Klingwall, F., Kurtz, R., Lindström, N., Rekathati, F. & Börjeson, L. (2025). Without Heading? Automatic Creation of a Linked Subject System. Dans E. Balnaves, L. Bultrini, A. Cox & R. Uzwyshyn (Éds.), New Horizons in Artificial Intelligence in Libraries (pp. 179-198). https://doi.org/10.1515/9783111336435-014

Ce chapitre du livre New Horizons in Artificial Intelligence in Libraries présente un projet de la Bibliothèque nationale de Suède (KB) dans lequel l’intelligence artificielle a été utilisée pour créer un système d’indexation entièrement automatisé. Le but du projet est de développer une nouvelle méthode d’indexation qui pourrait enrichir, compléter ou remplacer l’indexation faite par des humains en utilisant des vedettes-matière et/ou un vocabulaire contrôlé. Le texte identifie trois faiblesses de l’indexation « traditionnelle » qui viennent justifier l’intérêt pour une méthode automatisée. En effet, on souligne que l’indexation « traditionnelle » diffère grandement d’un indexeur à l’autre, qu’elle est biaisée et qu’elle nécessite des ressources importantes pour la mise à jour et le maintien des vedettes-matière et des vocabulaires contrôlés. 

Afin d’explorer de nouvelles possibilités en matière d’indexation, l’équipe de la KB a donc utilisé la technique de « topic modelling » BERTopic. Cette technique regroupe l’utilisation, entre autres, de sentence-BERT et des algorithmes UMAP et HDBSCAN. La technique BERTopic se démarque notamment en réduisant le travail de prétraitement des documents et en offrant des paramètres par défaut optimisés. Ainsi, l’outil est hautement automatisé tout en demeurant flexible. Dans le cadre du projet, la technique BERTopic a été utilisée pour analyser un échantillon de documents provenant des collections numériques de la KB. Pour les 954 titres analysés, le système utilisant l’IA a identifié 1211 sujets contre 522 sujets obtenus par l’indexation traditionnelle. L’évaluation des résultats n’est pas une force de ce chapitre puisqu’il n’y a pas de mesures quantitatives adéquates pour faire celle-ci. On souligne néanmoins la cohésion des résultats obtenus à l’aide d’une analyse qualitative.

La possibilité d’une méthode d’indexation automatisée telle que décrite dans ce texte peut susciter un certain intérêt notamment parce qu’on développe un système d’indexation qui se distingue clairement de l’indexation traditionnelle faite par l’humain. On ne tente pas d’automatiser l’utilisation d’un vocabulaire contrôlé ou de vedettes-matière, mais bien de développer quelque chose d’original qui pourrait être à l’avantage des indexeurs et des usagers.

Auteur du résumé 
Xavier Lemire, Université Laval

 

Taniguchi, S. (2024). Creating and evaluating MARC 21 bibliographic records using ChatGPT. Cataloging & classification quarterly, 62(5), 527-546. https://doi.org/10.1080/01639374.2024.2394513

Cet article présente des résultats d’une étude visant à tester l’utilisation de ChatGPT (GPT4) pour créer des notices conformes aux normes MARC 21 et RDA. Chaque notice a ensuite été évaluée pour vérifier si son contenu est conforme à la source d’information qui a été fournie à l’IA et si les règles de catalogage de la norme RDA ont été respectées. 

Pour évaluer les notices créées grâce à l’intelligence artificielle, Taniguchi a utilisé des exemples de notices MARC issues du livre Maxwell's Handbook for RDA de Robert L. Maxwell (ALA, 2013). Les sources d’information des exemples de Maxwell ont été fournies par Tanuguchi à ChatGPT  pour afin qu’il crée un lot de notices MARC.  L’auteur a ensuite fourni à ChatGPT les notices originales de Maxwell pour que l’IA présente les différences entre les deux lots de notices. Ce travail a permis de comparer plus aisément la conformité des notices à la norme RDA pour une diversité de type de ressources et pour plusieurs cas complexes.

L’article expose bien sa méthodologie pour permettre de la reproduire, notamment en fournissant l’instruction (prompt) donnée à ChatGPT pour chacune de ses interventions. L’article est aussi accompagné d’un document qui présente les 105 notices MARC 21 créées par ChatGPT, chacune étant suivie d’un tableau permettant d’évaluer le travail accompli.

Les résultats de l’étude démontrent la capacité de ChatGPT à générer des notices MARC à l’aide de sources d’information qu’on lui transmet, mais parfois, il ajoute quelques données externes empruntées à des notices sur le Web et produit des erreurs pour les points d’accès, les identifiants de même que les mentions de titre, d’édition, de publication et de collection. L’auteur explique ce résultat par la complexité de certains modèles bibliographiques, mais il nuance son propos en expliquant que ceux-ci représentent souvent un défi, même pour des catalogueurs de métier. Il note enfin que, comme le RDA toolkit est accessible sous abonnement, ChatGPT n’y a pas accès directement, ce qui complique une application rigoureuse et nuancée de la norme.

Ce genre d’expérimentation nous confirme la pertinence de poursuivre la formation des employés aux normes de catalogage RDA afin de pouvoir traiter les cas complexes ainsi que pour maintenir une expertise afin de corriger et d’enrichir des notices conçues par l’IA.

Auteure du résumé 
Mylène Lalonde, Université TÉLUQ

Bulletin de veille no 1 (Décembre 2024)

Pour le premier numéro du bulletin de veille Traitement documentaire et intelligence artificielle, nous vous présentons quatre documents qui mettent en lumière l’utilisation concrète de certains outils issus de l’IA pour enrichir la description de documents dans différents types de bibliothèques. Chaque document est résumé en français. Nous avons aussi indiqué les points qui nous semblent les plus intéressants en fonction de notre contexte de travail au sein du PBUQ. Nous espérons recueillir vos commentaires pour façonner les prochains numéros qui paraitront en 2025. 

Bonne lecture!

 

Houle, A., Lanouette, C. & Boucher-Lafleur, V. (2023). L'intelligence artificielle générative à la Bibliothèque de l'Assemblée nationale : une étude de cas sur les usages potentiels de Chat GPT en contexte professionnel : rapport du groupe de travail sur l'intelligence artificielle. https://numerique.banq.qc.ca/patrimoine/details/52327/4779698

Ce document explique la manière dont l’équipe de la bibliothèque de l’Assemblée nationale s’y est prise pour explorer l’utilisation de ChatGPT. On y présente le résumé des propos tenus lors d’un groupe de discussion semi-dirigée avec l'équipe du développement des collections et du traitement documentaire pour discuter de l'IA. On y indique aussi le type de travail qu’elle envisagerait de confier à l’IA et ce qui, selon elle, ne devrait pas l’être (p. 7-8).
On y présente également la manière dont cette équipe a pu évaluer la fiabilité de ChatGPT (version "abonnement payant") dans les tâches de catalogage et d'indexation, notamment l’utilisation d’une échelle de notation (p.12-14). Cette échelle pourrait être exploitée pour tester d’autres outils d’IA ou tester l’évolution de ChatGPT. Comme les tests ont été faits en français, ils s’avèrent intéressants dans notre contexte. 
Les résultats aux tests de catalogage et d’indexation permettent de souligner les forces et les faiblesses de ChatGPT. Deux tableaux synthétisent les données selon plusieurs critères (p. 19-22).
Enfin, ce rapport comprend aussi 8 recommandations (p.32-34) qui dépassent la portée de notre mandat de veille, mais dont plusieurs pourraient tout de même inspirer les équipes responsables du traitement documentaire du PBUQ.

Auteure du résumé 
Mylène Lalonde, Université TÉLUQ

 

RDA toolkit. (2024, 21 octobre). 2024 Fall NARDAC Update Forum [Fichier vidéo]. https://www.youtube.com/watch?v=uLa0Gluu-OU

Lors de ce webinaire, il y a eu des exemples concrets de création, d'entraînement et d'utilisation d'applications d'intelligence artificielle dans les bibliothèques universitaires grâce aux Microsoft Power Apps.
Par exemple, on y explique le processus d’indexation automatique de documents et création automatique de notices MARC21 à partir des pages de livres numérisés au format PDF. On y démontre également la vérification automatique qui permet de s'assurer que les métadonnées sont conformes à un certain profil RDA.
Ces exemples sont intéressants, car nous avons tous accès aux Power Apps dans les BUQ (même s'il y a aussi des versions payantes des modules AI).

Auteure du résumé 
Anita Mazur, Polytechnique Montréal


York, E., Hanegbi, D., & Ganor, T. (2024). Enriching Bibliographic Records Using AI–A Pilot by Ex Libris. Internet Reference Services Quarterly, 28(3), 287‑291. https://doi.org/10.1080/10875301.2024.2361871 

L'article explore un projet pilote mené par Ex Libris, qui utilise des modèles d'intelligence artificielle (IA), notamment ChatGPT, pour enrichir les notices bibliographiques des ressources électroniques. L’étude a été réalisée sur 1 000 documents en accès libre dotés de métadonnées riches, afin de comparer les résultats générés par l'IA (GPT-3.5) à ceux créés manuellement. Les zones MARC concernées incluaient : 041 (Langue), 520 (Résumé), 650 (Sujets), ainsi que les indices de classification Dewey et ceux de la Bibliothèque du Congrès (LC).
Les expérimentations ont montré un potentiel d'automatisation pour les zones 041, 520 et 650, bien que les indices Dewey et LC générés automatiquement se soient révélés insuffisamment précis. Les sujets (zone 650) nécessitaient toutefois une validation humaine pour corriger certaines erreurs. Par souci de transparence, les zones générées par l'IA ont été clairement identifiées.
En somme, Ex Libris continue d’expérimenter avec l’enrichissement des métadonnées à l’aide de l’IA, dans le but de réduire le besoin de révisions manuelles. Ce projet illustre comment l'IA peut être intégrée au processus de catalogage, tout en mettant en lumière les défis liés à son automatisation.

Auteure du résumé 
Teresa Bascik, Université de Montréal

 

Zaragoza, T., Nicolas, Y., & Le Provost, A. (2022, 21-22 juillet). From text to data inside bibliographic records. Entity recognition and entity linking of contributors and their roles from statements of responsibility [Article]. IFLA WLIC 2022 Satellite meeting : New Horizons in Artificial Intelligence in Libraries, Galway, Irlande. https://repository.ifla.org/handle/20.500.14598/2075 

Cet article présente un projet de l’Agence bibliographique de l'enseignement supérieur (Abes) utilisant des outils d’intelligence artificielle afin d’améliorer la qualité des notices bibliographiques dans le catalogue Sudoc. Concrètement, à partir des informations contenues dans la mention de responsabilité, on cherchait à bonifier des notices en générant ou en corrigeant des points d’accès représentant des personnes pour que ceux-ci contiennent une forme normalisée du nom et un code de fonction UNIMARC (indicateur de relation en langage RDA). Deux modèles ont été utilisés, d’abord pour extraire les noms de personne et les rôles, puis pour faire le lien entre la fonction du contributeur inscrite dans la mention de responsabilité et le code UNIMARC approprié. 
Les résultats sont excellents en ce qui concerne les noms de personnes, mais ils sont moins convaincants pour l'attribution des codes de fonction (les résultats sont satisfaisants pour 13 codes sur 33). Le modèle devra donc être peaufiné pour atteindre les résultats escomptés.
Le projet décrit dans cet article est intéressant sous plusieurs angles : il montre tout le travail nécessaire pour effectuer une tâche qui peut paraitre simple; il souligne la possibilité d’utiliser des modèles d’IA déjà existants; il affirme l’importance des bibliothécaires dans le processus; il fait valoir que l’IA permettra d’améliorer la qualité des données bibliographiques.

Auteur du résumé 
Xavier Lemire, Université Laval