CSRD

EU Taxonomy

L'IA au service de la collecte de données pour le rapport CSRD/Taxonomie de l'UE

La préparation d'un rapport de divulgation pour la CSRD ou la taxonomie de l'UE est une tâche difficile : les réglementations sont complexes, le nombre de points de données à divulguer est élevé et les données à analyser sont dispersées dans tous les départements d'une entreprise. Dans cet article, nous aborderons un point de vue plus technique, en discutant de la manière dont la technique d'IA Retrieval Augmented Generation peut être utile pour l'aspect collecte de données du parcours de reporting ESG.

L'IA au service de la collecte de données pour le rapport CSRD/Taxonomie de l'UE

Le parcours de conformité pour le reporting ESG (environnemental, social et de gouvernance) pour le Green Deal de l'UE peut être une tâche décourageante. La préparation d'un rapport d'information complet pour la taxonomie de l'UE ou la directive sur les rapports de durabilité des entreprises (CSRD) nécessite de naviguer à travers des réglementations complexes, de collecter des milliers de points de données à partir d'une pléthore de documents dispersés dans les sources de données d'une entreprise, et de concevoir des stratégies réalisables pour optimiser l'impact social et écologique des activités de l'entreprise.

Les informations qui doivent être divulguées sont contenues dans des documents régis par de multiples départements (RH, finance et comptabilité, juridique, gestion de la chaîne d'approvisionnement, etc.), souvent dans une grande variété de formats (PDF, feuilles de calcul, ...) et sous forme de texte libre, ce qui entrave la collecte efficace des données : il n'y a pas de base de données centrale qu'il suffirait d'interroger pour obtenir tous les points de données qui doivent être inclus dans les rapports ESG.

Les outils d'intelligence artificielle (IA) peuvent apporter une aide significative au cours de ce parcours difficile en effectuant la majeure partie de la collecte de données. Dans cet article, nous allons explorer comment l'IA peut être un allié précieux pour la collecte des informations nécessaires à la rédaction des rapports sur la taxonomie CSRD/UE. Nous nous concentrerons plus particulièrement sur la technique de Génération Augmentée de Récupération (RAG), en mettant en lumière son application et en approfondissant ses limites inhérentes.

Reporting ESG : Les avantages de l'IA pour la collecte de données

L'IA accélère chaque étape du reporting ESG, et la collecte de données ne fait pas exception. Voici quelques avantages notables.

Efficacité et automatisation

Les outils d'IA peuvent automatiser la collecte et le traitement de grands volumes de données, ce qui permet de gagner du temps et d'économiser des ressources. Cette approche rationalisée et automatisée garantit un processus de reporting ESG fluide et efficace, permettant aux organisations de se concentrer sur l'obtention d'informations significatives plutôt que de passer du temps sur des tâches manuelles liées aux données.

Intégration des données

En tirant parti des capacités de l'IA, les organisations peuvent rassembler de manière transparente des données provenant de sources et de formats divers, dispersées dans différents départements. Les outils d'IA avancés ne se contentent pas de collecter et de transformer les données manquantes, mais peuvent également établir un modèle de données ESG complet, englobant à la fois des informations quantitatives et qualitatives. Ils facilitent la collecte, le nettoyage, la normalisation et la centralisation des données nécessaires, toutes commodément hébergées en un lieu unique et accessible.

Précision

L'intelligence artificielle peut contribuer à renforcer les fondements de votre reporting ESG, en fournissant un cadre solide pour les années à venir. Une solution d'IA garantit la traçabilité des données de bout en bout et atténue le risque d'erreurs humaines en prenant en charge la majeure partie des tâches de collecte de données de manière infatigable et ciblée. Associée à des processus de validation humaine appropriés pour vérifier les résultats des solutions d'IA, cette approche méticuleuse renforce non seulement la fiabilité de votre reporting ESG, mais inspire également confiance aux parties prenantes, en favorisant un engagement en faveur de la précision et de la responsabilité.

Évolutivité

Enfin, l'IA offre une certaine évolutivité pour les rapports ESG, ce qui évite aux entreprises de repartir à zéro chaque année. La flexibilité inhérente aux outils d'IA permet aux organisations de naviguer habilement dans le paysage dynamique du développement durable au sein d'un environnement réglementaire en constante évolution. Cette adaptabilité garantit une approche évolutive et à l'épreuve du temps, permettant une expansion et une évolution transparentes en réponse aux nouveaux défis et exigences en matière d'ESG.

L'intelligence artificielle en tant qu'outil facilitant la production de rapports sur le développement durable

L'intelligence artificielle en général, et les solutions de type Large Language Model (LLM) en particulier, peuvent considérablement accélérer le processus de préparation des rapports requis pour la taxonomie de l'UE ou le CSRD.

Les LLM, dont les modèles GPT (Generative Pre-trained Transformer) sont les exemples les plus connus, peuvent extraire et interpréter n'importe quelle information à partir de n'importe quel type de source textuelle, à condition de disposer des données d'entrée appropriées. Ils excellent à résumer des informations et à répondre à des questions, et sont capables de le faire dans plusieurs langues.

En raison de la nature des données sur lesquelles ces modèles sont formés, ils peuvent même déduire des informations pertinentes qui ne sont pas explicitement présentes dans l'entrée. Par exemple, si vous présentez une séquence de mots et de nombres extraits d'un tableau, sans aucune information sur la présentation, un LLM bien entraîné est capable d'interpréter correctement la séquence : il déduit qu'un certain nombre est lié à certains mots dans le contexte, même si les informations sur la présentation de l'en-tête et du nom de la colonne sont supprimées.

À titre d'illustration, un LLM peut transformer correctement la séquence suivante, difficile à interpréter, en un tableau correctement formaté :

Invitation:

Votre tâche consiste à formater des chaînes mal formatées dans un format HTML plus lisible.

Vous recevez un texte qui a été extrait d'un tableau, mais tout le formatage a été perdu.

Retournez le texte dans un format HTML valide, en essayant de déduire les colonnes et les lignes correctes.

Ajouter NaN pour les cellules vides. ### Texte d'entrée : '2022 2021 Nombre moyen de salariés Dont hommes, % Nombre moyen de salariés Dont hommes, % Filiale cont. Belgique 52 52 46 51 Italie 1.211 67 1.167 67 Vietnam 83 41 81 41 Autriche 370 59 330 60 Espagne 133 77 108 77 Inde 18 75 21 71 Brésil 8 52 8 46 Guatemala 373 50 308 50 Pays-Bas 53 72 37 77 Australie 10 61 9 62 Suède 9 84 10 90 Bangladesh 26 54 25 54 Monaco 1 0 1 0 Royaume-Uni 6 66 15 67 Singapour 7 66 8 55 Slovénie 205 65 227 62 Zimbabwe 352 80 147 82 Total 8.834 64 7.650 64''.

Voici le résultat:

large language model

Ces capacités font des LLM un excellent outil pour aider l'équipe de responsabilité sociale des entreprises (RSE) d'une société à rédiger ses rapports ESG.

Néanmoins, un LLM autonome n'est pas suffisant pour produire le rapport ESG d'une entreprise, ni même pour fournir des réponses correctes aux questions concernant les réglementations en matière de développement durable. Les LLM sont formés sur de grandes quantités de données historiques extraites de sources web publiques, ce qui leur permet d'acquérir une quantité considérable de connaissances générales.

Toutefois, leurs connaissances ne sont jamais totalement à jour, car elles sont limitées aux informations disponibles dans les sources publiques au moment de leur formation. Ils n'ont aucune connaissance des sources de données privées, telles que les sources d'une entreprise qui doivent être consultées pour établir un rapport ESG. Un autre défaut majeur des LLM est qu'ils ont tendance à « halluciner », c'est-à-dire à générer des informations plausibles mais fausses, ce qui est préjudiciable dans le contexte des rapports ESG.

Une technique qui permet de surmonter ces inconvénients est la génération augmentée par récupération (RAG): les informations pertinentes pour générer une réponse correcte sont récupérées à partir d'une source de données externe actualisée. Les informations récupérées sont ensuite introduites dans un LLM avec des instructions sur la manière de les traiter.

Il existe d'autres techniques d'exploration de données plus traditionnelles, telles que l'extraction d'entités, qui peuvent être utilisées pour la collecte de données en vue de l'établissement de rapports ESG. Nous nous concentrerons ici sur la RAG, car il s'agit de la technique la plus adéquate et la plus complète pour aborder tous les aspects des rapports ESG.

Génération augmentée par récupération : Une réponse aux limites du LLM dans la collecte de données pour les rapports ESG

Plongeons maintenant dans les subtilités d'une solution RAG : nous allons passer en revue ses deux principaux composants et expliquer en termes simples comment ces composants fonctionnent pour collecter des données pour les rapports CSRD/Taxonomie de l'UE.

Un système RAG précis et performant permet à une entreprise d'analyser ses documents et d'obtenir des réponses en quelques secondes, ce qui facilite l'extraction de toutes les informations nécessaires pour les rapports CSRD et Taxonomie de l'UE. Au lieu de devoir effectuer des recherches manuelles dans des centaines de documents, il suffit d'intégrer les documents dans un système RAG, auquel l'équipe RSE de l'entreprise peut poser des questions en langage naturel. La solution RAG récupère les informations pertinentes dans les documents ingérés et génère une réponse adéquate.

Une solution RAG se compose généralement de deux éléments principaux : un système de recherche de documents et un LLM pour la réponse aux questions. Le système de recherche est chargé de trouver les sources les plus pertinentes pour répondre à une question dans un corpus de documents prétraités. Idéalement, les documents sont récupérés parce que leur contenu sémantique est pertinent pour la question. Ceci peut être réalisé en utilisant la recherche sémantique, aussi parfois appelée recherche vectorielle. La question originale et les sources récupérées sont ensuite présentées à un LLM, avec l'instruction de rédiger une réponse précise et bien formatée sur la base des sources fournies.

Recherche sémantique

La technique de recherche documentaire connue sous le nom de recherche sémantique repose sur le sens du texte. Elle se distingue de la recherche par mots-clés car un document n'a pas besoin de contenir les mots exacts de la requête pour être considéré comme une correspondance pertinente.

Par exemple, dans un système de recherche sémantique, la requête « effectif total » correspondra à des documents mentionnant « le nombre total d'employés de l'entreprise », mais pas à des documents mentionnant « le total des déchets produits », car ces derniers ont une signification totalement différente. En revanche, avec une approche basée sur les mots-clés, les deux documents peuvent être retrouvés puisqu'ils contiennent tous deux le mot « total », qui correspond au mot-clé de la requête.

Traitement des documents pour la recherche sémantique

Pour que le contenu sémantique des documents puisse faire l'objet d'une recherche, il faut les transformer dans un format qui puisse être compris et manipulé par des machines. En outre, le format choisi doit permettre de calculer la similarité sémantique entre une requête et un document.

Les calculs ne peuvent être effectués que sur des nombres, et non sur du texte. C'est pourquoi les documents sont transformés en une représentation numérique vectorielle qui capture leur signification, également appelée « embeddings ».

Vous pouvez vous représenter un embedding de la manière suivante :

Chaque embedding a un certain nombre de dimensions, généralement un nombre supérieur à 500. Chaque dimension peut être considérée comme représentant un certain concept, tel que « nombre » ou « humain ». Si un concept est plus pertinent pour la signification d'un mot ou d'une séquence de mots, le poids de cette dimension sera plus élevé, et vice versa. Le terme « nombre » est plus pertinent pour la signification de « effectif » que pour celle de « déchets », d'où une pondération plus élevée.

Les modèles linguistiques formés pour calculer ces enchâssements apprennent à partir de modèles de fréquence et de distribution dans de grandes quantités de données textuelles. Les dimensions sémantiques des enchâssements qui en résultent sont totalement abstraites, mais constituent une représentation assez précise du sens du texte auquel elles correspondent, ce qui les rend adaptées à la recherche sémantique.

Une fois que nous disposons d'une représentation numérique du sens du texte, toutes sortes de calculs peuvent être effectués. Dans un contexte de recherche sémantique, la distance entre l'intégration de la requête et l'intégration du document est calculée. Plus l'intégration d'un document est proche de l'intégration de la requête, plus elle est similaire en termes de sens. Les documents les plus proches sont conservés pour l'étape de réponse aux questions du système RAG.

Réponse aux questions avec un LLM

Une fois que les sources pertinentes pour la question ont été récupérées, la question et les sources sont présentées à un LLM avec des instructions précises et des exemples sur la manière de les traiter. En outre, des instructions concernant la langue peuvent être incluses : par exemple, il se peut que les sources extraites soient en français et en néerlandais, mais que les rapports ESG doivent être rédigés en anglais. Dans ce cas, il peut être demandé au LLM de toujours répondre en anglais, sans tenir compte de la langue de la question d'entrée et des sources.

Travailler avec des solutions RAG : Risques et contre-mesures

Même si les solutions RAG sont des outils puissants pour aider une entreprise dans son parcours de reporting ESG, il existe certains pièges. Nous examinons ici certains risques liés à l'utilisation des systèmes RAG et les solutions potentielles à ces risques.

  • Les LLM ne sont pas toujours capables de discerner les informations pertinentes de celles qui ne le sont pas. Le LLM peut recevoir des instructions précises sur la manière de traiter un manque total de sources. Mais si, au cours de l'étape de recherche, des sources non pertinentes sont trouvées, la réponse finale générée par le LLM sera inévitablement inutilement verbeuse ou partiellement erronée.
  • Les LLM sont incapables de reconnaître que les sources fournies sont incomplètes. Il est donc possible qu'une réponse générée ne contienne qu'une partie des informations requises pour un rapport ESG.
  • Le contexte pertinent peut être perdu lors du prétraitement des documents pour la recherche sémantique.
  • La longueur des sources pouvant être intégrées dans un système de recherche sémantique est limitée : les modèles d'intégration utilisés pour transformer le texte en nombres ne peuvent traiter que des portions de texte d'une certaine longueur, par exemple 512 mots. En raison de cette limitation, les documents ingérés doivent être découpés en morceaux plus petits. Au cours de ce processus de découpage, les liens entre plusieurs parties d'un document peuvent être perdus. Par exemple, un paragraphe concernant les activités d'une filiale d'une entreprise, sans mention explicite du fait qu'il ne se réfère qu'à la filiale, peut être séparé du paragraphe qui fournit le contexte nécessaire à une interprétation correcte. Lorsque le paragraphe isolé est présenté au LLM, il n'aura aucune indication que les activités décrites ne se réfèrent pas à l'entreprise dans son ensemble, et il peut donc générer à tort une réponse présentant les activités comme se rapportant à l'entreprise principale.

Surmonter les risques des solutions RAG

Ce problème peut être résolu par la mise en œuvre d'un système de recherche documentaire plus avancé qui, par exemple, recherche dans les paragraphes précédents et suivants les correspondances les plus pertinentes par rapport à la requête, ou qui enrichit les documents de métadonnées. L'architecture du système de recherche le plus approprié dépend largement de la nature des documents sur lesquels il opère. L'identification de la meilleure solution nécessite une compréhension approfondie des données et de la manière dont elles peuvent être structurées.

La meilleure façon de pallier les insuffisances des solutions RAG utilisées dans des processus critiques tels que les rapports ESG est d'inclure une étape de validation humaine.

Étant donné que toute solution d'IA peut faire des erreurs, les réponses générées ne devraient être incluses dans le rapport final qu'après avoir été validées par une personne qui vérifie l'exactitude et l'exhaustivité des réponses.

Grâce au principe des quatre yeux, une solution de RAG devient un assistant fiable et efficace pour les rapports ESG.

Greenomy : Votre solution alimentée par l'IA pour les rapports ESG

La plateforme Greenomy comprend plusieurs outils d'IA pour guider les entreprises dans leur parcours de reporting de développement durable. Concrètement, les rapports CSRD et EU Taxonomy comprennent une solution RAG : les entreprises peuvent télécharger leurs documents et le pipeline RAG tente de trouver tous les points de données nécessaires.

Les requêtes utilisées pour extraire les points de données sont validées par une équipe d'experts juridiques et en développement durable, afin de garantir une extraction de données extrêmement précise.

En outre, la plateforme fournit un assistant juridique.

Parfois, un point de données requis ne peut pas être trouvé par le pipeline RAG, par exemple parce que l'information n'est pas contenue dans les documents fournis.

Dans ce cas, les utilisateurs doivent extraire manuellement le point de données correct, tout en respectant les réglementations. Cependant, les réglementations peuvent être difficiles à interpréter, auquel cas le bot de conseil juridique peut aider. Les utilisateurs peuvent poser toutes les questions relatives aux réglementations en matière de développement durable, et le conseiller juridique IA leur fournit une réponse claire.

Enfin, les rapports d'information doivent inclure des stratégies ESG. Il n'est pas toujours évident de savoir quelles mesures peuvent être prises par une entreprise pour améliorer l'impact social et écologique de ses activités. Grâce à un système de RAG, les utilisateurs peuvent consulter les stratégies de leurs pairs pour s'en inspirer ou découvrir comment leur propre entreprise se situe par rapport à leurs pairs en termes de durabilité.

greenomy

Book your demo and accelerate your green transition today

wave 2