Quand le secteur public prépare le web du futur
Le web sémantique est annoncé comme la révolution qui mènera à l’Internet de la connaissance. Mais pour certains organismes publics français, l’utopie est déjà une réalité.
Dire que l’intelligence artificielle est la grande révolution technologique de notre époque sonne comme une évidence. Et pourtant, certains algorithmes couramment utilisés aujourd’hui sont issus de recherches datant au bas mot d’une trentaine d’année. La révolution, c’est en réalité le développement exponentiel des performances informatiques, lesquelles permettent d’exploiter l’IA sur des terrains jusqu’alors peu communs et de passer du stade de l’expérimentation à celui de l’industrialisation. Concept introduit dès 2001 par l’inventeur du web Tim Berners-Lee, le « web sémantique » pourrait bien connaître le même destin de révolution annoncée et toujours repoussée.
Données liées et web de la donnée
En 2001, Tim Berners-Lee constate les limites du « web classique », dont les pages de texte interconnectées sont destinées à être lues par des humains. Pour accroître la valeur offerte par le réseau, il faudrait que des machines puissent parcourir et exploiter seules les informations publiées. Aussi, en 2006, il jette les bases d’un réseau de données liées (« linked data ») qui formerait une arborescence de connaissances, ouvrant la voie à des possibilités infinies d’analyse et de croisements automatisés.
Ce « web de la donnée » est également appelé « web sémantique » car sa condition sine qua non est que les données soient porteuses de leur propre sens, indépendamment, par exemple, de leur origine ou de leur format. Il repose pour cela sur des standards techniques du W3C de description, d’interconnexion et d’interrogation des données (RDF, OWL, SPARQL…) ainsi que sur des ontologies, c’est-à-dire des « grammaires » recensant par domaine les concepts signifiants et leurs relations. À chaque donnée est ainsi attachée une description que la machine pourra lire et interpréter sans assistance humaine.
Datalift, l’ascenseur qui élève la donnée
D’emblée, se pose une difficulté pratique majeure : comment transformer les données usuelles, brutes et hétérogènes, en données liées autoporteuses (ou données « 5 étoiles » selon la classification de Tim Berners-Lee) ? La réponse se nomme Datalift, une plateforme open source capable de prendre des données dans leur état d’origine, de les qualifier à l’aide des ontologies appropriées, de les convertir aux standards du web sémantique, de les interconnecter et de les rendre accessibles et exploitables. Outil unique dans le monde de l’open Source, Datalift est le fruit d’un projet de recherche largement porté par le secteur public français, puisqu’il a été mené par l’Inria, avec le soutien de l’Agence nationale de recherche (ANR) et la collaboration de nombreux partenaires dont l’IGN, l’INSEE et la DILA. En tant que partenaire industriel, Atos a développé cette plateforme technique pour réaliser cet « ETL[i] du Linked Open Data », aujourd’hui parfaitement opérationnel et utilisé, entre autres, par la Nasa et l’ISTAT (Instituto nazionale di statistica, l’équivalent de l’INSEE en Italie).
WAVES industrialise l’analyse sémantique en temps réel
Pour tirer pleinement parti des possibilités offertes par un outil comme Datalift, quelques questions restent néanmoins en suspens. Par exemple, peut-on croiser les données liées avec des données ordinaires ? Réaliser ces analyses en temps réel et sur des volumes de données importants ? Garantir des niveaux élevés de fiabilité, de sécurité et de performance ? Mené par Atos, le projet WAVES a démontré qu’il était possible de répondre par l’affirmative à ces interrogations. Plateforme d’analyse sémantique temps réel, WAVES a été mise au point en collaboration avec un grand industriel de l’eau. En confrontant les relevés de consommation instantanés à des estimations théoriques et des données de contexte susceptibles d’expliquer les éventuelles anomalies (le remplissage d’une piscine municipale, par exemple), on peut, grâce à WAVES, déceler de probables fuites sur le réseau d’adduction d’eau. WAVES a notamment été récompensée lors de la prestigieuse conférence Semantics qui s’est tenue à Leipzig en 2016.
La France à l’avant-garde
Comme l’IA avant lui, le web sémantique repose sur des concepts délicats à appréhender et surtout porteurs de grands bouleversements, ce qui peut expliquer la lenteur de son développement. Toutefois, des applications commencent à poindre, comme DBpédia, la version « sémantique » de Wikipédia qu’interrogent les assistants vocaux des GAFA.
Le développement de la déclinaison française de DBpédia à l’Inria et avec le soutien du ministère de Culture confirme le rôle clé du secteur public français dans l’essor du web sémantique. Avec Datalift et WAVES, la France dispose de deux outils d’avant-garde, dont le secteur public pourrait justement s’emparer pour faire franchir un cap à ses initiatives d’Open Data. En élevant leurs données au niveau 5 étoiles du web sémantique, les organismes publics n’exposeraient plus des données brutes, ou même dans le meilleur des cas, des interfaces (API) pour y accéder, mais des connaissances directement exploitables par les citoyens. La capacité de les entrecroiser et de les soumettre à des analyses sémantiques de nouvelle génération démultiplierait les possibilités comme la facilité d’utilisation. Et le pays toucherait les dividendes d’un investissement méconnu mais visionnaire.
[i] ETL : outil d’extraction (E), de transformation (T) et de chargement (L, Load) des données.