SDMX expliqué
Qu’est-ce que SDMX et pourquoi l’utiliser?
Internet et le web ont rendu l’échange et le partage de données par voie électronique plus simples et plus fréquents.
Toutefois, les échanges se déroulent souvent de manière ad hoc, en utilisant toutes sortes de formats et de concepts non normalisés. Cela nécessiterait pourtant des normes, des lignes directrices et des outils communs facilitant des processus plus efficaces d’échange et de partage de données et de métadonnées statistiques.
SDMX est une initiative conçue pour gérer et automatiser le processus d’échange de données et de métadonnées. L’initiative est parrainée par huit organisations internationales, dont Eurostat. SDMX est un choix stratégique, par opposition à un choix technique, qui vise à améliorer la qualité des échanges par la normalisation, l’automatisation, la validation et le partage de données.
Les décideurs doivent comprendre le contexte. L’échange de données et de métadonnées statistiques pose toute une série de questions liées à l’offre.
Par exemple:
- un échange est complexe, consommateur de ressources et coûteux, les données étant recueillies de multiples manières et transmises dans différents formats et sur différents médias;
- plusieurs organisations peuvent recueillir des données similaires ou identiques;
- des concepts similaires peuvent avoir un contenu différent;
- la nature manuelle de la collecte de données peut entraîner des erreurs et des incohérences.
Il existe d’autres défis liés à la demande, notamment une demande accrue de données, des échanges plus rapides et plus fréquents et un éventail plus large d’échanges d’informations.
Les décideurs doivent également connaître les avantages que SDMX peut offrir. Par exemple, SDMX:
- inspire confiance;
- améliore la cohérence et la comparabilité;
- permet la modernisation;
- améliore l’actualité et l’accessibilité;
- réduit les coûts et les charges liées aux rapports;
- supprime les obstacles à la mise en œuvre et à l’accessibilité des données;
- donne accès à une communauté mondiale de praticiens.
Pour de plus amples informations sur les avantages de la norme SDMX, veuillez consulter le dossier relatif à SDMX sur le site web officiel SDMX..
Composants clés
SDMX est une norme ISO, portant le numéro 17369: 2013, conçue pour:
- décrire les données et métadonnées statistiques;
- normaliser leur échange;
- permettre de les partager plus efficacement entre des organisations.
Pour satisfaire à ces exigences, SDMX se compose de trois composants essentiels:
Le modèle d’information SDMX constitue le cœur de la norme SDMX. Il décrit les statistiques de manière normalisée. Il identifie les objets et leurs relations, permet une gestion centralisée et fournit un accès normalisé.
En d’autres termes, les données statistiques, les métadonnées et le processus d’échange de données sont modélisés.
Les données sont des observations concrètes d’un phénomène statistique spécifique à un moment donné. Un jeu de données est une collection d’observations liées qui sont organisées selon une structure prédéfinie.
Les données sont dénuées de sens si elles ne sont pas accompagnées d’une description. Par exemple: que signifie 2 347? Cela ne signifie rien sans des identifiants et descripteurs de concept qui en donnent la signification.
Si nous commençons à décrire ce chiffre en fonction du pays, de la fréquence, du thème, de l’unité et du temps auxquels il se réfère, sa signification devient plus claire. Il pourrait donc s’agir, par exemple, de 2 347 campings touristiques en Italie.
Définition de la structure des données et définition de la structure des métadonnées
Ces descripteurs peuvent être modélisés selon qu’il s’agit:
- de dimensions qui identifient et décrivent des données;
- d’attributs qui fournissent des informations supplémentaires sur les données, par exemple qu’il s’agit d’estimations;
- de mesures représentant le phénomène à mesurer./li>
Ces descripteurs structurels sont regroupés dans ce que l’on appelle la définition de la structure des données (DSD). La DSD détermine les dimensions, les attributs et les mesures d’un jeu de données, et les associe à des listes de codes communes et des concepts.
Outre les descriptions structurelles des jeux de données, il existe également des métadonnées de référence. Il s’agit d’informations sur les descriptions de la qualité, les descriptions des processus, les descriptions méthodologiques et les descriptions administratives.
Les métadonnées de référence sont décrites de manière normalisée en utilisant la définition de la structure des métadonnées (MSD).
Les lignes directrices axées sur le contenu sont un ensemble de recommandations destinées à maximiser l’interopérabilité dans le cadre de la norme SDMX. Elles sont censées s’appliquer à tous les domaines statistiques.
Les lignes directrices axées sur le contenu se concentrent sur l'l’harmonisation de concepts et d’une terminologie spécifiques communs à de nombreux domaines statistiques. Cette harmonisation facilite un échange plus efficace de données et métadonnées comparables et s’appuie sur l’expérience antérieure en matière de mise en œuvre.
Concepts, listes et domaines
Les lignes directrices axées sur le contenu comprennent des concepts interdomaines, des listes de codes, des domaines thématiques, un glossaire et des lignes directrices spécifiques à la mise en œuvre.
Les concepts transversaux dans SDMX décrivent des concepts pertinents pour la plupart, voire la totalité, des domaines statistiques. Il est recommandé d’utiliser ces concepts dans la mesure du possible dans les structures et les messages SDMX. Cela favorise la réutilisation et l’échange d’informations statistiques et des métadonnées liées entre les organisations.
Voici des exemples de concepts:
- zone de référence;
- unité statistique;
- période.
Chaque concept est décrit de manière normalisée, avec un identifiant, une description, un contexte et une présentation. Les concepts statistiques utilisés dans la définition de la structure des données (DSD) ou dans la définition de la structure des métadonnées (MSD) sont regroupés dans un objet appelé «système de concepts».
Les listes de codes sont des ensembles prédéfinis de termes à partir desquels certains concepts statistiques codés prennent leurs valeurs. Les listes de codes multidomaines SDMX sont utilisées pour soutenir les concepts interdomaines.
Un domaine thématique statistique fait référence à une activité statistique qui présente des caractéristiques communes. Il s’agit de variables, concepts et méthodologies pour la collecte des données et de l’ensemble du processus de compilation des données statistiques.
Le glossaire SDMX contient des concepts et des définitions liées utilisés dans les métadonnées structurelles et de référence des organisations internationales et des agences nationales productrices de données. Il recommande d’utiliser une terminologie commune pour faciliter la communication et la compréhension.
L’idée principale du glossaire SDMX est que si un terme est utilisé, sa signification précise devrait correspondre à la définition du glossaire.
Pour de plus amples informations, consultez les pratiques recommandées proposées par les lignes directrices SDMX axées sur le contenu sur le site web officiel SDMX.
Pour favoriser des échanges de données et de métadonnées plus automatisés et efficaces, une architecture informatique et des outils normalisés sont nécessaires.
Dans la pratique, cela signifie que SDMX encourage l’utilisation de formats normalisés conformes à SDMX (tels que le XML). La norme fournit les outils nécessaires pour:
- soutenir le modèle d’information;
- créer des fichiers conformes à SDMX;
- stocker des artéfacts liés à SDMX;
- cartographier et transcoder à partir de bases de données existantes;
- valider la structure — et, à l’avenir, le contenu — des fichiers de données.
Elle fournit aux systèmes informatiques l’architecture nécessaire pour se connecter au monde SDMX, ce qui facilite le partage de données. L’architecture informatique SDMX suit généralement un de ces trois modèles:
- l’architecture en mode push, dans laquelle les organisations émettrices des pays de l’UE envoient leurs fichiers conformes à SDMX à Eurostat (l’organisation réceptrice) par eDAMIS, qui est le point d’entrée unique d’Eurostat pour les fichiers de données et métadonnées statistiques;
- l’architecture en mode pull, dans laquelle Eurostat (l’organisation réceptrice) extrait les fichiers de données conformes à SDMX dont il a besoin des bases de données des organisations émettrices;
- l’architecture de la plateforme de données, dans laquelle les utilisateurs interrogent les bases de données dans les organisations émettrices et récupèrent directement les données.
Par conséquent, SDMX est plus qu’un simple format de transmission de données.
Tous les documents de spécifications techniques relatifs à SDMX qui décrivent les normes sont disponibles gratuitement sur le site officiel de la communauté SDMX.
SDMX continue d’évoluer avec des améliorations et de nouvelles fonctions. Certaines de ces évolutions, telles que les spécifications techniques SDMX 3.0 sont souvent mises à la disposition du public avant leur finalisation.
Évolution future de SDMX
SDMX est désormais l’un des piliers d’un processus statistique moderne et industrialisé. Toutefois, cela ne signifie pas que la norme soit statique. Au contraire, le plan d’action SDMX est influencé par l’expérience croissante de cette norme acquise par un cercle croissant d’utilisateurs. Les personnes qui l’utilisent s’intéressent à ses outils logiciels libres, à ses applications stratégiques et à l’évolution des normes.
Tous les cinq ans, les promoteurs de SDMX présentent un plan d’action: la feuille de route SDMX. Le plan actuel couvre la période 2021-2025 et donne une vision de l’évolution de SDMX.
L’objectif principal de cette initiative est de mettre en place des systèmes d’information plus solides et plus universels, capables de fournir un accès ouvert et en temps réel aux statistiques officielles.
La feuille de route SDMX 2025 repose sur quatre piliers stratégiques clés:
- renforcer la mise en œuvre de SDMX (mise en œuvre);
- faciliter l’utilisation des données au moyen de SDMX (simplification);
- utiliser SDMX pour moderniser les processus statistiques et améliorer en permanence les normes et l’infrastructure informatique (modernisation);
- améliorer la communication et l’interaction avec la communauté au sens large (communication).
Elle est accessible au public sur le portail officiel de la norme internationale.