Détails de la publication

Retour An overview of methods for treating selectivity in big data sources


Les statistiques officielles considèrent désormais les mégadonnées (big data) comme une source importante pour la production de statistiques. Ces mégadonnées peuvent permettre de produire des statistiques plus détaillées et entièrement nouvelles, plus rapidement et à moindre coût. Toutefois, leur utilisation pose également plusieurs problèmes. L’un d’entre eux est le caractère non probabiliste de la plupart des sources de mégadonnées, qui, souvent, ne sont pas conçues pour produire des statistiques. Le biais de sélectivité qui en résulte constitue donc un problème majeur lorsqu’on utilise des mégadonnées. Ce document présente une approche statistique des mégadonnées, en recherchant une définition pertinente du point de vue statistique et en recensant leurs principales caractéristiques statistiques. Il fait valoir que les sources de mégadonnées ont de nombreuses caractéristiques en commun avec les enquêtes par panel sur internet, qu'il choisit comme référence pour aborder les problèmes de sélectivité et de couverture des mégadonnées. La couverture et le processus d’auto-sélection sont brièvement examinés en ce qui concerne les données de réseaux mobiles et les données relatives aux pages consultées sur Twitter, Google Trends et Wikipedia. Un aperçu des méthodes qui peuvent être utilisées pour traiter la sélectivité et éliminer ou atténuer le risque de biais est ensuite présenté, couvrant à la fois les méthodes appliquées au niveau individuel, c’est-à-dire au niveau de l’unité statistique, et au niveau des domaines, à savoir au niveau des statistiques produites. Enfin, la possibilité d'appliquer ces méthodes à plusieurs sources de mégadonnées est brièvement abordée et un cadre visant à ajuster la sélectivité des mégadonnées est proposé.

Format électronique

Télécharger la publication (EN)
Date de sortie : 5 juillet 2018

Informations supplémentaires

Code produit : KS-TC-18-004
ISBN 978-92-79-88769-7
ISSN 2315-0807
doi:10.2785/312232
Thème : Statistiques générales et régionales
Collection : Documents de travail statistiques