Produktbeschreibung

Zurück An overview of methods for treating selectivity in big data sources


Massendaten („Big Data“) werden heute bei offiziellen Statistiken als wichtige Datenquelle für die Erstellung von Statistiken in Betracht gezogen. Mit Hilfe von Massendaten könnten in manchen Fällen schnellere, billigere, genauere und völlig neue Arten von Statistiken erstellt werden. Doch mit dieser Chance sind auch Risiken verbunden. Eines davon ist der nicht-probabilistische Charakter der meisten Quellen von Massendaten, da sie oft nicht zur Erstellung von Statistiken erfasst wurden. Die sich daraus ergebende auswahlbedingte Verzerrung wirft daher Bedenken bei der Verwendung von Massendaten auf. Diese Publikation stellt einen statistischen Ansatz in Bezug auf Massendaten vor, erörtert eine Definition nach statistischen Gesichtspunkten und ermittelt die wichtigsten statistischen Merkmale von „Big Data“. Anschließend wird nachgewiesen, dass Quellen von Massendaten zahlreiche Merkmale von Online-Umfragen mit freiwilligen Teilnehmern aufweisen, und es wird vorgeschlagen, bei Problemen mit Auswahl und Umfang von Massendaten dies als Referenz zugrunde zu legen. Umfang und Selbstselektion werden im Zusammenhang mit Daten zu Mobilfunknetzen, Twitter, Google Trends und Seitenaufrufen bei Wikipedia kurz erörtert. Danach werden Methoden vorgestellt, mit denen das Problem der Selektivität angegangen und die auswahlbedingte Verzerrung beseitigt oder abgemildert werden kann. Dabei geht es um Methoden auf individueller Ebene, d. h. in Bezug auf die statistische Einheit, und um Methoden auf Bereichsebene, d. h. in Bezug auf die erstellten Statistiken. Zum Abschluss wird die Anwendbarkeit der Methoden auf die verschiedenen Quellen von Massendaten kurz erörtert und ein Rahmen für die Anpassung der Selektivität bei „Big Data“ vorgeschlagen.

Elektronisches Format

Laden Sie die Veröffentlichung herunter (EN)
Veröffentlichungsdatum: 5. Juli 2018

Weitere Informationen

Produkt-Kode: KS-TC-18-004
ISBN 978-92-79-88769-7
ISSN 2315-0807
doi:10.2785/312232
Thema: Allgemeine und Regionalstatistiken
Reihe: Statistische Arbeitspapiere