Trau nicht jeder Statistik!

Ursprünglich am 11.07.2022 in Die Volkswirtschaft erschienener Artikel von OECD-Chefstatistiker Paul Schreyer

Die Digitalisierung hat eine Datenflut ausgelöst. Doch welche Daten genügen qualitativ und sind vertrauenswürdig? Internationale Organisationen wie die OECD helfen.

Die Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD) ist eine der weltweit grössten und vertrauenswürdigsten Quellen für international vergleichbare Statistiken und Daten. In der Tat sucht ein erheblicher Teil der Besucher auf der OECD-Website nach Daten und Statistiken. Diese Daten sind auch das Fundament für evidenzbasierte Analysen und politische Empfehlungen der OECD.

Die Digitalisierung hat zu einem noch nie da gewesenen Datenvolumen geführt und damit zu der Erwartung, dass Statistiken immer detaillierter und nahezu in Echtzeit erstellt werden. Die Corona-Pandemie und die zunehmenden geopolitischen Spannungen beschleunigen dies weiter. Denn je aktueller die Statistik, desto rascher kann man auf neue Entwicklungen reagieren. Und je detaillierter die Daten, desto gezielter können wir unsere Politikberatung ausrichten und Ungleichheiten berücksichtigen: zwischen den Geschlechtern, Regionen, Branchen, Unternehmensgrössen oder zwischen demografischen Merkmalen. Aber Statistiken und Daten müssen vor allem eines sein: vertrauenswürdig und von guter Qualität. Kurz gesagt: Statistiken müssen dem Zweck dienen.

Was ist eine Qualitätsstatistik?

Natürlich könnte man denken, dass eine Statistik von besonders guter Qualität ist, wenn sie bestimmte Aspekte der realen Welt möglichst genau widerspiegelt. Aber welchen Wert hat eine so genaue Statistik, wenn sie niemand benützt, ihr niemand vertraut oder sie niemand versteht? Bei der OECD messen wir Qualität deshalb anhand von sieben Dimensionen[1]:

Qualitätsstatistiken müssen insofern (1) relevant sein, als sie den Zwecken dienen, für welche die Nutzer sie benötigen. Sie müssen (2) faktisch korrekt sein, so (3) aktuell wie nötig, in einem benutzerfreundlichen Format (4) zugänglich, leicht (5) interpretierbar und (6) kohärent – Letzteres heisst: Man muss sie sinnvoll kombinieren und mit anderen Datensätzen vergleichen können. Wichtig ist zudem, dass Qualitätsstatistiken auch (7) gute Metadaten mit klaren Informationen über Quellen und Methoden enthalten.

Die OECD hält sich nicht nur an diesen hohen Qualitätsstandard, sondern engagiert sich weltweit für die Förderung bewährter Statistikverfahren. Dafür brauchen die Länder ein gut funktionierendes nationales Statistiksystem. Die OECD bezieht sich hier auf die Empfehlung des OECD-Rates zur guten statistischen Praxis. Obwohl die Empfehlungen in erster Linie für OECD-Mitglieder gelten – sie werden auch in der Schweiz umgesetzt –, können sich auch Nichtmitglieder daran halten.

Neue Formen der Datenerhebung

Mit der digitalen Transformation haben sich der Prozess der Statistikproduktion sowie die verfügbaren Daten und Techniken massiv verändert. In der Vergangenheit stützten sich die nationalen Statistikämter fast ausschliesslich auf Volkszählungen, Erhebungen und Register, um Informationen über Einzelpersonen, Haushalte und Unternehmen zu erhalten. Und internationale Organisationen wie die OECD verliessen sich fast ausschliesslich auf diese amtlichen Statistiken, die von den nationalen statistischen Ämtern bereitgestellt wurden.

Doch in den letzten Jahren wurden diese Quellen durch vielfältige neue, mehr oder weniger zugängliche und sich schnell entwickelnde Quellen ergänzt und manchmal auch verdrängt. Ein Beispiel sind Geodaten. Sie werden zunehmend für Flächennutzungs- und Agrarstatistiken verwendet. Besonders reichhaltige Statistiken entstehen auch durch Kombination von Geodaten mit traditionellen Erhebungs- oder Volkszählungsdaten, wie etwa bei den Arbeiten der OECD zur Belastung der Bevölkerung durch Luftverschmutzung[2]. Dabei wurden über Geodaten optisch erfasste Feinstaubteilchen pro Quadratkilometer mit der Bevölkerungsdichte kombiniert. Die Statistik bestätigt: Trotz Reduktion der Luftverschmutzung ist die Bevölkerung auch in vielen OECD-Ländern nach wie vor schädlichen Feinstaubteilchen ausgesetzt (siehe Abbildung).

Feinstaubbelastung weltweit (2019)

Anmerkung: Die Skala gibt die mittlere Feinstaubbelastung (PM2,5) an, der ein durchschnittlicher Einwohner während eines Jahres ausgesetzt ist.
Quelle: OECD-Umweltstatistiken (Datenbank) (2020). OECD-Berechnungen unter Verwendung von IHME-GBD-2020-Konzentrationsschätzungen (Schätzungen für 2021 in Vorbereitung). Subnationale Grenzen beinhalten Daten von FAO GAUL (2015).

Not macht erfinderisch

Ein weiteres Beispiel für neue Datenquellen ist die Messung von Preisen. Zu Beginn der Covid-Pandemie im Jahr 2020 war es nicht mehr möglich, Mitarbeiter in die Geschäfte zu schicken, um die Preise der verschiedenen Produkte zu erheben, die den Warenkorb zur Inflationsmessung bilden. Viele nationale Statistikämter hatten allerdings bereits seit einiger Zeit mit sogenannten Scannerdaten experimentiert – Daten also, die von Einzelhändlern an der Verkaufsstelle zu Verwaltungszwecken erhoben werden. Nun sahen sie sich plötzlich gezwungen, diese Erhebungspraxis drastisch auszubauen.

Scannerdaten haben den Vorteil, dass sie Produkte in grösserem Detail erfassen können als herkömmliche Erhebungsmethoden. Zudem liefern sie Informationen über verkaufte Mengen sowie Transaktionspreise und nicht über Angebotspreise – das bedeutet, dass sie alle Arten von Rabatten mitberücksichtigen. Allerdings decken Scannerdaten nur einen Teil aller relevanten Produkte ab. Sie kommen auch nicht immer «gebrauchsfertig» daher und müssen oft erheblich bearbeitet werden, um einen nützlichen Datensatz zu erhalten. Ausserdem kann die Beschaffung von Scannerdaten kostspielig sein. Eine andere Möglichkeit, um Preisdaten zu sammeln, ist das Webscraping. Dabei werden die Websites von Produzenten oder des Handels mittels künstlicher Intelligenz auf solche Daten abgesucht. Allerdings sind die Rechtsgrundlagen für Webscraping manchmal unklar, und wie bei Scannerdaten ist die Liste der Produkte nicht vollständig.

Generell ist bei der Nutzung neuer Quellen für die Statistiken Vorsicht geboten: Neue «grosse» Datensätze (Big Data) sind zwar oft sehr umfangreich, sie müssen aber nicht unbedingt repräsentativ sein; private Quellen sind möglicherweise nicht dauerhaft, oder die Eigentumsverhältnisse bei den Daten sind unklar. Die nationalen Statistikämter müssen dabei das richtige Gleichgewicht zwischen Innovation und Qualitätssicherung für vertrauenswürdige Statistiken finden.

Im Bemühen, weiter an der Spitze der Dateninnovation zu bleiben, wurden bereits wichtige internationale Initiativen gestartet, die in die Modernisierung öffentlicher Statistikorganisationen investieren. Ich selber bin ein aktives Mitglied einer von der UNO geleiteten Gruppe[3]. Sie hat den Auftrag, Trends, Gefahren und Chancen bei der Modernisierung statistischer Organisationen zu ermitteln. Gemeinsame Anstrengungen und Koinvestitionen sind hier der Schlüssel, um die Stärken und das Fachwissen der nationalen Statistikämter wirksam zu nutzen und über das Datenökosystem eines Landes oder einer Region zu beraten.

Vom Datenproduzenten zum Verwalter

Die Herausforderung für die nationalen Statistikämter und die OECD besteht darin, die Vorteile der Datenflut zu nutzen und gleichzeitig das Qualitätsniveau aufrechtzuerhalten, das die Grundlage für das Vertrauen in Statistiken bildet. In diesem Sinne ist die Datenflut sowohl eine Chance als auch eine Belastung. Wo internationale Organisationen und nationale Verwaltungen früher als Hauptproduzenten von Statistiken – und oft als einzige – fungierten, werden die öffentlichen Statistikämter zunehmend zu Verwaltern und Torwächtern (sogenannten Data-Stewards) in einem vielfältigen Datenökosystem.

In diesem neuen Ökosystem, in dem die Statistikämter nur einer von vielen Datenproduzenten sind, sind die Daten oft fragmentiert und lassen sich nur schwer miteinander abstimmen und verknüpfen. Dies ist jedoch eine notwendige Voraussetzung, um einige der reichhaltigsten Datenquellen zu erschliessen: nämlich administrative Aufzeichnungen verschiedener Art wie Melderegister oder Sozialversicherungsdaten. Eine wichtige Aufgabe eines Datenverwalters ist es daher, den Zugang zu administrativen Datenquellen für statistische und Forschungszwecke zu koordinieren, bei voller Wahrung der Vertraulichkeit bestimmter Daten.[4] Eine solche Koordinierung durch gemeinsame Klassifikationen, interoperable Datensysteme und den richtigen institutionellen Rahmen verringert auch den Beantwortungsaufwand für Menschen und Unternehmen bei herkömmlichen Erhebungen. Bereits angestossene Projekte sollen uns einem sogenannten Once-Only-Prinzip der Datenerhebung näher bringen, bei dem Bürger und Unternehmen bestimmte Standardinformationen den Behörden und Verwaltungen nur noch einmal mitteilen müssen. Ein Vorreiter dieses Prinzips war das schweizerische Bundesamt für Statistik mit seinem Projekt Nationale Datenbewirtschaftung. Das Projekt hat zum Ziel, die Datenverwaltung im öffentlichen Sektor durch die Wiederverwendung von Daten einfacher und effizienter zu gestalten.

Zusätzliche grosse Datensätze bringen also sowohl neue Möglichkeiten als auch neue Herausforderungen mit sich. Mehr als je zuvor gibt es im statistischen Bereich eine Begeisterung und Lebendigkeit, um diese Möglichkeiten zu nutzen. Jeder sollte daran interessiert sein, zu lernen, zu erforschen und neue und langjährige Fragen mithilfe von Daten zu beantworten – ich bin es jedenfalls! Aber nicht alle Daten sind brauchbar, und den nationalen und internationalen Organisationen kommt eine Schlüsselrolle zu, wenn es darum geht, vertrauenswürdige Daten und Statistiken zu liefern, die für eine faktengestützte Politik und letztlich für die Demokratie so wichtig sind.

  1. OECD (2012). 
  2. Mackie et al. (2016), OECD (2022). 
  3. High-level Group for the Modernisation of Statistical Production and Services. 
  4. OECD (2021). 

Literatur

Mackie, A.; Haščič, I. und M. Cárdenas Rodríguez (2016). Population Exposure to Fine Particles: Methodology and Results for OECD and G20 Countries, OECD Green Growth Papers, No. 2016/02, OECD Publishing, Paris.

OECD (2012). Quality Framework and Guidelines for OECD Statistical Activities, Statistics Directorate.

OECD (2021). OECD Council Recommendation on Enhancing Access to and Sharing of Data.

OECD (2022). The OECD Laboratory for Geospatial Analysis.

Zum Weiterlesen

Das Geschäft mit unseren Daten. Themenseite des Magazins Die Volkswirtschaft