2. Warum müssen wir gewichten?

Hallo und herzlich willkommen zum zweiten Teil der Videoserie zum Thema “Gewichtung mit R”. Nachdem wir in Teil eins gehört haben, was das Grundprinzip der Gewichtung ist, schauen wir in diesem zweiten Teil mal genauer auf das Warum. Das Video behandelt also die methodologischen Grundlagen.

Warum müssen wir gewichten?

Nun, die kurze Antwort lautet: Wir müssen gewichten, damit wir korrekte Ergebnisse erhalten. Und wenn wir es nicht tun, obwohl es notwendig wäre, könnten wir Ergebnisse erhalten, die inhaltlich daneben liegen oder wo wir die Genauigkeit falsch beurteilen.

Statistisch ausgedrückt: wenn wir nicht gewichten, können Punktschätzer verzerrt sein und die Varianz - und damit die Standardfehler - können unterschätzt oder überschätzt werden. Wenn Standardfehler unterschätzt werden, werden Ergebnisse signifikant, die es eigentlich nicht sein sollten. Die Wahrscheinlichkeit für den Fehler erster Art (\(\alpha\) - Fehler) steigt. Wenn Standardfehler überschätzt werden, steigt die Wahrscheinlichkeit für Fehler zweiter Art und eigentlich bedeutsame Zusammenhänge werden unter Umständen nicht erkannt.

Aber holen wir ein wenig aus um zu verstehen, warum das so ist. Die längere Antwort geht folgendermaßen:

Es gibt zwei Gründe, warum wir unsere Daten für die Auswertung gewichten müssen.

  1. Wir wollen unterschiedliche Auswahlwahrscheinlichkeiten des Stichprobendesigns ausgleichen.
  2. Wir wollen Verzerrungen aus Stichprobenausfällen, also Nonresponse, ausgleichen.

Diese beiden Gründe geben uns zwei Arten von Gewichten: Die Design-Gewichte und die Anpassungsgewichte.

Hier werden aber eine ganze Reihe von verschiedenen Begriffen genutzt. Dabei gehören zu den Designgewichten:

Und zu den Anpassungsgewichten:

Am Ende des Videos, sollten Sie die verschiedenen Begriffe kennen und auseinanderhalten können.

Designgewichte

In einer idealen Welt wo Aufwand, technische Hürden oder der Zugang zu Untersuchungseinheiten für Forschende keine Rolle spielen, würden Sie die Daten über die gesamte Grundgesamtheit sammeln und auswerten.

In der Realität geht das nicht. Oft können wir nur einen Teil der Grundgesamtheit untersuchen. Deshalb wir ziehen wir Zufallsstichproben. Während einfache Zufallsstichproben kein Problem darstellen, müssen bei komplexen Zufallsstichproben Gewichte genutzt werden um das Strichprobendesign in den Daten auszugleichen. Diese Gewichte werden daher Designgewichte genannt. Zu diesen gehören auch Populationsgewichte oder Transformationsgewichte.

In vielen Bereichen der Sozialwissenschaften insbesondere dort, wo mit umfragebasierten Individualdaten gearbeitet wird, ist es häufig nicht möglich oder zielführend, die gesamte Population oder Grundgesamtheit zu untersuchen - also eine Vollerhebung durchzuführen.

Zum einen, müssen zuerst alle Elemente der Grundgesamtheit identifiziert werden können. Das ist nicht immer möglich: In Deutschland gibt es zum Beispiel kein nationales Einwohnerregister. Oder ein zentrales Register über alle Studierenden.

Und selbst dann, wenn alle Elemente der Grundgesamtheit identifizierbar sind, kann es aus forschungsökonomischen Überlegungen sinnvoll sein, nur einen Teil der Grundgesamtheit zu untersuchen.

Das ist zum Beispiel der Fall, wenn e zu teuer oder zu aufwändig wäre alle zu befragen, oder wenn eine Vollerhebung keinen Mehrwert in Bezug auf die zu erhebenden Informationen geben würde.

Und das ist tatsächlich meistens der Fall. So können wir ja schon mit 1.000 oder 2.000 Fällen sehr gut (also unverzerrt und effizient) Schlussfolgerungen über die Grundgesamtheit von gut 83 Mio. Einwohnern in Deutschland treffen.

Also: Wir nutzen in der Regel keine Vollerhebung sondern eine Stichprobe.

Und hier kommt ein wichtiger Punkt: Wenn es sich um eine einfache Zufallsstichprobe handelt und alle Elemente der Grundgesamtheit die gleiche Auswahlwahrscheinlichkeit haben, dann hat das Stichprobendesign keine verzerrende Wirkung! Wir benötigen also kein Designgewicht.

Wenn wir aber eine komplexes Stichprobendesign nutzen, dann liegen ungleiche Auswahlwahrscheinlichkeiten für die einzelnen Elemente der Grundgesamtheit vor. Durch die Gewichte können wir diese Unterschiede durch das Stichprobendesign ausgleichen, diese Art Gewichte werden daher Designgewichte genannt.

Machen wir ein einfaches Beispiel für eine Bevölkerungsstichprobe in Deutschland und nehmen wir an es gäbe ein nationales Einwohnerregister.

In Deutschland leben 2021 83.24 Mio. Menschen1 Davon leben knapp 70.7 Mio., also 85 Prozent in Westdeutschland inklusive Berlin und 12.47 Mio., also 15 Prozent in Ostdeutschland.

Wir wollen für eine Stichprobe des Umfangs \(n=3.000\) ziehen. Würden wir eine einfache Zufallsstichprobe ziehen, läge der Erwartungswert für den Anteil von Personen aus Westdeutschland bei 85 Prozent. 15 Prozent, also 450 Personen würden für Ostdeutschland gesampelt.

Das Verhältnis entspräche dem in der Grundgesamtheit und alle Elemente der Grundgesamtheit hätten dieselbe Auswahlwahrscheinlichkeit von

\[\frac{n}{N}=\frac{3.000}{83.237.124}=0.000036\].

In diesem Fall ist also keine Gewichtung notwendig.

Für manche Analysen wäre durch eine solche geringe Fallzahl die statistische Teststärke zu gering. Ebenso kann man erwarten, dass weniger häufig vorliegende Merkmalskombinationen bei nur 450 Personen gar nicht enthalten sind.

Die Lösung ist, dass wir bewusst eine größere Stichprobe für Ostdeutschland ziehen. Von den 3.000 zu ziehenden Befragten sollen 1.000 aus Ostdeutschland kommen und 2.000 aus Westdeutschland.

Aus der einfachen Zufallsstichprobe wird eine disproportional geschichtete Stichprobe. Das Stratifizierungsmerkmal ist der Landesteil. Und disproportional ist die Schichtung, weil wir mehr Befragte für Ost ziehen, das nennt man auch Oversampling.

Die Folge dieses Oversamplings ist, dass wir für Ost und West unterschiedliche Auswahlwahrscheinlichkeiten haben:

\[\frac{n_{Ost}}{N_{Ost}}=\frac{1.000}{83.237.124}=0.000012\]

Und für West:

\[\frac{n_{West}}{N_{West}}=\frac{2.000}{83.237.124}=0.000024\]

Und genau hier kommen die Designgewichte ins Spiel. Die Designgewichte korrigieren diese unterschiedlichen Auswahlwahrscheinlichkeiten für die Auswertung: Da wir mehr Fälle in Ost haben, als es dem Verhältnis in der Grundgesamtheit entsprechen würde, sorgen die Gewichte dafür, dass Ostdeutsche mit geringerem Gewicht in die Analyse eingehen.

Wir können sogar sehr einfach berechnen, um welchen Faktor Ostdeutsche weniger und Westdeutsche stärker berücksichtigt werden müssen:

\[\frac{\frac{N_{Ost}}{N_{Ges}}}{\frac{n_{Ost}}{n_{Ges}}}=\frac{\frac{12.470.146}{83.237.124}}{\frac{1.000}{3.000}}=0.4494441\]

Und für West:

\[\frac{\frac{N_{West}}{N_{Ges}}}{\frac{n_{West}}{n_{Ges}}}=\frac{\frac{70.766.978}{83.237.124}}{\frac{2.000}{3.000}}=1.275278\]

Im Datensatz unseres fiktiven Beispiels würden wir also eine Gewichtungsvariable erstellen. Alle Westdeutschen Befragten hätten den Wert 1.275278 und alle Ostdeutschen den Wert 0.4494441.

Gewichten wir die 1.000 Befragten in Ost mit 0.4494441 erhalten wir \(1.000 \times 0.4494441 \approx 450\). Und in West \(2.000 \times 1.275278 \approx 2550\). Genau die Anzahl der Befragten, die wir bei einer einfachen Zufallsstichprobe ohne disproportionale Schichtung erwarten würden.

Diese Art von Designgewicht nennt man auch manchmal Populationsgewicht, da es die Stichprobe bzw. genauer, die unterschiede in den Auswahlwahrscheinlichkeiten so anpasst, dass sie in ihrer Zusammensetzung der Population entspricht.

Das Prinzip, dass wir eben kennengelernt haben lässt auch auf noch komplexere Stichprobendesigns anwenden, bei denen mehrstufige Verfahren zum Einsatz kommen, mehre Schichtungsmerkmale berücksichtigt werden, oder Klumpen- bzw. Clusterstichproben zum Einsatz kommen. Immer wird für die vorliegende Kombination und den betreffenden Cluster die Auswahlwahrscheinlichkeit berechnet.

Neben den Designgewichten gibt es noch eine weitere Klasse an Gewichten, über die wir im Folgenden kurz sprechen werden: die Anpassungsgewichte.

Anpassungsgewichte

Selbst bei einer einfachen Zufallsstichprobe, bei der alle Auswahlwahrscheinlichkeiten gleich sind und keine Designgewicht notwendig ist, oder nach Ausgleich dieser Designunterschiede durch eben jene Designgewichte kann es sein, dass die realisierte Stichprobe trotzdem kein verkleinertes Abbild der Grundgesamtheit ist.

Warum? Nun ja, es ist vollkommen normal, dass Untersuchungseinheiten nicht erfasst oder nicht erreicht werden können. Oder dass Befragte die Teilnahme verweigern. Dieser Ausfall wird in der Umfrageforschung als Unit-Nonresponse bezeichnet.

Wenn dieser Ausfall systematisch mit bestimmten Merkmalen der Untersuchungseinheiten zusammenhängt - zum Beispiel mit Bildung Einkommen oder Interesse - ist die Stichprobe in Bezug auf diese Merkmale verzerrt, man könnte auch sagen: nicht repräsentativ.

Hier ist der Hinweis wichtig, dass keine Stichprobe per se repräsentativ ist. Repräsentativität als vermeintliches Gütekriterium ist eine empirische Frage: Sie müssen prüfen, ob ihre realisierte Stichprobe tatsächlich repräsentativ ist. Und an der Stelle werden sie feststellen, dass sich Repräsentativität nur im Hinblick auf bestimmte, angebbare Merkmale prüfen lässt. Und das geht auch nur, wenn für diese Merkmale die Verteilung in der Grundgesamtheit bekannt ist.

Ist die realisierte Stichprobe durch Nonresponse verzerrt, können Nonresponse-Gewichte oder sogenannte Anpassungsgewichte, Redressement-Gewichte oder Poststratifizierungs-Gewichte die Verzerrung etwas verringern.

Bei Nonresponse-Gewichten stellt man sich Modellhaft eine zweiten Zufallsprozess nach der eigentlichen Stichprobenziehung vor: jede Einheit hat eine bestimmte Wahrscheinlichkeit dafür, an der Befragung teilzunehmen.

Wir haben also eine Auswahlwahrscheinlichkeit und ein Antwort- oder Teilnahmewahrscheinlichkeit.

Liegen nun unterschiedliche Teilnahmewahrscheinlichkeiten vor, so verzerren auch diese die Schätzung in den statistischen Analysen. Ein simples Beispiel war in Video eins, das Fehlen eines Teils der männlichen Schüler. Leicht kann man sich auch Beispiele aus der sozialwissenschaftlichen Umfragepraxis vorstellen, wie etwa das die Teilnahmebereitschaft vom politischen Interesse abhängt, oder vielleicht wie viel Zeit Menschen haben.

Kennt man diese Teilnahmewahrscheinlichkeiten, lassen sich Gewichte berechnen, die diese Verzerrung ausgleichen.

Das Problem dabei ist, dass man nur sehr wenige Informationen über die Individuen hat, die zwar gesampelt wurden, die jedoch nicht teilnehmen.

Oft ist das einzige was man hat, das Geschlecht, das Alter und die Adresse (bei Einwohnermeldestichproben) oder ein gröberer Wohnort über die Vorwahl der Telefonnummer (wenn es eine Festnetz-Telefonstichprobe ist).

Die Teilnahmewahrscheinlichkeiten sind also nur relativ grob bestimmbar. Trotzdem kann man wieder ihren Kehrwert nutzen, um ein entsprechendes Gewicht für die verschiedenen Individuen zu berechnen. Personen aus Nachbarschaften mit geringer Antwortwahrscheinlichkeit erhalten so ein etwas höheres Gewicht, als Personen aus Nachbarschaften in denen die Teilnahmebereitschaft höher liegt.

Doch auch nach Gewichtung der Daten mit solchen Nonresponse-Gewichten, stellt die realisierte Stichprobe in der Regel kein verkleinertes Abbild der Grundgesamtheit dar. Das heißt die Verteilung bestimmter Merkmale in den Daten entspricht nicht der Verteilung dieser Merkmale in der Grundgesamtheit. Für viele Merkmale lässt sich das nicht feststellen, da über sie keine Informationen zu ihrer Verteilung in der Grundgesamtheit vorliegen (z.B. zu Einstellungen oder Verhaltensweisen).

Aber wo es eine amtliche Statistik gibt, oder Daten durch die Fortschreibung des Zensus und Mikrozensus vorliegen, kann man die Verteilung erhobener Merkmale aus der realisierten Stichprobe - kurz aus den Daten - mit diesen objektiven Daten vergleichen.

Und noch mehr, wenn wir also wissen, um wie viel in unseren Daten bestimmte Merkmale mehr oder weniger häufig vorliegen, können wir durch Gewichtung die Verteilung der Randverteilung in der Grundgesamtheit anpassen.

Ein Beispiel:2

In dieser Tabelle sehen wir die Verteilung verschiedener Altersgruppen aus der ungewichteten Stichprobe, als Anteil in Prozent.

Die Spalte GG enthält den Anteil, den diese Altersgruppe in der Grundgesamtheit hat auf Basis der Daten des statistischen Bundesamtes.

Wir sehen, dass manche Altersgruppen in der Stichprobe überrepräsentiert sind. Sie also im Schnitt häufiger geantwortet haben, als andere Altersgruppen.

Jetzt können wir berechnen wie hoch der Faktor ist, um den eine Gruppe über- oder unterrepräsentiert ist, indem wir das Verhältnis von Stichprobe zu Grundgesamtheit berechnen. Das sehen wir in der vierten Spalte.

Jetzt können wir durch den Kehrwert das Gewicht berechnen, mit dem die Befragten aus der jeweiligen Altersgruppe gewichtet werden müssen: Überrepräsentierte Gruppen werden also runtergwichtet, und unterrepräsentiete Gruppen hochgewichtet.

Wenn diese Gewichte angewendet wurden, erhalten wir in der Geiwchteten Stichprobe die Randverteililung in den Daten, die auch in der Grundgesamtheit vorliegt. Das sehen wir in der letzten Spalte.

Alter SP GG SP/GG 1/(SP/GG) Gewichtete SP
15-20 6,6 5,5 1,2 0,83333333 5,5
21-40 27,3 28,5 0,95789474 1,04395604 28,5
41-60 32,5 31,8 1,02201258 0,97846154 31,8
61-80 28,1 25,8 1,08914729 0,91814947 25,8
81 und mehr 5,5 8,4 0,6547619 1,52727273 8,4
100 100 1 1 100

Für die Berechnung der Anpassungsgewichte muss zuerst die Verteilung der Daten bekannt sein, sie kann also erst nach, also post, der Stichprobenziehung und Erhebung erfolgen. Außerdem gleicht dies Gewichtung die Daten an die Verteilung gesellschaftlicher prägender Schichtungsmerkmale wie Bildung, Alter und Geschlecht an. Daher nennt man diese Art von Gewichten auch Poststratifikations-Gewichten. Manchmal nennt man sie auch Kalibrierungsgewichte oder Redressment-Gewichte.

Auch Transformationsgewichte gehören zu den Anpassungsgewichten. Transformationsgewichte erlauben es, die Stichprobe so zu gewichten, dass mit ihre auch Aussagen auf einer anderen Analyseebene möglich ist. So kann man Daten aus einer Individual-Stichprobe mit Hilfe des Transformationsgewichts als Haushaltsstichprobe nutzen. Oder Daten aus Haushaltsstichproben für Analysen auf Individualebene nutzen. Um diese Gewichte berechnen zu können, werden in der Befragung Informationen über die Haushaltsgröße und Altersstruktur erhoben. Damit kann dann die Auswahrscheinlichkeit für die jeweiligen Haushaltsgrößen bestimmt werden und an die Randverteilungen aus der Bevölkerungsstatistik angepasst werden. Da dies erst nach der Stichprobenziehung erfolgen kann, handelt es sich also um ein Anpassungsgewicht.

Fassen wir also noch einmal zusammen. Wenn Daten aus komplexen Stichproben stammen - und das tun in der Regel alle Daten aus großen Umfragen - dann liegen aufgrund des Stichprobendesigns ungleiche Auswahlwahlwahrscheinlichkeiten vor. Nonresponse sorgt zusätzlich für ungleiche Teilnahmewahrscheinlichkeiten. Schätzungen auf Basis von ungewichteten Daten können dann verzerrt sein, man liegt also inhaltlich daneben. Außerdem können die Standardfehler fehlerbehaftet sein. Gewichten wir die Daten mit Designgewichten können wir ungleiche Auswahlwahrscheinlichkeiten ausgleichen und durch Anpassungsgewichte Nonresponse Verzerrungen in den Randverteilungen abmildern.

Im nächsten Teil werden wir uns anschauen, wie bei der Gewichtung von zwei bekannten Umfrageprogramme, der Allbus und der European Social Survey vorzugehen ist.

Weiterführende Literatur:

  • Aneshensel, C.S., 2013. Theory-Based Data Analysis for the Social Sciences. SAGE, Thousand Oaks, S. 167–196.
  • Schnell, R., 2019. Nonresponse, in: Survey-Interviews, Studienskripten zur Soziologie. Springer Fachmedien Wiesbaden, Wiesbaden, pp. 145–174. https://doi.org/10.1007/978-3-531-19901-6_7
  • Kiesl, H., 2014. Gewichtung, in: Baur, N., Blasius, J. (Eds.), Handbuch Methoden der empirischen Sozialforschung. Springer Fachmedien Wiesbaden, Wiesbaden, pp. 349–356. https://doi.org/10.1007/978-3-531-18939-0_24

Fußnoten

  1. 83.237124, siehe https://www.destatis.de/DE/Themen/Gesellschaft-Umwelt/Bevoelkerung/Bevoelkerungsstand/Tabellen/liste-gebietstand.html#249750↩︎

  2. https://www.destatis.de/DE/Themen/Gesellschaft-Umwelt/Bevoelkerung/Bevoelkerungsstand/Tabellen/bevoelkerung-altersgruppen-deutschland.html↩︎