Seminar Fortgeschrittene statistische Methoden II (1)

Termin 2: Hierarchisch strukturierte Daten

SoSe 2023

Autor:in

José C. García Alanis

Veröffentlichungsdatum

12 Mai 2024

Achtung 🚧

Dies ist ein “lebendiges” Dokument. Es ist möglich, dass einige Aktualisierungen und Ergänzungen nach der Sitzung vorgenommen werden.

In diesem Kapitel beschäftigen wir uns mit Multi-Level-Modellen. Multi-Level-Modelle haben viele Ähnlichkeiten mit herkömmlichen Regressionsmodellen (z.B. mit einer einfachen linearen Regression). Wie bei der einfachen linearen Regression (einfach im Sinne von: Eine unabhängige Variable sagt eine abhängige Variable vorher) untersuchen einfache lineare Multi-Level-Modelle den Zusammenhang zwischen einer unabhängigen Variable und einer abhängigen Variablen (auch Kriterium genannt). Somit können die Ergebnisse eines Multi-Level-Modells wie die Ergebnisse einer Regression interpretiert werden. Sie beschreiben, inwieweit Variation in einer Variable auf Variation in einer anderen Variable zurückgeführt werden können.

Der Unterschied zwischen einem Multi-Level-Modell und einer herkömmlichen (einfachen) Regression besteht darin, dass Multi-Level-Modelle in der Lage sind, hierarchische Strukturen innerhalb eines Datensatzes zu berücksichtigen. Gewissermaßen stellen Multi-Level-Modelle nichts anderes als eine besondere Anwendung von Regressionsmodelle dar. Im Verlauf dieses Kapitels lernen wir, was hierarchische Strukturen ausmacht und wie sie die Aussagekraft eines Modells beeinflussen können.

Hierarchische Daten

Hierarchische Daten sind solche, die anhand mehrerer gestufter Beobachtungsebenen strukturiert werden können. Mit anderen Worten: Ein Hauptmerkmal von hierarchisch organisierten Daten besteht darin, dass sie Beobachtungen enthalten, die sich in hierarchisch übergeordneten Einheiten gruppieren lassen. Diese hierarchische Organisation kann durch Baumdiagramme oder Netzwerke veranschaulicht werden. Üblicherweise wird die am niedrigsten angesiedelte Beobachtungsebene als Level 1 bezeichnet. Die nächsthöhere Ebene, also die erste “Gruppenebene”, wird häufig Level 2 betitelt, gefolgt von Level 3 und so weiter.

Ein gängiges Beispiel für hierarchisch organisierte Daten ist die Organisationsstruktur eines Unternehmens, in der die Geschäftsleitung an der Spitze der Hierarchie steht, gefolgt von Abteilungsleiter:innen, Teamleitern:innen und Mitarbeiter:innen auf den unteren Ebenen. In einem solchen Fall spiegeln die verschiedenen Ebenen der Hierarchie die verschiedenen Autoritätsebenen innerhalb des Unternehmens wider. Hierarchisch organisierte Daten sind in vielen Bereichen (z.B. biologische und klinische Psychologie, aber auch Sozial- und Wirtschaftswissenschaften) von Bedeutung und ermöglichen es, komplexe Beziehungen und Zusammenhänge auf unterschiedliche Beobachtungsebenen zu untersuchen.

Durch die Berücksichtigung der hierarchischen Struktur der Daten können Forscher:innen und Anwender:innen besser erkennen, wie Veränderungen auf einer Ebene der Hierarchie Auswirkungen auf andere Ebenen haben können. Dies kann bei der Entwicklung von spezifischen Interventionen und Modellen unterstützen, die die besonderen Eigenschaften hierarchisch organisierter Daten berücksichtigen, um genauere und aussagekräftigere Ergebnisse zu erzielen.

Nun sind Sie dran

Als Nächstes möchten wir Sie dazu anregen, selbst über mögliche Beispiele für hierarchische Daten nachzudenken:

Ihre Aufgabe

Finden Sie sich in Ihren Gruppen zusammen und überlegen Sie sich ein passendes Beispiel.

Wo könnten hierarchische Daten in Ihrem Bereich vorkommen?
Wie würden diese aussehen?
- Wie viele Ebenen wären angemessen, um einen repräsentativen Eindruck der Variation zwischen den Beobachtungen zu erhalten?
Welche Probleme würden sich ergeben, wenn Sie eine oder mehrere Beobachtungsebenen außer Acht lassen würden?
- Auf welcher Ebene findet die meiste Variation statt?
Zeichnen Sie ein Bild der hierarchischen Datenstruktur.

Nutzen Sie diese Anregungen, um in Ihrer Gruppe das Konzept der hierarchischen Daten besser zu verstehen und auf Ihre spezifischen Anwendungsfälle anzuwenden. Diskutieren Sie die verschiedenen Aspekte und identifizieren Sie mögliche Herausforderungen, die sich aus der Verwendung hierarchischer Daten in Ihrem Kontext ergeben könnten.

20:00

Konsequenzen hierarchischer Daten

Ein weiteres häufig verwendetes Beispiel für hierarchische organisierte Daten sind Schüler:innen in Schulklassen. Stellen wir uns folgendes Szenario vor, Sie arbeiten als Psychologie in einer Schule. Viele Schülerinnen kommen zu Ihnen, weil sie mit den Anforderungen des Schulalltags nicht zurechtkommen. Manche Schülerinnen füllen sich durch den Schwierigkeitsgrad des Unterrichts überfordert und manche andere haben große Schwierigkeiten, die große Anzahl an Hausaufgaben rechtzeitig zu erledigen. Jedenfalls stellen Sie fest: Seit Corona findet eine Zunahme an Niedergeschlagen und Erschöpfung seitens der Schüler:innen statt. Sie machen sich auf der Suche nach möglichen Ursachen und bedingenden Faktoren.

Ihre erste Vermutung ist, dass die während Corona entstandenen Lernrückstände möglicherweise für die subjektiv empfundene Überförderung seitens der Schüler:innen verantwortlich sein könnte. Sie beschließen zufällig Schüler:innen auf ihre Lernrückstände zu untersuchen und sie nach ihrer subjektiv empfundene Überförderung zu fragen. Sie erheben die entsprechenden Daten und achten darauf, Schüler:innen von mehreren Klassen zu untersuchen.

Sie sind davon überzeugt: Wenn Sie den Zusammenhang zwischen Lernrückstände und Überforderung verstehen, können Sie Maßnahmen entwickeln, die alle Schüler:innen unabhängig von dem individuellen Lernrückstand helfen.

Wie mussten die Daten aussehen, damit diese Daten Ihre These (höhere Lernrückstände gehen mit einer stärkeren subjektiv-empfundenen Überförderung einher) stützen?
Welche Rolle könnten die Zugehörigkeit zu einer (besonderen) Schulklasse spielen?

05:00

Sie haben es richtig erkannt, bei dieser Übung handelt es sich, um einer “Zusammenhangshypothese”. Ähnlich wie bei einer Korrelation, gehen also davon aus, dass Veränderung in einer Variable, mit Veränderung in einer anderen Variable einhergeht. Allerdings enthält unser Beispiel einige Besonderheiten, die die Anwendung gängiger Analysemethoden (z.B. Korrelation) zur Beantwortung der Forschungsfrage (zumindest) erschweren.

Bei traditioneller Analyse verfahren nehmen wir an, dass es sich bei den Untersuchungseinheiten in der Stichprobe, um zufällige “Ziehungen” aus einer Population handel. Zur Erinnerung: Wir “ziehen” zufällig aus einer Population, weil wir daran interessiert sind Aussagen über die Population zu treffen. An der jeweils gezogenen Beobachtung sind wir nicht (wirklich) interessiert. Eine Ziehung ist dann zufällig, wenn sie eine Beobachtung über eine Merkmalsausprägung liefert. Die Merkmalsausprägung schwankt über Einheiten in einer bestimmten Population und welche spezielle Einheit beobachtet wird, hängt vom Zufall ab. Wenn ein Effekt in einem statistischen Modell als zufällig modelliert wird, möchten wir daraus Schlüsse über die den Effekt in der Population ziehen, aus der die beobachteten Einheiten stammen, anstatt über diese speziellen Einheiten selbst.

Können wir davon ausgehen, dass es sich bei der Zusammenhang zwischen Lernrückstände und Überforderung in der Population der Schüler:innen zufällig verteilt ist?

Wir können davon ausgehen, dass der Zusammenhang zwischen Lernrückstände und Überforderung in der Population der Schüler:innen in unserem Beispiel wahrscheinlich nicht zufällig verteilt ist.

Vermutlich ist die empfundene Überförderung ähnlicher innerhalb der Klassen als zwischen den Klassen.
Die Klassen unterschieden sich in vielerlei Hinsicht:

In einigen Klassen ist das psychosoziale Klima freundliche und unterstützend, während in anderen Klassen, das Klima als rau und feindselig empfunden wird.

An diesen Vermutungen ergibt sich folgende Konsequenzen:

Zieht man aus einer Klasse eine beliebige Person und misst ihren Lernrückstand (oder Überförderung), so ist es zu erwarten, dass dieser dem Wert einer beliebigen zweiten Person dann ähnlicher ist, wenn die zweite Person aus der gleichen Klasse stammt.