Datenniveaus

Lernpfad erstellt und betreut von:

die_normalverteilten

E-mail: reinhard.raml@univie.ac.at
Homepage: http://www.univie.ac.at/soziologie-statistik/
Steckbrief
Kurs-Informationen
Ansicht mit Navigations-Frame
Lernpfadseite als User öffnen (Login)
Lernpfadseite bearbeiten (Autor)

Übersicht:       
Hilfe
1. Vorbemerkungen und Einführung
2. Datenniveaus

Datenniveaus
 
2.1 Datenniveaus
http://www.mathe-online.at/materialien/Gerald.Forstner/files/Datenniveaus.doc

Eine kurze Zusammenfassung rund ums Thems Datenniveaus.
 
2.2 Vorweg

Für jede Messung muss nun überprüft werden, welche der vier zwischen Zahlen möglichen Beziehungen analoge Beziehungen zwischen den Merkmalsausprägungen auf Seiten der Objekte spiegeln. Anders formuliert: Bei jeder Messung muss überprüft werden, welchen der bei den reellen Zahlen gültigen Beziehungen 1-4 eine empirische Bedeutung bei den Merkmalen der Objekte zukommt.

Warum sind diese Begriffe so wichtig? Nun, es ist für die weitere statistische Auswertung entscheidend, ob die erhobenen Daten den Voraussetzungen der jeweiligen statistischen Verfahren entsprechen. Bestimmte Verfahren setzen (u.a.) ein bestimmtes Datenniveau voraus. Da mit der Datenerhebung das Skalenniveau festgelegt wird, sollte man sich immer schon vor dieser Erhebung Gedanken über die spätere statistische Auswertung machen. Nach der Datenerhebung kann man meistens nichts mehr „retten“, und man darf gegebenenfalls deshalb die zuvor geplante Auswertung nicht durchführen. Das zeigt sich u.a. daran, dass Merkmale eine unterschiedliche Qualität des Datenniveaus haben können, was die Möglichkeiten der statistischen Auswertung einschränken kann. Die Aussage, durch das Medikament A hat sich der Blutdruck im Mittel um 12,35 mmHq gesenkt, ist um einiges differenzierter als die Aussage, der Blutdruck ist geringer. Mit der ersten Aussage können exaktere statistische Entscheidungen getroffen werden.
Bei einer Messung (wie im Beispiel des Blutdrucks) wird so der erhobenen Variablen automatisch eine Art Gütekriterium zugeordnet. Dieses Kriterium nennt man Skalentyp bzw. Datenniveau. Generell werden vier Skalentypen mit verschiedener Wertigkeit unterschieden. Je höher das Skalenniveau, desto mehr statistische Verfahren können angewendet werden. In der Statistik ist man immer versucht, bei einer Messung das höchstmögliche Skalenniveau zu erreichen und zu bewahren. Dieses Skalenniveau entscheidet darüber, welche statistische Auswertung sinnvoll und erlaubt ist und welche nicht. Es ist beispielsweise nicht sinnvoll, bei der Verteilung der Parteien im Nationalrat einen Mittelwert zu berechnen. Im Gegensatz dazu ist es eher sinnvoll, das Durchschnittsalter der Studentinnen und Studenten des ersten Semesters zu berechnen, um dann diese beiden Werte zu vergleichen.

Auf der numerischen Ebene sind formal zwar alle Informationen gleich, nicht jedoch auf dem Datenniveau, d.h. der inhaltlichen. Diese berührt auf grundsätzliche Weise die Rechenbarkeit der Zahlenwerte. So ist es sicher zulässig, die Einkommen verschiedener Haushaltsmitglieder zu einem Haushaltseinkommen zusammen zu fassen und eventuell ein durchschnittliches Einkommen zu errechnen. Unzulässig und auch unsinnig wäre es, die numerisch kodierten Familienstände (1 = verheiratet, 2 = ledig, …) aufzuaddieren und daraus das arithmetische Mittel zu errechnen. Das Skalenniveau bezieht sich also auf die hinter den Variablenwerten liegende zulässige Metrik.


Prinzipiell unterscheidet die Sozialwissenschaft metrische und nicht-metrische Daten- bzw. Skalenniveaus. Welches Datenniveau im konkreten Einzelfall vorliegt, ist jedoch nicht vorweg theoretisch entscheidbar, sondern muss im Zusammenhang mit den empirischen Ergebnissen für den einzelnen Messprozess entschieden werden.


 
2.3 Nominalskala

In einer Nominal-Skala werden den Ausprägungen beliebig Zahlen zugeordnet. Dieser Vorgang ist keine Wertung oder die Festlegung einer Rangordnung, sondern nur eine Zuweisung, eine Benennung. So kann z.B. das Geschlecht auf einer Nominal-Skala erfasst werden, in dem man die Ausprägung "weiblich" der 1 und "männlich" der 2 zuordnet. Ebenso nominal skaliert ist die Variable Bundesland. Für die Auswertung ist dabei völlig unerheblich welche Zahlenwerte den Ausprägungen zugeordnet werden. Ob Wien mit 1 oder 9 kodiert wird macht in diesem Sinne keinen inhaltlichen Unterschied. Die Nominalskala setzt nur die Gleichheit oder Ungleichheit von Eigenschaften (z.B. Geschlecht ) bzw. die Möglichkeit mehrklassiger Einteilungen (etwa in Berufe, Muttersprache, Haarfarbe, Studienrichtung... ) in Kategorien voraus.

Die Autobesitzer unter den Studierenden werden in VW-, Opel-, Fiat- und Fordbesitzer und in Besitzer sonstiger Autos eingeteilt. Es werden also fünf Gruppen von AutobesitzerInnen gebildet, die durch die Ziffern 1 bis 5 gekennzeichnet werden: VW-Besitzer durch eine 1, Opel-Besitzer durch eine 2 usw. bis sonstige durch eine 5. Wir können nach unseren Daten folgendes erwarten: 1. Treten zwei gleiche Messergebnisse auf, so fahren beide Studierende einen Wagen der gleiche Marke oder beide einen der Gruppe 5. Der Gleichheit der Zahlen kommt eine empirische Bedeutung zu. 2. Den drei übrigen zwischen den Zahlen gültigen mathematischen Beziehungen (Ordnung, Gleichheit der Differenzen und Quotienten) kommt offensichtlich keine sinnhafte empirische Bedeutung zu.

Wenn nur der Gleichheit eine empirische Bedeutung zukommt, können die Zahlen durch beliebige andere Symbole, z.B. Buchstaben oder geometrische Figuren, ersetzt werden, da sich die Identität durch jedes Symbol ausdrücken lässt. Für die Analyse mit SPSS empfiehlt sich jedoch die Kodierung durch Zahlen.


 
2.4 Ordinalskala

Im Fach Statistik werden zur Leistungsbeurteilung (nach wie vor) die Noten von 1 bis 5 gegeben. Es handelt sich um einen Messprozess, da Objekten - nämlich den Studierenden - Zahlen - nämlich Noten - zugeordnet werden. Wir erwarten dabei folgendes:

  1. Treten in dieser Gruppe zwei gleiche Messergebnisse auf, erhalten also zwei Studierende gleiche Noten im Fach Statistik, so haben diese Studierenden auch gleiche Leistungen gezeigt. Der Gleichheit der Zahlen kommt eine sinnhafte empirische Bedeutung zu.
  2. Ist von zwei Daten das erste größer als das zweite (z.B. 4 größer als 2), so hat der erste Studierende eine geringere Leistung gezeigt als der zweite. Der Ordnung der Zahlen kommt eine empirische Bedeutung zu, wenn auch in einer inversen Beziehung: je größer die Zahl, je kleiner die Leistung.
  3. Erhalten drei Studierende A, B und C die Noten A: 2; B: 3; C: 4, so gilt zwar für die Zahlen, dass die Differenzen gleich groß sind: 4-3 = 1 und 3-2 = 1. Wir können aber nicht erwarten, dass dieser Gleichheit der Differenzen eine empirische Bedeutung zukommt, dass also der Studierende A um ebensoviel besser als B sei, wie dieser wieder besser als der Studierende C sei. Der Grund liegt darin, dass die Noten "unterschiedlich weit voneinander entfernt" sind; so geben Professoren oft ungern die Note 4. Die Konsequenz besteht darin, dass die Note 3 auf der Notenskala einen größeren Bereich umfasst als z.B. die Note 1 oder die Note 5. (Es soll aber auch Professoren geben, die besonders gern die 5 verteilen.)
  4. Eben so wenig wie den Differenzen der Zahlen unseres Beispiels eine empirische Bedeutung zukommt, können wir erwarten, dass dies für die Quotienten der Zahlen gilt. So lässt sich z.B. nicht sagen, dass der Studierende A mit seiner 2 doppelt so gut ist, eine doppelt so große Leistung gezeigt hat wie der Studierende C mit seiner 4.

Wir stellen fest, dass bei der Notengebung nur den ersten beiden Eigenschaften der Zahlen eine empirische Bedeutung zukommt. Messwerte, für die dies zutrifft, für die also Gleichheit und Ordnung eine empirische Bedeutung haben, nennt man auf einem Ordinalniveau oder auf einer Ordinalskala gemessen. In einer Ordinal-Skala werden Daten somit dem Rang oder der Wertigkeit nach sortiert. So entsteht eine Ordnung, die aussagt, dass etwas größer oder kleiner, besser oder schlechter, zutreffender oder weniger zutreffend als etwas anderes ist. Wichtig ist, dass mit der Zuweisung von Ziffern keine Beschreibung über den Abstand der Ausprägungen erfolgt . So kann nicht gesagt werden, dass die Schulnote "gut" (2) doppelt so gut ist wie ein "genügend“ (4). Ebenso wenig gibt eine Differenz von Ranglistenplätze Auskunft über den Punkteabstand. Beispielsweise ob der Unterschied zwischen “nicht zufrieden“ und „eher nicht zufrieden“ der Differenz „sehr zufrieden“ und „eher zufrieden“ entspricht. Die Ordinalskala bildet eine „größer-kleiner“-Relation der Messwerte ab, d. h. Messwerte können in einer Rangreihe geordnet werden . Man nennt daher die Skalenwerte einer Ordinalskala auch Ränge Ordinalskala auch Ränge und die Skala auch Rangskala.

Welche Argumente sprechen für die Berechnung eines Notendurchschnitts, welche dagegen? Posten Sie ihre Argumentation im Klassenforum und diskutieren Sie einen Ansatz einer Kollegin/eines Kollegen.


Übungsaufgabe
 

2.5 metrische Skala

In der Praxis wird meist nur zwischen drei Skalenarten unterschieden: Der Nominal-, der Ordinal- und den metrischen Skalen. Für die Datenerfassung und Berechnung macht es keinen Unterschied, ob es sich bei den metrischen Daten um eine Intervall- oder Verhältnisskala handelt bzw. sind die meisten metrischen Daten in den Sozialwissenschaften auf einer Verhältnisskala (Alter in Jahren, Einkommen, etc.). Dennoch seien diese hier aufgeführt, da auch für sie wichtige Unterschiede festzuhalten sind.

Es wird um 12.00 Uhr Mittag in 100 Orten in Europa die Temperaturen in Grad Celsius gemessen. Es werden Objekten - nämlich Orten in Europa - Zahlen - nämlich Maßzahlen der Temperatur - zugeordnet. Folgende Erwartungen können dabei an die Ergebnisse gestellt werden:

  1. Treten zwei gleiche Messergebnisse auf, so haben die dazugehörenden Orte eine gleiche Mittagstemperatur gehabt. Der Gleichheit der Zahlen kommt eine empirische Bedeutung zu.
  2. Ist von zwei Messergebnissen das erste kleiner als das zweite, so hat der zum ersten Messergebnis gehörende Ort eine niedrigere Temperatur gehabt als der zum zweiten gehörende.
  3. Werden an drei Orten A, B und C folgende Temperaturen gemessen A: 5 Grad C; B: 10 Grad C; C: 15 Grad C so erwarten wir, dass im Ort C die Temperatur um genau soviel höher liegt als in B, wie sie in B höher liegt als in A. Den gleichen Differenzen der Zahlen - nämlich 15-10 = 5 und 10-5 = 5 - kommt eine empirische Bedeutung zu.
  4. Dem Quotienten der Zahlen der in A und B gemessenen Temperaturen kommt jedoch keine empirische Bedeutung zu. Zwar gilt für die Zahlen, dass 10 doppelt so groß wie 5 ist, denn 10:5 = 2; dies gilt jedoch nicht für die Temperaturen. Der Grund liegt darin, dass der Nullpunkt unserer Temperaturskala willkürlich gewählt ist - relativer Nullpunkt - und dass seine Temperatur von 0 Grad C nicht "keine Temperatur" bedeutet in dem Sinn, wie 0 kg "kein Gewicht" bedeutet, sondern eine durchaus vorhandene Temperatur von 0 Grad C. Anders würden die Verhältnisse liegen, wenn anstelle der Celsiusskala die Kelvinskala mit ihrem absoluten Temperaturnullpunkt zur Messung gewählt wäre. 0 Grad K (= -273 Grad C) bedeutet "keine Temperatur".

Bei der Temperaturmessung in Celsius kommt nur den ersten drei Eigenschaften der Zahlen eine sinnhafte empirische Bedeutung zu. Daten, für die dies zutrifft, für die also Gleichheit, Ordnung und Gleichheit von Differenzen eine empirische Bedeutung haben, nennt man auf einem Intervallniveau oder auf einer Intervallskala gemessen.
Intervallskalen sind also Skalen, in denen über den Unterschied zweier Messwerte ausgesagt werden kann, ob er größer, gleich oder kleiner als der Unterschied zweier anderer Messwerte ist, d.h. Skalenwerte können bezüglich ihrer Differenzen (und Summen) verglichen werden. Die Differenzen lassen sich also quantifizieren, nicht aber die Verhältnisse. Erst auf dem Niveau von Intervallskalen ist die Addition oder Subtraktion von Messwerten sinnvoll. Intervallskalierte Daten haben drei willkürlich festgelegte Momente: Nullpunkt, Größe der Maßeinheit und Richtung, in der vom Nullpunkt aus die Einheiten gewählt werden.
Die Verhältnis-Skala ist eine Erweiterung der Intervall-Skala. Werte, die hier abgetragen werden, haben zusätzlich einen natürlichen Nullpunkt! Damit verhalten sich die Zahlenwerte auch proportional zueinander. Hier muss es neben der definierten Maßeinheit auch einen „natürlichen“ Nullpunkt geben (wie den absoluten Nullpunkt der Kelvin –Temperaturskala, Körpergröße, etc.).

Beispielsweise wird das Gewicht aller Personen der Statistikvorlesung gemessen, wobei wir folgendes erwarten:

  1. Treten zwei gleiche Messergebnisse auf z.B. Person A wiegt 50 kg, ebenso Person B, so sind die dazugehörenden Studierenden gleich schwer. Der Gleichheit der Zahlen kommt eine entsprechende empirische Bedeutung zu: Die Gleichheit der Körper bezüglich ihres Gewichtes.
  2. Ist von zwei Messergebnissen das erste größer als das zweite, so ist auch der erste Student schwerer als der zweite. Der Ordnung der Zahlen kommt also eine entsprechende empirische Bedeutung zu: Der erste Körper ist schwerer als der zweite.
  3. Nehmen wir an, wir hätten bei den Studierenden A, B und C folgende Messwerte erhalten: A: 50 kg; B:75 kg; C: 100 kg. Jetzt erwarten wir, dass der Student A um genau soviel leichter als B ist, wie B leichter als C ist. Den gleichen Differenzen - nämlich 75-50 = 25 und 100-75 = 25 - kommt eine empirische Bedeutung zu.
  4. Wir erwarten, dass der Student C doppelt so schwer wie der Student A ist, da seine Maßzahl 100 kg doppelt so groß wie die von A ist. Dem Quotienten der Zahlen 100:50 = 2:1 = 2 kommt eine empirische Bedeutung zu.

Beim Messvorgang der Gewichtsmessung kommt allen vier Eigenschaften der reellen Zahlen eine sinnhafte empirische Bedeutung zukommt; die Relationen zwischen den Zahlen spiegeln analoge Relationen zwischen den Merkmalsausprägungen der Objekte. Daten, für die dies zutrifft, für die also Gleichheit, Ordnung, Gleichheit von Differenzen und Gleichheit von Quotienten eine empirische Bedeutung haben, nennt man auf einem Verhältnisniveau oder auf einer Verhältnisskala gemessen. Verhältnisskalen haben einen absoluten Nullpunkt.

Ist es möglich ein Merkmal bzw. eine Variable auf verschiedenen Datenniveaus zu messen? Illustrieren Sie ihre Argumentation anhand von zwei Beispielen. Für welche praktischen Bereiche ist diese Problemstellung relevant?


Übungsaufgabe, Eintrag in das Lerntagebuch
 

2.6 Auswertungszusammenhang
Die Frage, auf welchem Messniveau statistisch auszuwertende Datenmengen gewonnen wurden, ist von entscheidender Bedeutung, da die Stichprobenparameter (deskriptive Statistik) und die Verfahren zum Schätzen und Entscheiden (schließende Statistik) jeweils (u.a.) vom Messniveau der Daten abhängen. Bei den auf einem Ordinalniveau gemessenen Daten werden also andere Parameter berechnet und andere Entscheidungsverfahren verwendet als bei Daten, die z.B. auf dem metrischen Niveau gemessen wurden. Dabei gilt ein kumulatives Prinzip. Für jedes Messniveau können nicht nur die Stichprobenparameter, sondern auch alle Parameter, die ein niedrigeres Datenniveau erfordern berechnet werden. So können selbstverständlich bei rationalskalierten Daten nicht nur der Modus, sondern. Median und Mittelwert als Lagemaße berechnet werden.. In diesen Fällen wird jedoch nicht alle in den Daten vorhandene Information ausgenutzt - es wird auf empirisch bedeutsame Relationen zwischen den Zahlen verzichtet. Damit werden die Ergebnisse weniger exakt, als sie es bei der Ausschöpfung aller Information sein könnten. Anders formuliert: Es ist immer möglich, Daten so zu behandeln, als seien sie auf einem niedrigeren Niveau gemessen, sofern man den damit verbundenen Informationsverlust in Kauf nehmen will. Das umgekehrte Vorgehen jedoch, nämlich Daten so zu behandeln, als seien sie auf einem höheren Niveau gemessen, ist nicht erlaubt.

Welche Stichprobenparameter (Lage- und Streuungsmaße) sind bei ihren Variablen aus Aufgabe 1.1 bzw. 1.2 sinnvoll interpretierbar (Welches Datenniveau weisen diese auf)? Unterstützt Sie das SPSS bei dieser Entscheidung?


Übungsaufgabe, Eintrag in das Lerntagebuch
 

2.7 Entscheidungsbaum
http://www.mathe-online.at/materialien/Gerald.Forstner/files/Entscheidungsbaum.doc

Als kurze Zusammenfassung ein "Entscheidungsbaum" zur Frage des Datenniveaus und eine tabellarische Übersicht.
 
Lernpfadseite als User öffnen (Login)

Falls Sie noch kein registrierter User sind, können Sie sich einen neuen Zugang anlegen. Als registrierter User können Sie ein persönliches Lerntagebuch zu diesem Lernpfad anlegen.

 Zur Galerie
 Zu den Mathematischen Hintergründen
 Zum Lexikon
 Zu den interaktiven Tests
 Zu den Mathe-Links und Online-Werkzeugen
 Zur Welcome Page
   Übersicht über die Lernpfade
 Open Studio Materialien
 Open Studio Eingang
 Neuen Zugang anlegen
 Login