Fragen zur Kurseinheit 1

Dr Franke Ghostwriter
Fragen zur KE 1

Die erste KE ist gelesen und die ersten Fragen tauchen auf.
Damit es übersichtlich bleibt, möchte ich hier nur Fragen zur KE 1 stellen
und würde mich über jeden Schlag auf den Hinterkopf freuen...
 
Die Definition einer Klasse lautet wie folgt:



Klasse =Zusammenfassung benachbarter Merkmalsausprägungen.


Hier Frage ich mich, was genau bedeutet "benachbart"?


Bei meinem Mind-Map hatte ich mir als Bsp. für eine Klasse "Geschlecht" notiert und als Merkmalsausprägungen (mögliche Werte) "weiblich" und "männlich".


Beim weiteren Lesen ergab sich jedoch, dass benachbarte Merkmalsausprägungen
z.B. "2,5" und "2,8" zur Klasse "3" zusammengefasst werden können. Dadurch kam mir der Gedanke, dass man z.B. sowohl "hellblond" und "dunkelblond" zur Klasse "blond" zusammenfassen könnte, aber genausogut die Ausprägungen "blond" und "brünett" zur Klasse "Haarfarbe". Kann man sogenannte "Ober-/Unterklassen" bilden oder gibt es einen genaue Definition von "benachbart"?


Wenn man nun "Ober-/Unterklassen" zu einem Merkmal bilden könnte, hängt die vorgenommene Klassifizierung unmittelbar damit zusammen, ob die Werte nur nominal oder auch ordinal bzw. kardinal messbar sein sollen? Also kann durch die Klassifizierung die Messbarkeit beeinflusst werden oder legt die einem Merkmal gegebene Messbarkeit die mögliche Klassifizierung fest?
Für ein nominal messbares Merkmal wie "Geschlecht" ist mir die Anwort klar, aber nicht z.B. für ein kardinal messbaren Wert...
 
Übungsaufgabe 3, Seite 27

Hier hatte ich zwar alle Kreuzchen richtig, aber nachdem ich auf die "Pseudokardinalskalen" gestoßen bin, Frage ich mich, ob das eher ein glücklicher Zufall war.

Der Lösungsansatz war nämlich folgender:

diskretes Merkmal = ganze Zahl
stetiges Merkmal = reelle Zahl

Darf der Ansatz so bleiben?
 
Übungsaufgabe 4h), Seite 28

Die Anzahl der Verkehrsunfälle hatte ich als nominal messbar eingestuft, laut ML ist sie jedoch kardinal messbar. Bei der Anzahl liegt zwischen jedem Unfall der Abstand 1 (wenn kein zeitlicher Bezug gemeint ist, z.B. Unfälle pro Jahr).
Aber wie kann ich eine Rangfolge festlegen? Ein Unfall kann doch nicht schlechter oder besser sein, es sei denn ich messe diese an der Anzahl der Verletzten/Todesopfer je Unfall, aber davon steht hier ja nichts. Und ohne Rangfolge "überspringe" ich doch die Ordinal-Skala...
 
S. 33 zu Klassengrenzen:

Hier steht, dass die Grenzen so gewählt werden sollten, dass die Beobachtungswerte nicht auf diese fallen. Ansonsten gibt es nur eine Klassengrenze (oben oder unten).

Also wären die in Beispiel 30 unter "sondern" und "oder" aufgeführten Klassen geschlossen, da die obere als auch die untere Grenzen gegeben ist.

Meine Frage zielt nun auf den Fall ab, dass nur eine Grenze gewählt wird.

Für das Intervall [tex](x^*_j,x^*_j+1][/tex] = linksoffen bzw. obenoffen
wird die Regel "über... bis einschließlich" verwendet.

Es ist also die Seite (oben/unten) offen, auf die die Beobachtungswerte fallen?
Irgendwie verwirrt mich dabei "einschließlich", da das Wort eigentlich eine Grenze assoziiert.


Wenn mehrere Intervalle gegeben sind, können nur die Randklassen offen sein und zwar die untere/erste Randklasse unten und die obere/letzte Randklasse oben. Alle Klassen dazwischen müssen geschlossen sein. Richtig?
 
Ist eine Eigenschaft eines Merkmalsträgers für eine statistische Analyse relevant, wird sie als Merkmal X bezeichnet.

Entspricht dieses Merkmal X dann der Klasse z.B. Geschlecht oder bereits dem Merkmalswert z.B. weiblich ?


So jetzt bin ich zum Ende gekommen und hoffe, das waren nicht so viele Fragen wie Seiten... 😱
 
Lassen sich die Begriffe "Teilerhebung" (Erfassung) und "Stichprobe" (Analyse) uneingeschränkt gleichsetzen oder kann man aus einer Teilerhebung auch noch eine sinnvolle Stichprobe ziehen?

Der Unterschied zwischen den beiten Begriffen ist eher formaler Natur. Wenn man von einer Stichprobe spricht, kann man davon ausgehen, dass man auf die Grundgesammtheit uneingeschränkt zugriff gehabt hätte, aber dies vorsätzlich nicht gemacht hat. Banales Beispiel: Ich steche mit dem Löffel ein Gramm Butter von einem 250g Block ab und mache einen Geschmackszet auf Ranzigkeit. (Damit dürfte dann auch klar sein, woher sich der Begriff entwickelt hat). Ich hätte auch die Butter aufessen können. Das Ergebnis Ranzig oder nicht wäre aber höchstwarscheinlich gleich geblieben.
Bei einer Teilerhebung, kann dies zwar auch zutreffen, es kann alber auch die Unmöglichkeit des Zugriffs auf die Gesammtmenge zutreffen. Banales Beispiel : Wahlen. Insbesondere da keine Wahlpflicht herrscht ist es unmöglich die Stimmen aller Wahlberechtigten zu erhalten.

Auch die Stichprobe aus einer Teilerhebung kann zu einem Sinnvollen ergebnis führen. Hier ein Beispiel aus der Medizin.
Man gibt eine Urinprobe ab. Es ist eher ungewöhlich, dass es sich hierbei um die komplette Füllmenge der Blase handelt. Somit besteht hierbei bereit eine Teilerhebung. Der/ die Laborant/in wird davon wiederum nur soviel verwenden, wie das Analysegerät benötigt. Da aus Sicht des Labors des Labors Zugriff auf die gesammte Urinprobe besteht, stellt die tats. Analysemenge eine Stichprobe dar.
 
Die Definition einer Klasse lautet wie folgt:





Klasse =Zusammenfassung benachbarter Merkmalsausprägungen.


Hier Frage ich mich, was genau bedeutet "benachbart"?


Bei meinem Mind-Map hatte ich mir als Bsp. für eine Klasse "Geschlecht" notiert und als Merkmalsausprägungen (mögliche Werte) "weiblich" und "männlich".


Beim weiteren Lesen ergab sich jedoch, dass benachbarte Merkmalsausprägungen
z.B. "2,5" und "2,8" zur Klasse "3" zusammengefasst werden können. Dadurch kam mir der Gedanke, dass man z.B. sowohl "hellblond" und "dunkelblond" zur Klasse "blond" zusammenfassen könnte, aber genausogut die Ausprägungen "blond" und "brünett" zur Klasse "Haarfarbe". Kann man sogenannte "Ober-/Unterklassen" bilden oder gibt es einen genaue Definition von "benachbart"?


Wenn man nun "Ober-/Unterklassen" zu einem Merkmal bilden könnte, hängt die vorgenommene Klassifizierung unmittelbar damit zusammen, ob die Werte nur nominal oder auch ordinal bzw. kardinal messbar sein sollen? Also kann durch die Klassifizierung die Messbarkeit beeinflusst werden oder legt die einem Merkmal gegebene Messbarkeit die mögliche Klassifizierung fest?
Für ein nominal messbares Merkmal wie "Geschlecht" ist mir die Anwort klar, aber nicht z.B. für ein kardinal messbaren Wert...
Du denkst zu kompliziert.


Klassen werden gebildet, wenn ich Daten von zu vielen Ausprägungswerten habe und diese somit nicht mehr ausagekräftig darstellbar sind. Das Merkmal Geschlecht ist somit nicht sinnvoll klassifizierbar, da es nur drei Merkmale (makulin, feminin, neutral) ausweisen kann. Die einzige Klassifizierung, die mir hierzu einfällt ist "geschlechtlich"(= m + f) und "ungeschlechtlich"(= n)
Eine Klasse ist für die Statistik eigentlicht nichts anderes als ein Verzeichnis beim Rechner oder ein Aktenordner im Büro. Ich Strukturiere meine Daten. Hierzu ein Beispiel Bevölkerungsstatistik von Deutschland.
Die Daten werden erhoben durch die Meldeämter der Städte und Kreise.
Damit häst du für das Merkmal Bewohner so viele Ausprägungswerte, wie es Meldeämter gibt. In der Folge wäre es unter Umständen sinnvoll die Daten der Meldeämter eines Regierungsbezirks zusammen zu fassen. Damit haben wir die Klasse Regierungsbezirk. Diesse Lassen sich nun zur Klasse Bundesland zusammenfassen, welche dann zur Oberklasse wird.

Ob das Merkmal ordninal oder anders ist, beinflusst Art der Zusammenfassbarkeit. Es ist somit nicht sinnvoll eine Klassenstruktur zu wählen, bei der ich keine Daten zusammenfassen kann.
 
Übungsaufgabe 3, Seite 27

Hier hatte ich zwar alle Kreuzchen richtig, aber nachdem ich auf die "Pseudokardinalskalen" gestoßen bin, Frage ich mich, ob das eher ein glücklicher Zufall war.

Der Lösungsansatz war nämlich folgender:

diskretes Merkmal = ganze Zahl
stetiges Merkmal = reelle Zahl

Darf der Ansatz so bleiben?

Aus dem Bauch raus würde ich sagen ja, solange du im Hinterkopf behältst was den grundsätzlichen Unterschied zwischen einer ganzen und einer reelen Zahl ausmacht.
 
Übungsaufgabe 4h), Seite 28

Die Anzahl der Verkehrsunfälle hatte ich als nominal messbar eingestuft, laut ML ist sie jedoch kardinal messbar. Bei der Anzahl liegt zwischen jedem Unfall der Abstand 1 (wenn kein zeitlicher Bezug gemeint ist, z.B. Unfälle pro Jahr).
Aber wie kann ich eine Rangfolge festlegen? Ein Unfall kann doch nicht schlechter oder besser sein, es sei denn ich messe diese an der Anzahl der Verletzten/Todesopfer je Unfall, aber davon steht hier ja nichts. Und ohne Rangfolge "überspringe" ich doch die Ordinal-Skala...

Ich glaube du verwechselst hier Kardinal mit Ordninal.
Eine kleine Eselsbrücke hierzu. Im Englischen heist Reihe ja order somit kann man sich merken, dass Ordinal mit Reihen(folgen) zu tun hat.

Oder du nimmst die mathematische Definition aus der Mengenlehre, wo die Mächtigkeit über Kardinalzahlen und die Position in der Menge über Ordinalzahlen wiedergegeben wird.
 
S. 33 zu Klassengrenzen:

Hier steht, dass die Grenzen so gewählt werden sollten, dass die Beobachtungswerte nicht auf diese fallen. Ansonsten gibt es nur eine Klassengrenze (oben oder unten).

Also wären die in Beispiel 30 unter "sondern" und "oder" aufgeführten Klassen geschlossen, da die obere als auch die untere Grenzen gegeben ist.

Meine Frage zielt nun auf den Fall ab, dass nur eine Grenze gewählt wird.

Für das Intervall [tex](x^*_j,x^*_j+1][/tex] = linksoffen bzw. obenoffen
wird die Regel "über... bis einschließlich" verwendet.

Es ist also die Seite (oben/unten) offen, auf die die Beobachtungswerte fallen?
Irgendwie verwirrt mich dabei "einschließlich", da das Wort eigentlich eine Grenze assoziiert.


Wenn mehrere Intervalle gegeben sind, können nur die Randklassen offen sein und zwar die untere/erste Randklasse unten und die obere/letzte Randklasse oben. Alle Klassen dazwischen müssen geschlossen sein. Richtig?


Eine Randklasse kann auch geschlossen sein, wenn diese beide Grenzwerte aufweist.
Häufig gibt es bei Randklassen aber nur einen Grenzwert <ob.Gw oder >unt.Gw , dann sind sie offen. Die Zwischenklassen sind immer geschlossen aber ein Randwert muss ausgeschlossen sein, da jeder Wert immer nur zu einer Klassse gehören darf. Würde eine Wert zu zwei Klassen gehören, würde dann eine Doppelbewertung erfolgen.
 
Ist eine Eigenschaft eines Merkmalsträgers für eine statistische Analyse relevant, wird sie als Merkmal X bezeichnet.

Entspricht dieses Merkmal X dann der Klasse z.B. Geschlecht oder bereits dem Merkmalswert z.B. weiblich ?


So jetzt bin ich zum Ende gekommen und hoffe, das waren nicht so viele Fragen wie Seiten... 😱
Meine Antwort zur Klassendefinition, sollte auch diese Frage beantworten.
 
Übungsaufgabe 3, Seite 27

Hier hatte ich zwar alle Kreuzchen richtig, aber nachdem ich auf die "Pseudokardinalskalen" gestoßen bin, Frage ich mich, ob das eher ein glücklicher Zufall war.

Der Lösungsansatz war nämlich folgender:

diskretes Merkmal = ganze Zahl
stetiges Merkmal = reelle Zahl

Darf der Ansatz so bleiben?

Nein, das kann man nicht so einfach gleichsetzen. Denn es kommt nur darauf an, ob es abzählbar viele oder unendlich viele Werte gibt.
Man könnte zB ein Merkmal haben, das 5 verschiedene reelle Zahlen als mögliche Merkmalswerte hat - dann ist es diskret.
Können die Merkmalswerte nur ganze Zahlen annehmen, ist das Merkmal stets diskret.
Bei den Übungsaufgaben muss man ein wenig aufpassen... Ü3 d) Einkommen: hier finde ich die Musterlösung nicht zwingend befriedigend.
 
S. 33 zu Klassengrenzen:

Hier steht, dass die Grenzen so gewählt werden sollten, dass die Beobachtungswerte nicht auf diese fallen. Ansonsten gibt es nur eine Klassengrenze (oben oder unten).

Also wären die in Beispiel 30 unter "sondern" und "oder" aufgeführten Klassen geschlossen, da die obere als auch die untere Grenzen gegeben ist.

Meine Frage zielt nun auf den Fall ab, dass nur eine Grenze gewählt wird.

Für das Intervall [tex](x^*_j,x^*_j+1][/tex] = linksoffen bzw. obenoffen
wird die Regel "über... bis einschließlich" verwendet.

Es ist also die Seite (oben/unten) offen, auf die die Beobachtungswerte fallen?
Irgendwie verwirrt mich dabei "einschließlich", da das Wort eigentlich eine Grenze assoziiert.


Wenn mehrere Intervalle gegeben sind, können nur die Randklassen offen sein und zwar die untere/erste Randklasse unten und die obere/letzte Randklasse oben. Alle Klassen dazwischen müssen geschlossen sein. Richtig?

Du wirfst ein paar grundlegend verschiedene Dinge durcheinander:
1. Klassen mit zwei Grenzen, aber einem offenen Intervall
2. offene RandKlassen

Offene Randklassen können von Natur aus nur am Rand, also als erste oder letzte der geordneten Klassen, vorkommen. Sie haben stets nur eine Grenze. Oben offene Randklassen haben eine untere Grenze, unten offene Randklassen haben eine obere Grenze. Wie aber schon geschrieben wurde, müssen Randklassen nicht zwingend offen sein.

Alle dazwischen liegenden Klassen haben zwingend zwei Grenzen und sind daher geschlossen. Die Frage ist nur, welche dieser Grenzen zur Klasse gehört und welche nicht. Bsp 30 macht deutlich, dass nicht beide Grenzen zur Klasse gehören dürfen, da sich sonst die Klassengrenzen in zwei benachbarten Klassen wiederfinden würden, was nicht sein darf. Auch die Klassengrenzen müssen einer Klasse eindeutig zugeordnet sein. Nun kann man zwei unterschiedliche Einteilungen verwenden, die in Bsp 30 unter "sondern" und "oder" aufgeführt sind. Das eine Mal wird immer die obere Grenze zur Klasse gezählt, die untere nicht (sprachlich: über 10 bis (einschließlich) 11). Dies wird durch das Intervall (10,11] ausgedrückt, was nix anderes bedeutet, dass es sich um ein (unten) halboffenes Intervall handelt. Das darf man aber nicht mit einer (halb)offenen Klasse verwechseln !! Während eine offene Randklasse keine Unter- oder Obergrenze hat, führt ein halboffenes Intervall stets zu zwei Grenzen. Es gibt lediglich an, welche der Grenzen zum Intervall gehört und welche nicht. Im Beispiel gehört die 11 dazu, die 10 nicht. Der andere Fall [10,11) ist vice versa zu interpretieren. Es handelt sich um eine geschlossene Klasse mit zwei Klassengrenzen 10 und 11, allerdings um ein (oben) halboffenes Intervall, was bedeutet, dass die 10 zur Klasse, die 11 nicht zur Klasse gehört. Sprachlich zu umschreiben mit "(einschließlich) 10 bis unter 11".
Theoretisch könnte man auch mischen (aber Vorsicht!)

Für die weiteren KE (Summenhäufigkeitsverteilungen etc) werden üblicherweise unten offene Intervalle (denk dran, es sind geschlossene KLassen!) verwendet, also (10,11] = über 10 bis einschließlich 11.
 
Nein, das kann man nicht so einfach gleichsetzen. Denn es kommt nur darauf an, ob es abzählbar viele oder unendlich viele Werte gibt.
Man könnte zB ein Merkmal haben, das 5 verschiedene reelle Zahlen als mögliche Merkmalswerte hat - dann ist es diskret.
Können die Merkmalswerte nur ganze Zahlen annehmen, ist das Merkmal stets diskret.
Bei den Übungsaufgaben muss man ein wenig aufpassen... Ü3 d) Einkommen: hier finde ich die Musterlösung nicht zwingend befriedigend.

Deshalb habe ich bei meiner Erklärung darauf hingewiesen, dass man den Unterschied zwischen ganzer und reeler Zahl im Hinterkopf behalten muss.
Die Frage nach dem Gehalt wird deshalb so oft falsch beantwortet, da es für die meisten eine Obergrenze hat und somit fälschlicherweise als abzählbar interpretiert wird. Was vergessen wird ist, das es selbst in einem geschlossenen reelen Intervall unendlich viele Werte gibt. Selbst die Distanz zwischen einem und zwei Euro ist nicht abzählbar, solage der Betrachtungsraum nicht explizit auf Bargeld eingeschränkt wird.
 
Die Frage nach dem Gehalt wird deshalb so oft falsch beantwortet, da es für die meisten eine Obergrenze hat und somit fälschlicherweise als abzählbar interpretiert wird. Was vergessen wird ist, das es selbst in einem geschlossenen reelen Intervall unendlich viele Werte gibt. Selbst die Distanz zwischen einem und zwei Euro ist nicht abzählbar, solage der Betrachtungsraum nicht explizit auf Bargeld eingeschränkt wird.

Vollkommen richtig, bis auf die Obergrenze 😉
(hm, habe grad noch einmal deinen Post gelesen und fest gestellt, dass ich mal wieder etwas oberflächlich gelesen habe... lasse meine Anmerkungen zur allgemeinen Erläuterung aber trotzdem stehen, ok? 🙂)

Entscheidend ist, was in einem geschlossenen Intervall passiert: wie du richtigerweise klarstellst, gibt es in einem geschlossenen reellen Intervall unendlich viele Werte. Handelt es sich um ein diskretes Merkmal, so sind die Werte (im geschlossenen Intervall) abzählbar. Auf die Endlichkeit (=Existenz einer Obergrenze) kommt es nicht an. So sind zB die natürlichen Zahlen ebenfalls diskret, auch wenn sie unendlich sind (sozusagen eine abzählbare Unendlichkeit). vgl für eine exakte Definition Diskretheit ? Wikipedia

Noch einmal kurz zum Einkommen:
Das Einkommen wird in aller Regel in Euro (und Cent) angegeben. Drückt man das Einkommen in Cent aus, würden nur ganze Zahlen berücksichtigt, das Merkmal wäre diskret (selbst wenn es keine Obergrenze gibt, s.o.). Dies ist jedoch, wie du ja schon dargestellt hast, nur eine vereinfachte Sicht der Dinge, da es sich ja nicht zwingend um Bargeld handeln muss und daher die Beschränkung auf ganze Cent-Beträge willkürlich ist. Denkt man z.B. an die Euro-DM-Umrechnung, fällt gleich auf, dass jeder Bruchteil eines Cents ebenfalls möglich ist - das Merkmal ist insofern stetig.

Meine Anmerkung zum Einkommen und meine Unzufriedenheit bzgl der Musterlösung bezieht sich auf die ebenfalls willkürliche Vereinfachung auf den bargeldlosen Fall...
 
Oben