Klausur SS 2012

Schwierigkeit der Klausur

  • Einfach

    Votes: 0 0,0%
  • Mittel

    Votes: 5 45,5%
  • Schwer

    Votes: 6 54,5%

  • Total voters
    11
#1
Hallo Leute,

ich wollte mich mal bei den Mitschreibern der ersten BI-Klausur erkundigen wie schwer ihr sie fandet? Auf was muss man sich einstellen? Gebt doch bitte mal ein paar Infos preis.

Grüße aus Nürnberg
 
#2
Hallo,

ja, ich würde mich ebenfalls über ein Klausurfeedback freuen. Ob Eure Erwartungshaltung (z. B. Aufwand Lern- zu Klausurthemen) erfüllt wurde oder eher "fiese" Randthemen abgefragt wurden? Wie die Klausur im Vergleich zur IT-Governance Klausur einzuordnen ist?

Vielen Dank
 
#3
Hallo zusammen,

habe heute die Klausur geschrieben. Der Aufbau war genauso wie bei den Einsendearbeiten.
Aufgabe 1 war eine Ankreuzaufgabe und Aufgabe 4 waren Wahr-Falsch-Aussagen.
Bei Aufgabe 2 war das Entscheidungsbaumverfahren anzuwenden und bei Aufgabe 3 das hierarchisch-agglomerative-Clustering.
Ich persönlich fand es schade, das 3/4 (60 Punkte) der Klausur sich um das Thema Data Mining gedreht haben. Zum Thema DWH und OLAP kamen lediglich 2 wahr-falsch-Aussagen dran.
Zu KE 4 kam nichts dran.
Alles in allem eine machbare Klausur, jedoch zu sehr auf Data Mining fokussiert.
 
#5
war unterteilt in a,b, und c. ging um data mining.
Frage a: Welche Ziele können mit Datat Mining erreicht werden und Entscheidungsbaumverfahren erklären.
Frage b: entscheidungsbaumverfahren anwenden. Baum konstruieren etc.
Frage c: wie kann der baum optimiert werden oder so ählich =)
 
#19
Ich hatte bei Aufgabe 2 b das Problem, wie ich mit "... das arithmetische Mittel der Impurity ..." umgehe. Ich bin auf das Einkommen als erste Spaltung gekommen, aber nur durch "scharfes hinschauen".
Wie würde der Weg über die Impurity gehen?
 
#20
Impurity (Einkommen=niedrig) = min(ja=0%, nein=100%)
> Impurity = 0% = reiner Knoten

Impurity (Einkommen=mittel) = min(ja=100%, nein=0%)
> Impurity = 0% = reiner Knoten

Impurity (Einkommen=hoch) = min(ja=50%, nein=50%)
> Impurity = 50% = unreiner Knoten

Arithmetisches Mittel für Impurity(Einkommen) = (0 + 0 + 50)%3=16,67


Impurity (Alter<40) = min(ja=50%, nein=50%)
> Impurity = 50% = unreiner Knoten

Impurity (Alter>=40) = min((ja=50%, nein=50%)
> Impurity = 50% = unreiner Knoten

Arithmetisches Mittel für Impurity(Alter) = (50 + 50)%2=50


Impurity (Familienstand=ledig) = min(ja=33%, nein=66%)
> Impurity = 33% = unreiner Knoten

Impurity (Familienstand=verheiratet) = min(ja=66%, nein=33%)
> Impurity = 33% = unreiner Knoten

Arithmetisches Mittel für Impurity(Familienstand) = (33+ 33)%2=33


Impurity (Geschlecht=männlich) = min(ja=66%, nein=33%)
> Impurity = 33% = unreiner Knoten

Impurity (Geschlecht=weiblich) = min(ja=33%, nein=66%)
> Impurity = 33% = unreiner Knoten

Arithmetisches Mittel für Impurity(Geschlecht) = (33+ 33)%2=33

Und darum würdest du mit dem Einkommen anfangen, weil die Impurity minimal ist. Hoffe das stimmt so :)
 
#24
Hallo edstrinova,

ich stimme deiner generellen Berechnung für die Impurity zu! Ich habe das ähnlich gerechnet. Ich habe aber bei den Impurity Zahlen jeweils die Anzahl der Datensätze der übergeordneten Knoten genommen.

Bsp:
für Einkommen:
niedrig: min {0/12;4/12} = 0
mittel: min {4/12;0/12} = 0
hoch: min {2/12;2/12} = 2/12

und dann das Mittel berechnet: (0+0+2/12) * 1/3 = 1/18

=> Komme somit auf den gleichen Baum.

Ich bin mir nicht ganz sicher, welche Berechnung richtig ist. Im Moment würde ich eher zu deinem Ansatz tendieren, bin mir aber etwas unsicher. Denn im Skript steht:

.. d.h. bei dem die Datensätze in einem Knoten sich am meisten ähneln...

Nach meinem Verständnis würde somit der Purity / Impurity Gedanke sich auf die Anzahl der Datensätze im Kindknoten und nicht auf die Gesamtanzahl beziehen. Was meint ihr?

Danke für die Antwort.

Grüße
Jonathan
 
#25
Im Grunde genommen jetzt gar nicht so wichtig. Denn auf diesen feinen Unterschied wird es in einer Klausur nie ankommen. Bau mal eine Tabelle mit so wenigen Einträgen, dass dann am Ende ein Unterschied herauskommt. :)
 
#26
Hallo zusammen,

Unten poste ich meine Lösung von der Aufgabe 3b. Kommt jemand von Euch zum gleichen Lösungsweg?

D(0) 1 4 5 8 9 10
1
4 12,05
5 2,24 14,15
8 5,12 8,96 6,39
9 16,1 4,58 18,05 12,17
10 17,01 5,1 19,03 13,35 1,62
D(1) 1 4 5 8 9, 10
1
4 12,05
5 2,24 14,15
8 5,12 8,96 6,39
9, 10 16,1 4,58 18,05 12,17
D(2) 1, 5 4 8 9, 10
1, 5
4 12,05
8 5,12 8,96
9, 10 16,1 4,58 12,17

D(3) 1, 5 8 4, 9, 10
1, 5
8 5,12
4, 9, 10 12,05 8,96

D(3) 1, 5, 8 4, 9, 10
1, 5, 8
4, 9, 10 8,96
 
#28
Hallo zusammen,

Unten poste ich meine Lösung von der Aufgabe 3b. Kommt jemand von Euch zum gleichen Lösungsweg?

D(0) 1 4 5 8 9 10
1
4 12,05
5 2,24 14,15
8 5,12 8,96 6,39
9 16,1 4,58 18,05 12,17
10 17,01 5,1 19,03 13,35 1,62
D(1) 1 4 5 8 9, 10
1
4 12,05
5 2,24 14,15
8 5,12 8,96 6,39
9, 10 16,1 4,58 18,05 12,17
D(2) 1, 5 4 8 9, 10
1, 5
4 12,05
8 5,12 8,96
9, 10 16,1 4,58 12,17

D(3) 1, 5 8 4, 9, 10
1, 5
8 5,12
4, 9, 10 12,05 8,96

D(3) 1, 5, 8 4, 9, 10
1, 5, 8
4, 9, 10 8,96
Ich habe genau die gleichen Werte !

Aber man braucht schon sehr lange dafür ... nix mit 15 Minuten .. eher 25 ...
 
#32
Es geht darum, dass die Werte nicht normiert sind und somit Verzert (ein Problem beim Clustering) man sollte also die Werte vorher auf ein Intervall [0,1] normieren... ID9und 1 als Beispiel: wenn statt 1,8 dort 1800 steht, dann wird das Einkommen viel stärker gewichtet als das Alter... 3,3-1,8 ist 1,5 hoch 2 gleich 2,25 ... 3300-1800 ist 1500 hoch 2 gleich 2250000 vergleichen mit der Haushaltsgröße von 3-2 = 1 zum Quadrat = 1 ist 2250000 gegenüber 1 "etwas" stärker im Gewicht als 2,25 zu 1 :) So kann es dazu kommen, es kann so kommen, dass andere cluster gebildet werden, wenn das Einkommen in in Euro angegeben wird.. und in diesem Fall ist es auch so.. Lösung wie schon gesagt: Normierung
 
#34
Hallo zusammen,

kurze Frage zur 2b.

Nachdem im ersten Schritt nach dem Einkommen sortiert wird, folgt bei mir der nächste Knoten anhand des Alters.

Filtert man dort nach dem Durchschnittsalter der gesamten Datenbasis (40 Jahre) oder von den übrig gebliebenen 4 Leuten (45 Jahre)?


Danke Gruß
 
#39
Ich habe immer das Attribut mit der geringsten Gesamt-Impurity gewählt.
Erster Knoten ist Einkommen. (Niedrig und Mittel ist ein Endknoten)
Zweiter Knoten ist Alter (45 Jahre). (Unter 45 Jahre ist ein Endknoten)
Dritter Knoten ist Familienstand.

Danach sind alle Knoten rein.



Die Vorgehensweis ist doch so, dass ich immer die geringste Gesamt-Impurity nehme oder?
 
#42
Ja, richtig. Erst nach Familienstand. Dann hat man schon zwei reine Endknoten.
Den dritten Knoten nach Familienstand, dann ergeben sich wieder zwei reine Endknoten.
Wie in Moodel auch beschrieben.
 
#43
Korrektur:
Ja, richtig. Erst nach Einkommen. Dann hat man schon zwei reine Endknoten.
Den dritten Knoten nach Familienstand, dann ergeben sich wieder zwei reine Endknoten.
Wie in Moodel auch beschrieben.
 
#44
Kann mir jemand helfen bei der Aufgabe 3b) der Einsendeaufgabe (Einheit 2) in diesem Semester ?? Ich verstehe einfach nicht, wie man da auf die Werte bei der Ähnlichkeitsmatrix nach dem Clustern kommt. Ich dachte man muss das mit der Formel auf Seite 99 machen, komme da aber auf keinen einzigen Wert...
 
#45
Okay. Habe nochmal die Aufgabe gemacht.

Erst nach Einkommen dann nach Familienstand.
Bin in den Zeilen verrutscht.


Jetzt nochmal ein bisschenData Mining Brainstormen und dann sollte es morgen klappen.


Viele Erfolg allen morgen.
 
#47
Für alle die mit der SS2012 für eine Klausur üben meine Lösung für Aufgabe 1 und 4:
1.
A, B, D, A
4.
a.) r
b.) r
c.) r
d.) f
e.) r
f.) r
g.) r
h.) f
i.) f
j.) f
 
#48
Hi,
die Aufgaben 2 und 3 will ich gar nicht beantworten :)
Aber ich habe andere Lösungen:
1)
A, B, D, C (s. Tabelle S. 42 KE 2)

4)
a) F (S. 12 KE 3, Beziehungsmerkmal, Metadaten sind erst durch konkrete Bezugsdaten interpretierbar)
b) R
c) F (S. 15 KE 3, Metadaten sind für den Endanwender nur schwierig zu finden, z.T. auch als impliziertes Wissen in den Köpfen der Mitarbeiter
d) F
e) R
f) R
g) R
h) F
i) F
j) F

Gutes Gelingen morgen.
LG
Iris
 
#49
Hallo,

kann mir einer sagen wie ich auf die Lösung in der Aufgabe 3b komme? ICh kenne zwar die Distanz-Formel, abe rich weiß nicht welche Zahlen ich wie in die Formel einsetzen soll.

Kann mir da jemand weiterhelfen?

Danke,
Ole