• Guten Start ins Wintersemester 2024/2025

Entscheidungsbaumverfahren leicht gemacht

Status
Für weitere Antworten geschlossen.
Unser Sponsor SAP 4 Students
Unser Sponsor
Da ich die Erklärungen des Lehrstuhls bezüglich der Algorithmen teils umständlich finde, habe ich angefangen einfache Übersichten der Verfahren anhand der Beispiele der KE 2 zu erstellen.

Als erstes ist so die beigefügte Anleitung zum Entscheidungsbaumverfahren entstanden, welche Schritt für Schritt alles notwendige erläutert.

Ich habe diese so erstellt, dass sie (hoffentlich) auch für euch und nachfolgende Semester hilfreich sein kann.

Über Feedback würde ich mich freuen.
 

Anhänge

Sowas könnte man für alle anderen Algorithmen erstellen.
Für Clusterung ist es zum Beispiel sehr hilfreich.

Gruß
Alexander
 
Ich sehe gerade, dass ich die Vorzeichen beim dritten Schritt falsch notiert habe, aber dennoch richtig gerechnet ^^. Ich stelle bald mal eine etwas überarbeitete Version online.
 
Ich schreibe die Klausur BI vom 22.09.2015. Ich habe alle alte Klausuren seit dem SS2012 auf der Webseite der Fernuni oder Moodle Plattform gefunden, außer der Klausur vom WS 2012/2013, ich wäre sehr dankbar sein, wenn mir jemand eine Kopie der Klausur WS2012/2013 zur Verfügung stellt.

Vielen Dank !
 
Hallo Zusammen,

Ich schreibe die Klausur BI vom 22.09.2015. Ich habe alle alte Klausuren seit dem SS2012 auf der Webseite der Fernuni oder Moodle Plattform gefunden, außer der Klausur vom WS 2012/2013, ich wäre sehr dankbar sein, wenn mir jemand eine Kopie der Klausur WS2012/2013 zur Verfügung stellt.

Vielen Dank !

Bevor du hier noch alle Forenbeitrage hijackst 😉
https://www.fernuni-hagen.de/wirtschaftswissenschaft/studium/download/pruefungen/32711_ws12-13.pdf
 
Danke für die Aufbereitung, das ist super!

Lernt Ihr eigentlich auch die beschriebenen Algorithmen? Ich muss gestehen, dass diese für mich noch eine Black-Box sind...

Und wie haltet Ihr es mir der Regressionsanalyse? Ich finde hierzu kein Rechenbeispiel zum Lernen...
 
Algorithmen schau ich mir gar nicht an. Das geht zeitlich ueberhaupt nicht. Ausserdem hatte ich ohnehin nicht verstanden, weshalb die im Skript angegeben sind. Wenn fuer eine formale Repraesentation eines Algorithmus ueberhaupt kein Bezugssystem angegeben ist, fehlt jegliche Moeglichkeit, diesen korrekt einzuordnen. Also .. war fuer mich echt voellig unverstaendlich. Ich glaube, sowas ist einfach bei den Mathematikern und Informatikern besser aufgehoben.

Regressionsanalyse weiss ich noch nicht. Ganz weglassen halte ich fuer gefaehrlich. Koennt schon mal was in der Richtung drankommen. Und wir hatten das ja auch alles schon in Statistik. Aber ich bin ohne Beispiel echt auch voellig ueberfordert. Hoffe sehr, dass der Kelch an uns voruebergeht.
 
hat jemand schon die Aufgabe mit dem Entscheidungsbaum in der Klausur von SS2012 durchgerechnet?

Irgendwie bekommen ich da Verständnisprobleme was die Aufgabenstellung angeht - soll man da jetzt anstatt der gewichteten Impurity mit der vorgegebenen Formel Impurity bestimmen?


Gruß
Alexander
 
Alexander,

Ich habe persönlich die Aufgabe mit der gewichteten Impurity, wie es aus dem Beispiel vom Lehrbrief beschrieben ist, durchgerechnet.

Ob es mit gewichteten Impurity oder mit der vorgegebenen Formel der Aufgabenstellung, bekommt man Anscheinend die gleichen Ergebnisse, nur dass es mit dem Formel der Aufgabenstellung weniger Rechnerei gibt, und somit auch Zeit gespart wird.

Der Tutor hat auch etwas auf Moodle darüber gesagt.
https://moodle.fernuni-hagen.de/mod/forum/discuss.php?d=886668

Hast du einen Vorschlag für Aufgabe 3c) ? Das würde mich interessieren.
Gruß
Ghassen
 
Wie hoch, glaubt ihr, steht die Wahrscheinlichkeit, dass Gini-Gain bzw. Information-Gain vorkommen ? Gini-Gain würde ich wohl noch schaffen (wobei nicht erklärt wird, wie man hier mit quantitativen Attributen umgehen soll). Information-Gain habe ich vorerst ausgelassen.

Viel Erfolg weiterhin!
 
ich hoffe nicht..
im Skript sind diese einfach viel zu wenig erklärt
mich nervt, dass es nicht überall einfach nachzuvollziehende Beispiele gibt..
 
Ich denke nicht das CART durchgerechnet werden muss, da der Pruning-Algo nicht erläutert wurde.
Ebenso ist bei C4.5 der Error-Based-Pruning nicht erläutert.

Kann natürlich sein, dass es als Teilaufgabe dran kommt... oder das Pruning nicht durchgeführt werden muss.

Ich weiß aber nicht, ob ich die beiden auf die Kette bekommen würde.
 
Moment. Ich habe gerade auf den falschen Algo geschaut.

Zum Verständnis:
GiniGain unterscheidet sich vom PurityGain ja nur dadurch, dass von 1 die Summe der Quadratzahlen abgezogen wird, anstatt die Anzahl der Elemente der dominierenden Klasse?

GainRatio müsste ich mir nochmal zu Gemüte führen.
 
Ja GiniGain ist noch recht einfach. Hier ist eine extrem gute Erklärung https://www.academia.edu/7032069/An_example_of_calculating_gini_gain_in_CART.
Mit dem Skript kann man hier ja leider relativ wenig anfangen.
InformationGain ist mir allerdings noch etwas schleierhaft ... ich glaube ich werde es riskieren und die Zeit lieber für andere Themen nutzen bspw. lineare Regression

P.S. In der Zusammenfassung zum Clustering ist glaube ich noch ein Fehler: Die Manhatten-Distanz ergibt sich aus den absoluten Differenzen der Features also Sum( abs(xi,q - xj,q) ). In der Zusammenfassung ist dort aber ein + angegeben.

Viel Erfolg euch !
 
Ich glaube mich zu erinnern dass man erst ein parr Beiträge posten muss, bevor man selbst was downloaden kann, weiss nicht mehr 5 odef 10, ich hab allerding schon mehrIch glaube mich zu erinnern dass man erst ein parr Beiträge posten muss, bevor man selbst was downloaden kann, weiss nicht mehr 5 odef 10, ich hab allerdings schon mehr als 250 und darf nicht (mehr?)
Antwort immer noch keine....
 
kann mir jemand bei Aufgabe 2b der Klausur SS 2012 helfen?
dort wird laut Musterlösung zuerst nach Einkommen gesplittet, ich würde aber zuerst nach Familienstand aufteilen.
Oder muss man irgendwie anders vorgehen, denn in der Aufgabenstellung steht "Spalten Sie für das Attribut für welches das arithmetische Mittel der Impurity minimal ist". Es gibt unter dem Thema "Intensive Klausurvorbereitung - Durchrechnen sämtlicher Klausuren" die Berechnung, aber dort verstehe ich die Logik nicht wirklich.

danke für eure Hilfe
 
Den Satz versteh ich auch nicht so ganz... Generell suchen wir ja die Gruppe, die sich am besten Clustern also zusammenfügen läßt.
Beim Einkommen errechnet sich die Reinheit (die Übereinkünfte) zu: 1/3*1+1/3*1+1/3+0,5=0,833
Beim Familienstand: 0,5*2/3 + 0,5 * 2/3 = 0,66
Da 0,833>0,66 wird nach Einkommen aufgeteilt, da mehr übereinstimmungen. (Näher an 1)
 
Status
Für weitere Antworten geschlossen.
Oben