Entscheidungsbaumverfahren leicht gemacht

Kristin87 · 6 September 2015

Da ich die Erklärungen des Lehrstuhls bezüglich der Algorithmen teils umständlich finde, habe ich angefangen einfache Übersichten der Verfahren anhand der Beispiele der KE 2 zu erstellen.

Als erstes ist so die beigefügte Anleitung zum Entscheidungsbaumverfahren entstanden, welche Schritt für Schritt alles notwendige erläutert.

Ich habe diese so erstellt, dass sie (hoffentlich) auch für euch und nachfolgende Semester hilfreich sein kann.

Über Feedback würde ich mich freuen.

rodeo · 6 September 2015

Super Idee!!!

rodeo · 7 September 2015

Sowas könnte man für alle anderen Algorithmen erstellen.
Für Clusterung ist es zum Beispiel sehr hilfreich.

Gruß
Alexander

Piffus · 7 September 2015

Hoi Kristin

Finde ich super - und bin gespannt auf die weiteren Algorithmen!

Dani15 · 7 September 2015

Super vielen Dank!!!!

bliet · 7 September 2015

Ich hatte mir mal das Cluster-Beispiel zum lernen anders aufbereitet. Vielleicht hilft es ja jemanden. Ich habe die Rechnung aber nicht bis zum Ende aufgeführt, sondern nur für jeden Schritt ein Beispiel.

bliet · 7 September 2015

Ich sehe gerade, dass ich die Vorzeichen beim dritten Schritt falsch notiert habe, aber dennoch richtig gerechnet ^^. Ich stelle bald mal eine etwas überarbeitete Version online.

bliet · 7 September 2015

Überarbeitete Version. (Kann man in diesen Forum Beiträge nicht editieren?)

Ghassen · 8 September 2015

Ich schreibe die Klausur BI vom 22.09.2015. Ich habe alle alte Klausuren seit dem SS2012 auf der Webseite der Fernuni oder Moodle Plattform gefunden, außer der Klausur vom WS 2012/2013, ich wäre sehr dankbar sein, wenn mir jemand eine Kopie der Klausur WS2012/2013 zur Verfügung stellt.

Vielen Dank !

Kristin87 · 9 September 2015

Ghassen schrieb:
Hallo Zusammen,

Ich schreibe die Klausur BI vom 22.09.2015. Ich habe alle alte Klausuren seit dem SS2012 auf der Webseite der Fernuni oder Moodle Plattform gefunden, außer der Klausur vom WS 2012/2013, ich wäre sehr dankbar sein, wenn mir jemand eine Kopie der Klausur WS2012/2013 zur Verfügung stellt.

Vielen Dank !

Bevor du hier noch alle Forenbeitrage hijackst 😉
https://www.fernuni-hagen.de/wirtschaftswissenschaft/studium/download/pruefungen/32711_ws12-13.pdf

Finne86 · 11 September 2015

Anbei die Klausur vom WS 2012/13.

Poshi · 12 September 2015

Danke für die Aufbereitung, das ist super!

Lernt Ihr eigentlich auch die beschriebenen Algorithmen? Ich muss gestehen, dass diese für mich noch eine Black-Box sind...

Und wie haltet Ihr es mir der Regressionsanalyse? Ich finde hierzu kein Rechenbeispiel zum Lernen...

quijote · 12 September 2015

Algorithmen schau ich mir gar nicht an. Das geht zeitlich ueberhaupt nicht. Ausserdem hatte ich ohnehin nicht verstanden, weshalb die im Skript angegeben sind. Wenn fuer eine formale Repraesentation eines Algorithmus ueberhaupt kein Bezugssystem angegeben ist, fehlt jegliche Moeglichkeit, diesen korrekt einzuordnen. Also .. war fuer mich echt voellig unverstaendlich. Ich glaube, sowas ist einfach bei den Mathematikern und Informatikern besser aufgehoben.

Regressionsanalyse weiss ich noch nicht. Ganz weglassen halte ich fuer gefaehrlich. Koennt schon mal was in der Richtung drankommen. Und wir hatten das ja auch alles schon in Statistik. Aber ich bin ohne Beispiel echt auch voellig ueberfordert. Hoffe sehr, dass der Kelch an uns voruebergeht.

rodeo · 12 September 2015

hat jemand schon die Aufgabe mit dem Entscheidungsbaum in der Klausur von SS2012 durchgerechnet?

Irgendwie bekommen ich da Verständnisprobleme was die Aufgabenstellung angeht - soll man da jetzt anstatt der gewichteten Impurity mit der vorgegebenen Formel Impurity bestimmen?

Gruß
Alexander

Ghassen · 12 September 2015

Alexander,

Ich habe persönlich die Aufgabe mit der gewichteten Impurity, wie es aus dem Beispiel vom Lehrbrief beschrieben ist, durchgerechnet.

Ob es mit gewichteten Impurity oder mit der vorgegebenen Formel der Aufgabenstellung, bekommt man Anscheinend die gleichen Ergebnisse, nur dass es mit dem Formel der Aufgabenstellung weniger Rechnerei gibt, und somit auch Zeit gespart wird.

Der Tutor hat auch etwas auf Moodle darüber gesagt.
https://moodle.fernuni-hagen.de/mod/forum/discuss.php?d=886668

Hast du einen Vorschlag für Aufgabe 3c) ? Das würde mich interessieren.
Gruß
Ghassen

Poshi · 12 September 2015

Die Klausur habe ich leider nicht. Könntest Du die einmal hochladen? Dann rechne ich gerne nach...

bliet · 12 September 2015

https://moodle.fernuni-hagen.de/mod/forum/discuss.php?d=886668

bliet · 12 September 2015

Oh, da fehlte der Text.
Die Klausur ist in Moodle zu finden.
Im Link ist die Lösung zur EB-Aufgabe.

rodeo · 12 September 2015

Achso im Moodle...okay danke!

Dani15 · 15 September 2015

Hat irgendjemand von euch noch alte Musterlösungen zum üben?!

Sebastian.Sulzbacher · 15 September 2015

Wie hoch, glaubt ihr, steht die Wahrscheinlichkeit, dass Gini-Gain bzw. Information-Gain vorkommen ? Gini-Gain würde ich wohl noch schaffen (wobei nicht erklärt wird, wie man hier mit quantitativen Attributen umgehen soll). Information-Gain habe ich vorerst ausgelassen.

Viel Erfolg weiterhin!

Dani15 · 15 September 2015

ich hoffe nicht..
im Skript sind diese einfach viel zu wenig erklärt
mich nervt, dass es nicht überall einfach nachzuvollziehende Beispiele gibt..

bliet · 15 September 2015

Ich denke nicht das CART durchgerechnet werden muss, da der Pruning-Algo nicht erläutert wurde.
Ebenso ist bei C4.5 der Error-Based-Pruning nicht erläutert.

Kann natürlich sein, dass es als Teilaufgabe dran kommt... oder das Pruning nicht durchgeführt werden muss.

Ich weiß aber nicht, ob ich die beiden auf die Kette bekommen würde.

bliet · 15 September 2015

Moment. Ich habe gerade auf den falschen Algo geschaut.

Zum Verständnis:
GiniGain unterscheidet sich vom PurityGain ja nur dadurch, dass von 1 die Summe der Quadratzahlen abgezogen wird, anstatt die Anzahl der Elemente der dominierenden Klasse?

GainRatio müsste ich mir nochmal zu Gemüte führen.

bliet · 15 September 2015

Hier ein Beispiel, wenn ich da nicht etwas vollkommen falsch verstanden habe.
Wobei Geschlecht das Attribut ist nach dem aufgeteilt werden könnte und +1 oder -1 die möglichen Werte des Zielattributs.

Sebastian.Sulzbacher · 16 September 2015

Ja GiniGain ist noch recht einfach. Hier ist eine extrem gute Erklärung https://www.academia.edu/7032069/An_example_of_calculating_gini_gain_in_CART.
Mit dem Skript kann man hier ja leider relativ wenig anfangen.
InformationGain ist mir allerdings noch etwas schleierhaft ... ich glaube ich werde es riskieren und die Zeit lieber für andere Themen nutzen bspw. lineare Regression

P.S. In der Zusammenfassung zum Clustering ist glaube ich noch ein Fehler: Die Manhatten-Distanz ergibt sich aus den absoluten Differenzen der Features also Sum( abs(xi,q - xj,q) ). In der Zusammenfassung ist dort aber ein + angegeben.

Viel Erfolg euch !

Dagobert123 · 18 September 2015

https://www.academia.edu/7032069/An_example_of_calculating_gini_gain_in_CART

hier ist nochmal ein Beispiel dazu

Tselmair · 21 Dezember 2015

Danke für die Beiträge

alex98 · 15 Februar 2016

Ich glaube mich zu erinnern dass man erst ein parr Beiträge posten muss, bevor man selbst was downloaden kann, weiss nicht mehr 5 odef 10, ich hab allerding schon mehrIch glaube mich zu erinnern dass man erst ein parr Beiträge posten muss, bevor man selbst was downloaden kann, weiss nicht mehr 5 odef 10, ich hab allerdings schon mehr als 250 und darf nicht (mehr?)
Antwort immer noch keine....

_Nico · 16 Februar 2016

Ich vermute, dass jemand deinen Beitrag mit dem "Like"-Button positiv bewerten muß, damit der Download funktioniert.

alex98 · 17 Februar 2016

_Nico schrieb:
Ich vermute, dass jemand deinen Beitrag mit dem "Like"-Button positiv bewerten muß, damit der Download funktioniert.

Das ist dann aber neu... Dann bitte fest meine Beiträge liken, ich fang schon mal bei euren an

_Nico · 17 Februar 2016

Vielen Dank. Jep, wird gemacht (y) :thumbsup

alex98 · 18 Februar 2016

Juchuuuu, es hat geklappt!! Kann wieder Anhänge aufmachen! Danke für den Hinweis!

alex98 · 12 März 2016

kann mir jemand bei Aufgabe 2b der Klausur SS 2012 helfen?
dort wird laut Musterlösung zuerst nach Einkommen gesplittet, ich würde aber zuerst nach Familienstand aufteilen.
Oder muss man irgendwie anders vorgehen, denn in der Aufgabenstellung steht "Spalten Sie für das Attribut für welches das arithmetische Mittel der Impurity minimal ist". Es gibt unter dem Thema "Intensive Klausurvorbereitung - Durchrechnen sämtlicher Klausuren" die Berechnung, aber dort verstehe ich die Logik nicht wirklich.

danke für eure Hilfe

pauls91 · 12 März 2016

Den Satz versteh ich auch nicht so ganz... Generell suchen wir ja die Gruppe, die sich am besten Clustern also zusammenfügen läßt.
Beim Einkommen errechnet sich die Reinheit (die Übereinkünfte) zu: 1/3*1+1/3*1+1/3+0,5=0,833
Beim Familienstand: 0,5*2/3 + 0,5 * 2/3 = 0,66
Da 0,833>0,66 wird nach Einkommen aufgeteilt, da mehr übereinstimmungen. (Näher an 1)

alex98 · 12 März 2016

Hat sicher erledigt, danke. Die Werte für ja und nein beziehen sich auf das Zielattribut...

Studentx1 · 14 März 2016

Gerne. Vielen Dank für die Dokumente

n_i_c_i · 24 März 2017

Kann jemand die PDF Beiträge downloaden? Ich leider nicht.
Vllt kann mir jemand dabei helfen

hrn7 · 19 Mai 2017

Studentx1 schrieb:
Gerne. Vielen Dank für die Dokumente

libelloshine · 7 September 2017

PErfekt.