Studienverlaufsanalyse

In diesem Projekt werden Modelle zur Vorhersage von Studiendauer und -erfolg betrachtet. Basierend auf anonymisierten Leistungsdaten von Informatikstudierenden der Universität des Saarlandes aus den letzten 11 Jahren verwenden wir maschinelles Lernen, um für aktuell eingeschriebene Studierende folgende Voraussagen zu machen:

  • Studiendauer
  • Abbruchwahrscheinlichkeit
  • Bestehenswahrscheinlichkeiten für diverse Kurse

Ziel des Projekts ist es, basierend auf statistischen Analysen und selbstlernenden Algorithmen

  • die Studienberatung zu verbessern und Leistungsprobleme frühzeitig zu erkennen, sowie sinnvolle Alternativen vorzuschlagen
  •  die individuelle Kurswahl der  Studierenden zu optimieren und Fehlversuche zu vermeiden
  • generelle Probleme im Studienverlaufsplan zu erkennen und Studienordnungen entsprechend anzupassen.

Langfristig streben wir in diesem Projekt eine detaillierte Analyse des Studienverlaufs im Fachbereich Informatik an, die es ermöglicht, Studierende mit hohem Abbruchrisiko frühzeitig zu erkennen und entsprechende Maßnahmen einzuleiten. Eine genauere Modellierung des Lernfortschritts durch Einbezug von Daten aus Lernplattformen oder Kursmanagementsystemen ist geplant.

Die ersten Ergebnisse des Projekts sind vielversprechend. So kann nach dem ersten Semester bereits eine große Gruppe (anonymisierter) Studenten identifiziert werden, die eine erhöhte Wahrscheinlichkeit hat, das Bachelorstudium der Informatik (oder der sogenannten Bindestrich-Studiengänge) nicht innerhalb von neun Semestern erfolgreich abzuschließen. Im folgenden Plot wird diese Gruppe in rot dargestellt, die Größe der jeweiligen Punkte korreliert mit der Anzahl der Studenten, die sich dahinter verbirgt.Dropout-Raten für die beschriebenen Studentengruppen, die Einteilung in die Gruppen wird nach dem jeweiligen Semester (x-Achse) vorgenommen
Eine zweite Gruppe Studenten (in grün) kann ebenfalls schon nach einem oder zwei Semestern identifiziert werden. Sie hat eine besonders hohe Wahrscheinlichkei, das Studium erfolgreich innerhalb von neun Semestern abzuschließen. Über eine dritte Gruppe (in gelb) kann keine Aussage gemacht werden, diese Gruppe stellte sich allerdings als vergleichsweise klein heraus.

Auch für einzelne Kurse können Vorhersagen getroffen werden, welche Studenten (auch hier sind die Studenten anonymisiert) den Kurs mit einer hohen Wahrscheinlichkeit und welche Studenten den Kurs mit geringer Wahrscheinlichkeit in einem bestimmten Semester bestehen werden. Beispielhaft zeigen die nächsten zwei Plots die tatsächlichen Noten der Studenten aus den verschiedenen Gruppen.

Noten der Teilnehmer eines Kurses aus dem Bachelorstudium
Noten der Teilnehmer eines Kurses aus dem Bachelorstudium
Die grünen Balken geben die relativen Häufigkeiten der Noten (x-Achse) an, die die Studenten, für die eine hohe Bestehenswahrscheinlichkeit berechnet wurde, tatsächlich erreicht haben, wohingegen für die Studenten der roten Gruppe eine geringe Bestehenswahrscheinlichkeit berechnet wurde. Die gelben Balken stehen für Studenten mit mittleren Bestehenswahrscheinlichkeiten. Die Größe der Kreise oben links gibt jeweils die Anzahl der Studenten an, die sich hinter der jeweiligen Farbe verbergen.

Der obere Plot ist ein Beispiel für einen Kurs, für den diese Vorhersagen vergleichsweise einfach zu machen sind. Der Grund ist, dass es einen anderen, vorher stattfindenden Kurs gibt, dessen Ergebnisse stark mit dem abgebildeten Kurs korrelieren. Für den Kurs aus dem unteren Plot gibt es einen solchen vorherigen Kurs nicht. Daher sind die Vorhersagen für diesen Kurs nicht ganz so präzise. Trotzdem bestehen hier 85% der Studenten mit den hohen berechneten Bestehenswahrscheinlichkeiten und nur 30% der Studenten mit den niedrigen berechneten Bestehenswahrscheinlichkeiten.