AKTeur

Zentrales Ziel des Projektes AKTeur ist die Schaffung eines interdisziplinären Kooperationsnetzwerkes und einer breiten technologischen Basis zur automatischen Codierung von freien Textantworten in vielfältigen Szenarien.

Im Rahmen des Projekts sollen beispielhaft für zwei Anwendungsfälle aus der Kompetenzdiagnostik entsprechende Forschungsarbeiten durchgeführt werden. Dabei kommen unter anderem Verfahren der automatischen Sprachverarbeitung zum Einsatz. Um eine automatische Auswertung zu ermöglichen, werden für die Kompetenzdiagnostik häufig geschlossene Antwortformate, beispielsweise das Multiple-Choice-Format, verwendet. Dies hat allerdings den Nachteil, dass Informationsverluste bereits im Vorfeld infolge der Kategorisierung unvermeidlich sind. Im Gegensatz dazu ermöglichen freie Textformate eine elaborierte und inhaltsvalide Messung von Kompetenzen sowie die Einschätzung mehrerer Facetten eines Schreibproduktes. Die automatische Kodierung offener Antworten kann zudem abgestufte Bewertungen (‚partial credit‘) sowie Konfidenzwerte bzw. die Gewichtung einzelner Bewertungen zur Verfügung stellen.

Ziele

Hauptziel von AKTeur ist die Erstellung einer breiten technologischen Basis zur automatischen Codierung freier Textantworten innerhalb verschiedener Szenarien. Zur Erreichung dieses Zieles wurde ein interdisziplinäres Kooperationsnetzwerk gegründet, bestehend aus Psychologen, Pädagogen und Informatikern. Beispielhaft fokussieren wir auf zwei Anwendungsfälle aus der Kompetenzdiagnostik:

Automatische Kodierung von Qualitätsdimensionen eines Freitextes in der Schreiblernforschung (‚mehrdimensionales Rating‘)
Automatische Kodierung von kurzen Freitextantworten in der psychologischen Diagnostik von Leistungsmerkmalen (‚eindimensionales Rating‘)

Methode

Die zu entwickelnden automatischen Systeme basieren auf Verfahren zur Verarbeitung natürlicher Sprache. Zur Einschätzung der Ergebnisse werden Übereinstimmungen der Bewertenden, zum einen der Systemausgabe sowie zum anderen den menschlichen Bewertungen, mit den Ergebnissen eines Paares menschlicher ‚Bewerter‘ verglichen. Dadurch kann festgestellt werden, ob die Fehlerrate des Systems auf den Widerspruch zwischen zwei menschlichen Bewertern reduziert werden kann.

Mittels diagnostischer Forschungsfragestellungen wird das entwickelte System im Hinblick auf systematische Fehlerquellen untersucht, beispielsweise in Bezug auf Items, Antwortentypen sowie Testpersonengruppen. Hierzu gehört auch die Erklärung der „Zwischen-Aufgaben-Variation“ in Übereinstimmung von menschlicher und automatischer Bewertung. Darüber hinaus wird auf Skalenebene die Vergleichbarkeit der Kodiervarianten anhand von Messmodell- wie auch struktureller Invarianz geprüft.

Finanzierung: DIPF

Kooperation: Prof. Dr. Gabriele Faust (Universität Bamberg), Prof. Dr. Benno Stein (Bauhaus-Universität Weimar), Prof. Dr. Iryna Gurevych (Technische Universität Darmstadt), Prof. Dr. Manfred Prenzel (TUM School of Education)

Laufzeit: 04/2013 – 12/2014

Status: abgeschlossen

Projektleitung: Iryna Gurevych, Frank Goldhammer

Kontakt: Iryna Gurevych, Frank Goldhammer