Nichtwertung Textverständnis 2015

Aus ZTDWIKI
Wechseln zu: Navigation, Suche

Massgeblich ist die offizielle Mitteilung vom 27.7.2015 durch swissuniversities an die Kandidaten und die Presse, nachfolgend finden Sie etwas ausführlichere Hintergrundinformationen des ZTD (zitierbar als BLOG des ZTD) dazu.

Was geschah?

  • 2 Texte der Aufgabengruppe „Textverständnis“ mit je 6 Einzelfragen waren einer unbekannten Personenzahl aufgrund des Materials eines Trainingsanbieters vorher bekannt, ein Text nicht.
  • Die wie 2014 ermittelten Statistiken zeigen erneut keine Auffälligkeiten: Die Aufgaben sind vergleichbar schwer wie aufgrund der Entwicklungsdaten zu erwarten, es finden sich keine statistischen Auffälligkeiten für Teilgruppen.
  • Zusätzliche Ursache zur vermuteten "Aufgabenüberflutung" (siehe Vorbereitungsreport 2014) kann sein, dass in den übereinstimmenden Texten in diesem Jahr Abweichungen und auch Fehler im Trainingsmaterial enthalten sind. Die Komplexität der Aufgaben ist aber derart hoch, dass sie nicht nach dem Test aus dem Gedächtnis reproduziert sein können.
  • Der Ausschluss ist "formaljuristisch" zwingend, da die Aufgaben in einer zu ähnlichen Struktur einer unbekannten Teilnehmerzahl vorher bekannt waren und so die Gleichbehandlung mindestens theoretisch gefährdet war.

Begründung der Nichtwertung

Um zu gewährleisten, dass die Zulassung unter gleichen Bedingungen für alle auf der Basis der Eignung erfolgt, haben swissuniversities und ZTD nach Konsultation des deutschen Kooperationspartners beschlossen, die gesamte Aufgabengruppe „Textverständnis“ aus Sicherheitsgründen aus der Wertung herauszunehmen, um mögliche bzw. auch hypothetische Verstösse gegen die Gleichbehandlung auszuschliessen. Da alle 10 Aufgabengruppen des EMS in getrennten "Zeitfenstern" bearbeitet worden sind, werden die Bearbeitungsbedingungen der gewerteten 9 nicht dadurch beeinflusst.

Beim EMS gibt es zwei Parallel-Formen. Diese haben jeweils eine veränderte Aufgabenreihenfolge, damit benachbarte Personen nicht abschreiben können (etwa gleiche Ankreuzungen auf dem Antwortblatt kopieren). Beim „Textverständnis“ unterscheidet sich die Reihenfolge der 3 Texte (und der jeweils damit verbundenen 6 Fragen). Da die Schwierigkeit der Texte im Mittel gleich sind (bzw. genauer die jeweils 6 Fragen dazu ein äquivalentes Schwierigkeitsspektrum abdecken), gleicht sich dies aus, sind die beiden Parallelformen auch gleich schwer (was jeweils auch jährlich empirisch geprüft wird, vergleiche Berichte des ZTD). Da 2015 nur ein Text gewertet werden kann, würde dieser Ausgleich in diesem Jahr nicht funktionieren: In einer Form wären die 6 zu wertenden und vorher unbekannten Aufgaben am Ende der Aufgabengruppe zu bearbeiten, in der anderen Form in der Mitte. Trotz der Instruktion beim EMS, alle Aufgaben mit gleicher Aufmerksamkeit zu bearbeiten, ist bekannt, dass einige Personen sich lieber intensiver den ersten beiden Texten widmen und den dritten Text mit etwas weniger Aufmerksamkeit bearbeiten (was sich im Normalfall zwischen den Parallel-Formen ausgleicht). 2015 würden 50% der Personen mit dem einzigen gewerteten Text erst an dritter Stelle im Mittel 0.5 Punkte weniger erzielen als diejenigen, die den Text an zweiter Stelle vorfanden, weil der jeweils ausgleichende andere Text nicht gewertet wird. Deshalb wurde ein genereller Ausschluss von „Textverständnis“ als fairere Lösung präferiert. Zugleich ist durch Nichtwertung aller Aufgaben auch der hypothetische Einwand entkräftet, dass Personen mit Vorkenntnissen in diesen Aufgaben irgendwelche Zeitvorteile bei der Lösung der für alle unbekannten Aufgaben haben könnten.

Der gewertete EMS 2015 erlaubt eine chancengleiche Zulassung nach der Eignung

Faktorenstruktur des EMS - Zum Vergrössern klicken

Der EMS weist auch mit nur 9 von 10 Aufgabengruppen eine für die Zulassung nach der Eignung ausreichende Differenzierung auf: Der prognoserelevante Faktor „Schlussfolgerndes Denken", zu welchem „Textverständnis“ gehört, ist mit 4 statt 5 Aufgabengruppen und 80 statt 100 Aufgaben immer noch der am stärksten repräsentierte Faktor, bis 2004 umfasste er bekanntlich ebenfalls nur 4 Aufgabengruppen mit nur 78 Aufgaben. Die „Schwankungsbreite“ (frühere und auch der Vorbehalt für zukünftige Änderungen zum Zwecke der Weiterentwicklung) wurde nicht verlassen – der Test wurde und wird bekanntlich fortlaufend weiterentwickelt. [1]

Es bleibt ärgerlich, dass alle diese Aufgabengruppe bearbeitet haben und dies nun nicht gewertet wird. „Textverständnis“ als wichtige Anforderung der Studierfähigkeit ist nach wie vor mehrfach im Test repräsentiert: Insbesondere „Diagramme und Tabellen“, „Medizinisch-naturwissenschafliches-Grundverständnis sowie vor allem „Planen und Organisieren“ erfordern hohe Lesekompetenz und Textverständnis, um die dortigen Aufgaben zu lösen (das ist auch einer der Gründe, dass sie statistisch einen einheitlichen Faktor bilden). Textverständnis wurde seinerzeit in den Anforderungsanalysen eines Studiums als wichtige Kompetenz identifiziert und daher auch in einer "genuinen" Aufgabengruppe der ursprünglich 9 erfasst. Die heute zusätzliche Erfassung von "Planen und Organisieren" (wo sich viele für die Lösung wichtige wichtige Details erst durch genaues Lesen erschliessen) kompensiert den Verlust im langzeitlichen Verlauf der Testanwendung etwas.

Die sogenannte Äquivalenz der Punktwerte mit und ohne „Textverständnis“ (Gleichwertigkeit, Ersetzbarkeit des einen durch das andere) beträgt als Paralleltest-Reliabilität 0.99. Ab einem Wert von 0.85 werden Messungen allgemein als äquivalent bzw. gleichwertig angesehen – dies ist in unserem Falle mit ausreichender Sicherheit gegeben. Die gewertete Version ersetzt die nicht verkürzte daher gleichwertig.

Weder statistisch, noch aus der Analyse des mitterweile sehr umfangreichen bei uns verfügbaren und jetzt neu übergebenen Materials der Trainingsanbieter lassen sich weitere Aufgaben finden, deren Ausschluss notwendig wäre.

Zwischen 2014 und 2015 kommt dazu, dass 2014 14 Aufgaben und 2015 18 Aufgaben wegen der vorherigen Bekanntheit gestrichen werden mussten, die zum gleichen Faktor „Logisches Denken“ gehören. Im konkreten Fall ist der EMS 2015 dem EMS 2014 sogar ähnlicher als ein Test, bei dem 2015 alle Aufgabengruppen gewertet worden wären. Entscheidender ist aber, dass es sich 2014 und 2015 durch die Korrekturen um für alle Personen gleiche Anforderungen handelte und die Rangreihen nach der Leistung innerhalb und zwischen den Jahren jeweils der Position innerhalb der gesamten Kohorte entsprechen.

Wir bedauern diesen Zwischenfall und sind genauso verärgert wie die Kandidatinnen und Kandidaten, die mit einem reibungslosen Zulassungsverfahren gerechnet haben. Nach Abwägung aller Vor- und Nachteile ist diese Lösung aber alternativlos die beste, um die Chancengleichheit für alle wiederherzustellen. Alternativen sind weder notwendig, realistisch und auch nicht verhältnismässig, da die gewerteten Ergebnisse unter gleichen Bedingungen zustande gekommen sind und dank der hohen Äquivalenz diesen bezüglich der Erfassung der Eignung voll entsprechen.

Ähnlich oder entwendet?

Wir wurden gefragt, wo die Grenze zwischen ähnlichen oder identischen Aufgaben liegt. Sie liegt grundsätzlich dort, wo man durch die Bekanntheit der Aufgaben- und Lösungsstruktur einen Vorteil erlangen könnte. Es existieren einige "Trainingsaufgaben", die das gleiche Thema wie eine Originalaufgabe haben (hier hatten wir mehr befürchtet). Damit sie nur als ähnlich gelten und gewertet werden können, müssen wesentliche Teile (Zahlen, Abbildungen, Benennungen, Formulierungen, Antwortstufen) deutlich abweichen, sprich die richtige Antwort des Originals taucht in der Trainingsaufgabe gar nicht oder verstümmelt auf bzw. ist dort auch gar nicht richtig. Das kommt bei derart "nachempfundenen" Aufgaben vermutlich deshalb vor, da bei einem Diebstahl der Lösungsschlüssel ja nicht mit entwendet werden kann und die richtige Lösung dann anhand des vorliegenden ("verstümmelten") Materials selbst erraten werden muss. Es gibt dieses Jahr beispielsweise eine Aufgabe (auf die uns auch die materialübergebende Person aufmerksam gemacht hat), die auf den ersten Blick sehr ähnlich aussieht. Allerdings hat man in der Trainingsversion bei mehreren Exponentialzahlen die Exponenten gleich gross wie die Zahl geschrieben, sodass die im übrigen auch noch abweichenden Antwortalternativen selbst bei Identität nicht zum Finden der richtigen Lösung geführt hätten. In der Trainingsversion ist die Aufgabe unlösbar - dennoch wird eine Lösung (eine andere als in der Originalaufgabe) als korrekt angegeben. Hier würde die potentielle "Bekanntheit" der Aufgabe sogar zu einem Nachteil führen. Auch wenn es bei "Planen und Organisieren" um die Raumplanung an der ETH mit gleichen Raumnamen geht (die es auch wirklich zu geben scheint), liegt der Teufel im Detail. Nicht nur die Zahlen sind anders, auch ein wesentliches Teil der Instruktion orientiert auf eine ganz andere Optimierung. Auch Antwortalternativen, Formulierungen und andere Details unterscheiden sich so deutlich, dass man nur von Ähnlichkeit sprechen kann. Für die Kursteilnehmer kommt zumindest theoretisch das Risiko dazu, die Unterschiede zu "überlesen" und dann die Aufgabe so zu lösen, wie man es "gewohnt" war (so man es sich merken konnte). In diesem Fall kann das in die Irre führen. Natürlich wollen die Trainingsanbieter Aufgabenstrukturen üben, die nahe am Original sind. In dem Falle tun sie den Kandidaten aber keinen guten Dienst. Hierüber wird mit allen zu reden sein.

Nachweise und Fussnoten

Klick auf Pfeil vor dem Fussnotentext: Sprung zur entsprechenden Stelle im Haupttext

  1. Vergleicht man international übliche Tests für die Medizinzulassung, kann man ohnehin nicht nur den einen gültigen Test identifizieren. Sie unterscheiden sich hinsichtlich Umfang und Zusammensetzung - beruhen jeweils auf Anforderungsanaysen der Studiums und der Umsetzbarkeit in entsprechende Aufgabengruppen.