Special2014ems

Aus ZTDWIKI
Wechseln zu: Navigation, Suche

Musste man die 14 Fragen streichen, wenn es keinen statistischen Nachweis für Vorteile gab?

Ja, weil allein die Bekanntheit vor dem Test eine rechtlich relevante Tatsache war. Selbst wenn nur ganz wenige Personen profitiert oder mehr Personen weniger als erwartet profitiert hätten, bliebe der Einwand gültig

Was bedeutet die Verkürzung konkret

Entsteht durch die Nichtwertung ein Nachteil?

Es ist auf den Unterschied zwischen Prüfungen und einem psychologischen Test an dieser Stelle einzugehen. Der Einwand, dass es Personen gibt, die ausgerechnet in den 14 Aufgaben besser waren und durch die Nichtwertung sich nun relativ verschlechtert hätten, gilt eigentlich nur für Personen, die von der Bekanntheit wirklich profitiert haben.

Wenn der Test richtig konstruiert ist, sind die Leistung in den gewerteten und den ungewerteten Aufgaben der drei betroffenen Aufgabengruppen hoch korreliert. Die Rangreihe nach der Leistung mit allen Abstufungen zwischen Personen muss sich dann in den gewerteten und allen Aufgaben gleichermassen zeigen, alle Abweichungen davon wären aus Sicht der psychologischen Theorie Messfehler.

Dies muss so sein, weil alle Einzelaufgaben konsistent das gleiche Merkmal messen – und nicht wie bei Prüfungen unterschiedliche Facetten sind (wenn in einer Biologieprüfung z.B. alle Genetikfragen nicht gewertet würden, käme es zu Nachteilen für Personen, die gut auf diesem Gebiet sind). Zwischen den Aufgaben der jeweiligen Aufgabengruppe gibt es keinen inhaltlichen Bezug, sondern nur die formal gleiche Anforderung (z.B. Textverständnis, Diagrammverständnis). Die Zusammensetzung der konkreten Aufgabeninhalte ist also auch zufällig.

Üblich ist es, mit der sogenannten Paralleltest-Reliabilität die Äquivalenz von 2 Mes-sungen zu prüfen. Sind die Messungen mit allen und nur den gewerteten Aufgaben äquiva-lent, kann die eine Messung die andere ersetzen, beide Messungen differenzieren die Personen nach der Leistung auf gleiche Weise. In der Tat korrelieren die Punktwerte aller Aufgaben mit jenen der gewerteten Aufgaben mit 0.91 bis 0.97. Reliabilitäten ab 0.85 werden üblicherweise als hoch eingeschätzt – da eine Teilmenge mit einem Ganzen verglichen wird, muss der Wert hier etwas höher sein. In allen drei Fällen liegt eine ausreichende Äquivalenz vor, die gewerteten Punkte messen das gleiche wie ursprünglich alle Aufgaben.

Ändert sich das Gewicht der Aufgabengruppen durch die Nichtwertung?

Die drei betroffenen Aufgabengruppen gehören zum wichtigen Faktor (Merkmal mit hoher gemeinsamer Varianz der eingeschlossenen Aufgaben, die also etwas Gemeinsames mes-sen) „Schlussfolgerndes Denken“, zu welchem noch die nicht betroffenen Aufgabengrup-pen „Medizinisch-Naturwissenschaftliches Grundverständnis“ und „Planen und Organisieren“ gehören. Insofern ist dieser varianzstärkste Faktor normalerweise mit 98 Aufgaben vertreten, jetzt noch mit 84. Bis 2004, ohne „ Planen und Organisieren“ waren es aber nur 78 Aufgaben (wie noch heute im deutschen TMS). Die Gewichtung dieses Faktors ist also immer noch höher als in den ersten Formen des EMS. Es wurde auch geprüft, die Resultate der betroffenen Aufgabengruppen proportional auf die vollen Punktzahlen wieder hochzurechnen. Das wären „neue Spielregeln während des lau-fenden Spiels“ gewesen. (z.B. nimmt man Kommazahlen bei Punkten, oder rundet man?) Die Varianz wäre auch „künstlich“ erhöht worden, es hätten Zwischenwerte gefehlt und durch richtige Lösung einer einzigen Aufgabe hätte man plötzlich z.B. 1.2 Punkte bekommen – bei Nichtlösung quasi verloren. Deshalb wurde davon abgesehen.

Was ist mit Zeitvorteilen der Personen, welche die Aufgaben kannten bei der Lösung der übrigen Aufgaben?

Die Belege sind also sehr evident, dass es keine Zeitvorteile gibt. Dies wird auch durch die vorhandenen theoretischen Konzepte zu komplexeren Aufgaben des „Schlussfolgernden Denkens“ gestützt. Die Lösungsmenge hängt hier wenig von der Zeit ab, weil der Antwort-prozess anders abläuft. Niveautests ganz ohne Zeitbegrenzung mit vergleichbaren Aufgaben messen ebenso gut die Fähigkeit.

Niveautests enthalten Aufgaben mit zunehmender Aufgabenschwierigkeit. Das be-deutet, dass jede nachfolgende Aufgabe schwieriger ist als die vorhergehende. Der Proband kann also die Aufgaben soweit bearbeiten, bis sie für ihn zu schwer sind, um sie zu lösen. Im Grunde ist keine Zeitvorgabe notwendig, da selbst bei unbegrenzter Zeitvorgabe nicht alle Aufgaben gelöst werden können und der Proband anfangen muss zu raten.

Die ansteigende Schwierigkeit findet sich auch bei den drei betroffenen Aufgabengruppen. Übersteigt die Schwierigkeit der Aufgabe seine Fähigkeit, wird entweder geraten oder auch eine falsche Antwort gegeben. Die Personen kommen bereits innerhalb der vorhandenen Zeit an die Grenze, wo die Aufgabenschwierigkeit die vorhandene Fähigkeit übersteigt. Und bei diesen komplexen Aufgaben wurde die Zeit nicht so kurz gewählt, dass sich der bei anderen Aufgabengruppen gewünschte Zeitdruck einstellt.


Könnte man den Test generell kürzen

Es wurde in den betroffenen Aufgabengruppen die Zahl von 20 bzw. 18 Aufgaben auch aus pragmatischen Gründen festgelegt: Je mehr Aufgaben, desto zuverlässiger kann ein Merkmal gemessen werden und umso besser kann man auch die Schwierigkeiten der Aufgaben aufsteigend abstufen. Auch die Differenzierungsfähigkeit der Personen ist feiner (was wegen der Verwendung als Zulassungskriterium notwendig ist). Die jetzt festgestellte hohe Äquivalenz der verkürzten Aufgabengruppen gegenüber den langen Formen belegt zwar sehr deutlich, dass die Fähigkeit praktisch noch gleich gut gemessen wird. Diese Verkürzung ist aber letztlich aus einer Notsituation und zufällig zustande gekommen. Wir würden daher ungern in Zukunft auf die bessere Differenzierung der Langformen verzichten.