Special2014ems

Aus ZTDWIKI
Version vom 29. August 2014, 08:37 Uhr von Haensgen (Diskussion | Beiträge) (Was ist eigentlich geschehen?)

Wechseln zu: Navigation, Suche

Was ist eigentlich geschehen?

  • Es wurde uns anonym ein komplettes Trainingsmaterial eines Anbieters übersendet. Trotz der Anonymität wollten und mussten wir reagieren, weil damit bewiesen war, dass einige Aufgaben vor der Durchführung des EMS 2014 bekannt waren - ohne die genaue Zahl der Personen zu kennen.
Alle im Trainingsmaterial aufgetauchten Originalaufgaben entsprechen einer in Deutschland gestohlenen Version aus 1996 (dies war letztes Durchführungsjahr des alten TMS in Deutschland)
  • Im Rahmen der kontinuierlichen Erneuerung des Tests werden Aufgaben des EMS ersetzt (z.B. wegen optimierbarer Kennwerte, Veraltung des Inhaltes etc.), normalerweise durch bewährte Aufgaben, die vorher als Einstreuaufgaben erprobt wurden. Bei dieser Ersetzung griff ITB für 2014 auch auf die 1996 eingesetzte Version zurück, die wir dadurch aber nie gesamthaft bezogen haben.
  • Es gab und gibt keine Hinweise auf weitere Diebstähle – andere bekannte Aufgaben sind mehr oder weniger schlecht nachempfunden und nicht bedrohlich. Diese Version wurde im Original oder einer dem Original entsprechenden Kopie entwendet (identische Qualität der Abbildungen), nicht abfotografiert, rekonstruiert o.ä.
  • Der Testschutz (kein Bekanntwerden vor, während und nach dem Einsatz) gehört zu psychologischen Tests dazu und erfolgt nach sehr restriktiven Standards. Im Unterschied zu einer Prüfung muss ein Test vorher idealerweise unter Ernstfallbedingungen erprobt werden, um Schwierigkeit, Differenzierungsfähigkeit, Güte der Messung von Eignung und die Vergleichbarkeit verschiedener Testversionen zwischen den Jahren zu gewährleisten. Die Entwicklung solcher Tests ist teuer und daher ist ein mehrfacher Einsatz der gleichen Aufgaben auch aus ökonomischen Gründen gerechtfertigt. das machen alle vergleichbaren Tests so (USA, Schweden, Israel u.a.)
  • Gute Aufgaben altern auch nicht - der Test ist kein Wissenstest (notwendiges Wissen wird zumeist in der Aufgabe selber mitgeteilt) und es geht quasi darum, bestimmte Problemtypen ideal zu formalisieren.

Musste man die 14 Fragen streichen, wenn es keinen statistischen Nachweis für Vorteile gab?

Ja, weil allein die Bekanntheit vor dem Test eine rechtlich relevante Tatsache war. Selbst wenn nur ganz wenige Personen profitiert oder mehr Personen weniger als erwartet profitiert hätten, bliebe der Einwand gültig

Was bedeutet die Verkürzung konkret

Entsteht durch die Nichtwertung ein Nachteil?

Es ist auf den Unterschied zwischen Prüfungen und einem psychologischen Test an dieser Stelle einzugehen. Der Einwand, dass es Personen gibt, die ausgerechnet in den 14 Aufgaben besser waren und durch die Nichtwertung sich nun relativ verschlechtert hätten, gilt eigentlich nur für Personen, die von der Bekanntheit wirklich profitiert haben.

Wenn der Test richtig konstruiert ist, sind die Leistung in den gewerteten und den ungewerteten Aufgaben der drei betroffenen Aufgabengruppen hoch korreliert. Die Rangreihe nach der Leistung mit allen Abstufungen zwischen Personen muss sich dann in den gewerteten und allen Aufgaben gleichermassen zeigen, alle Abweichungen davon wären aus Sicht der psychologischen Theorie Messfehler.

Dies muss so sein, weil alle Einzelaufgaben konsistent das gleiche Merkmal messen – und nicht wie bei Prüfungen unterschiedliche Facetten sind (wenn in einer Biologieprüfung z.B. alle Genetikfragen nicht gewertet würden, käme es zu Nachteilen für Personen, die gut auf diesem Gebiet sind). Zwischen den Aufgaben der jeweiligen Aufgabengruppe gibt es keinen inhaltlichen Bezug, sondern nur die formal gleiche Anforderung (z.B. Textverständnis, Diagrammverständnis). Die Zusammensetzung der konkreten Aufgabeninhalte ist also auch zufällig.

Üblich ist es, mit der sogenannten Paralleltest-Reliabilität die Äquivalenz von 2 Mes-sungen zu prüfen. Sind die Messungen mit allen und nur den gewerteten Aufgaben äquiva-lent, kann die eine Messung die andere ersetzen, beide Messungen differenzieren die Personen nach der Leistung auf gleiche Weise. In der Tat korrelieren die Punktwerte aller Aufgaben mit jenen der gewerteten Aufgaben mit 0.91 bis 0.97. Reliabilitäten ab 0.85 werden üblicherweise als hoch eingeschätzt – da eine Teilmenge mit einem Ganzen verglichen wird, muss der Wert hier etwas höher sein. In allen drei Fällen liegt eine ausreichende Äquivalenz vor, die gewerteten Punkte messen das gleiche wie ursprünglich alle Aufgaben.

Ändert sich das Gewicht der Aufgabengruppen durch die Nichtwertung?

Die drei betroffenen Aufgabengruppen gehören zum wichtigen Faktor „Schlussfolgerndes Denken“ (Merkmal mit hoher gemeinsamer Varianz der eingeschlossenen Aufgaben, die also etwas Gemeinsames messen), zu welchem noch die nicht betroffenen Aufgabengruppen „Medizinisch-Naturwissenschaftliches Grundverständnis“ und „Planen und Organisieren“ gehören. Insofern ist dieser varianzstärkste Faktor normalerweise mit 98 Aufgaben vertreten, jetzt noch mit 84. Bis 2004, ohne „ Planen und Organisieren“ waren es aber nur 78 Aufgaben (wie noch heute im deutschen TMS). Die Gewichtung dieses Faktors ist also immer noch höher als in den ersten Formen des EMS. Es wurde auch geprüft, die Resultate der betroffenen Aufgabengruppen proportional auf die vollen Punktzahlen wieder hochzurechnen. Das wären „neue Spielregeln während des lau-fenden Spiels“ gewesen. (z.B. nimmt man Kommazahlen bei Punkten, oder rundet man?) Die Varianz wäre auch „künstlich“ erhöht worden, es hätten Zwischenwerte gefehlt und durch richtige Lösung einer einzigen Aufgabe hätte man plötzlich z.B. 1.2 Punkte bekommen – bei Nichtlösung quasi verloren. Deshalb wurde davon abgesehen.

Was ist mit Zeitvorteilen der Personen, welche die Aufgaben kannten bei der Lösung der übrigen Aufgaben?

Die Belege sind also sehr evident, dass es keine Zeitvorteile gibt. Dies wird auch durch die vorhandenen theoretischen Konzepte zu komplexeren Aufgaben des „Schlussfolgernden Denkens“ gestützt. Die Lösungsmenge hängt hier wenig von der Zeit ab, weil der Antwort-prozess anders abläuft. Niveautests ganz ohne Zeitbegrenzung mit vergleichbaren Aufgaben messen ebenso gut die Fähigkeit.

Niveautests enthalten Aufgaben mit zunehmender Aufgabenschwierigkeit. Das be-deutet, dass jede nachfolgende Aufgabe schwieriger ist als die vorhergehende. Der Proband kann also die Aufgaben soweit bearbeiten, bis sie für ihn zu schwer sind, um sie zu lösen. Im Grunde ist keine Zeitvorgabe notwendig, da selbst bei unbegrenzter Zeitvorgabe nicht alle Aufgaben gelöst werden können und der Proband anfangen muss zu raten.

Die ansteigende Schwierigkeit findet sich auch bei den drei betroffenen Aufgabengruppen. Übersteigt die Schwierigkeit der Aufgabe seine Fähigkeit, wird entweder geraten oder auch eine falsche Antwort gegeben. Die Personen kommen bereits innerhalb der vorhandenen Zeit an die Grenze, wo die Aufgabenschwierigkeit die vorhandene Fähigkeit übersteigt. Und bei diesen komplexen Aufgaben wurde die Zeit nicht so kurz gewählt, dass sich der bei anderen Aufgabengruppen gewünschte Zeitdruck einstellt.

Könnte man den Test generell kürzen

Es wurde in den betroffenen Aufgabengruppen die Zahl von 20 bzw. 18 Aufgaben auch aus pragmatischen Gründen festgelegt: Je mehr Aufgaben, desto zuverlässiger kann ein Merkmal gemessen werden und umso besser kann man auch die Schwierigkeiten der Aufgaben aufsteigend abstufen. Auch die Differenzierungsfähigkeit der Personen ist feiner (was wegen der Verwendung als Zulassungskriterium notwendig ist). Die jetzt festgestellte hohe Äquivalenz der verkürzten Aufgabengruppen gegenüber den langen Formen belegt zwar sehr deutlich, dass die Fähigkeit praktisch noch gleich gut gemessen wird. Diese Verkürzung ist aber letztlich aus einer Notsituation und zufällig zustande gekommen. Wir würden daher ungern in Zukunft auf die bessere Differenzierung der Langformen verzichten.