Special2014ems

Aus ZTDWIKI
Wechseln zu: Navigation, Suche

Die Entscheidung, 14 Aufgaben beim Eignungstest für das Medizinstudium in der Schweiz (EMS) 2014[1] [2] nicht zu werten, wurde den Kandidatinnen und Kandidaten bereits in einem Schreiben mit der Übersendung der Zulassungsbescheide kurz begründet, auch die Presserklärung ging auf die wichtigsten Fragen ein.

Die folgende Dokumentation fasst die wichtigsten Fragen und Antworten noch einmal für ein breiteres Publikum zusammen, um die Hintergründe transparent zu machen - unvermeidlich muss dabei etwas Statistik und psychodiagnostisches Fachwissen verwendet werden.

Was ist eigentlich geschehen?

  • Eine 1996 in Deutschland entwendete Testversion ist die Quelle der vorher bekannten Aufgaben.
  • Es wurde uns anonym ein komplettes Trainingsmaterial eines einzelnen Anbieters übersendet. Die Kandidatinnen und Kandidaten wurden vom Anbieter laut Begleitbrief auch darüber aufgeklärt, dass es sich um illegal beschafftes Originalmaterial handelt und strenges Stillschweigen darüber zu bewahren sei.
  • Dieses Trainingsmaterial entspricht einer in Deutschland verwendeten Originalversion des TMS aus dem Jahr 1996 (letztes Durchführungsjahr des alten TMS in Deutschland), die in dieser Form nie in der Schweiz eingesetzt wurde. Es wurde ein Original oder eine dem Original entsprechende Kopie entwendet (z.B. wegen identischer Qualität komplexer Abbildungen), nicht abfotografiert, rekonstruiert o.ä.
  • Die Schweiz arbeitet seit der Einführung des EMS mit Deutschland zusammen und nutzt den deutschen TMS in grossen Teilen nach, was wiederholten Aufgabeneinsatz erfordert (mehr dazu siehe Testschutz beim EMS). 14 Aufgaben aus dieser entwendeten Version wurden im Rahmen der diesjährige Testversion erneut eingesetzt.

Was ist nicht geschehen?

  • Das entwendete und das sonstige auf dem Markt verfügbare Material kann man nicht vergleichen.
  • Der Testschutz ist damit nicht generell in Frage gestellt.
  • Es gibt Gründe für die Annahme, dass das entwendete Material das einzige dieser Art am Markt war und ist.
  • Man muss zwischen dem entwendeten Material und den sonstigen Trainingsmaterialien (die auch käuflich angeboten werden) der Anbieter klar unterscheiden. Es ist seit den Anfängen des TMS und EMS bekannt, das auch "Beauftragte" der Trainingsanbieter an TMS und EMS teilnehmen - die zum Teil während der Testabnahme besondere Aufmerksamkeit erhalten. Wir und auch der deutsche Partner sind im Besitz der meisten dieser Trainingsmaterialien[3], die nachempfundene und selbsterfundene Aufgaben enthalten - die aber als "Quasi-Originalaufgaben" angeboten werden. In keinem Fall war es bisher notwendig, Originalaufgaben zurückzuziehen, weil die nachempfundenen Aufgaben davon deutlich abwichen oder sogar falsch waren[4]. Während des Tests darf man z.B. keine "mitnehmbaren" persönlichen Notizen machen (hat dafür kein „mitnehmbares“ Papier) und einiges mehr. Man möge ein paar Aufgaben vom Text- oder Diagrammverständnis (Beispiele finden Sie hier) auswendig lernen und nach ein paar Stunden aufzuschreiben versuchen. Insofern ist das nachträgliche Rekonstruieren der Aufgaben als Quelle von "Originalaufgaben" nicht wirklich realistisch.
  • Es gab und gibt keine Hinweise auf weitere Diebstähle, weder in Deutschland, noch in der Schweiz. Wir können nur auf bewiesene bzw. beweisbare Sachverhalte reagieren und weitere Risiken nicht gänzlich ausschliessen. Es gab weitere nicht anonyme und anonyme "Folgebriefe", welche die bekannten Tatsachen bestätigen. Wir gehen davon aus, dass man uns aufgrund dieses Ereignisses auch weiteres Material von wirklichen und bisher nicht bekannten Originalaufgaben gesendet hätte, wenn dies existieren würde. Ein Mass an Pragmatik ist notwendig, die Wahrscheinlichkeit deartiger Vorkommnisse realistisch einzuschätzen und geeignete Präventionsmassnahmen zu ergreifen, um das Risiko verantwortbar zu halten.
  • Es gibt bisher keinen Anlass, am System des Testschutzes in der Schweiz grundsätzlich zu zweifeln. Mehr Restriktionen erhöhen die auch die Testangst der Teilnehmenden - was daher gut abgewogen werden muss.

Wie wurde reagiert?

  • Die vorher bekannten Aufgaben mussten ausgeschlossen werden.
  • Die Bedingungen waren bei deren Bearbeitung für eine unbekannte Personenzahl nicht gleich.
Entscheidungen EMS 2014: Übersicht - Zum Vergrössern klicken

Das Material des Trainingsanbieters enthält 14 identische Aufgaben aus 3 Aufgabengruppen zum EMS 2014: 1 Text der Aufgabengruppe „Textverständnis“ mit 6 Fragen von insgesamt 18, je 4 Aufgaben „Quantitative und Formale Probleme“ und „Diagramme und Tabellen“ von je 20 Aufgaben.

Die Aufgaben, welche einige Personen schon kannten und die daher von diesen unter irregulären Bedingungen bearbeitet worden sind, wurden nicht gewertet. Die Bedingungen sind dadurch bei den gewerteten Aufgaben zunächst hinsichtlich des Vorwissens für alle Personen wieder gleich. In Deutschland gibt und in der Schweiz vor 2004 gab es zusätzlich zu den gewerteten Aufgaben nicht gewertete Einstreuaufgaben (für die Überprüfung neu entwickelter Aufgaben). Insofern ist das Prinzip, dass nicht alle Aufgaben gewertet werden, bekannt und akzeptiert – die Bedingungen sind auch für alle gleich, aus diesem Vorgehen allein sind keine individuellen Nachteile abzuleiten.

Beim der Aufgabengruppe "Fakten lernen" gab es weitere Ähnlichkeiten zwischen dem Trainingsmaterial und dem Original. Diese wurden ebenfalls evaluiert - die Aufgabengruppe kann aufgrund der empirischen Befunde und theoretischer Überlegungen zur Interferenz gewertet werden (s.u.).

Das Schema rechts stellt die Logik des Vorgehens für die weiteren Prüfungen: das Entstehens neuer Nachteile durch diese Kortrektur bzw. sowie das Vorhandensein weiterer Vorteile durch die Bekanntheit.

Wie viele Personen haben von der Aufgabenbekanntheit profitiert?

  • Entweder hatten ganz wenige Leute Vorkenntnissen oder die "Trainierten" profitieren viel weniger vom Training als anzunehmen.
Vergleich Häufigkeitsverteilung gewertete/nicht gewertete Aufgaben - Zum Vergrössern klicken
Kennwerte der Aufgaben in den betroffenen Gruppen - Zum Vergrössern klicken

Wenn nennenswerte Teilgruppen einzelne Aufgaben unter irregulären Bedingungen (z.B. vorherige Bekanntheit) beantwortet haben, müsste sich dies als Auffälligkeit der Antwortverteilung zeigen. Häufungen bei hohen Punktzahlen (bis zu Mehrgipfligkeiten) sprächen für qualitative Unterschiede. Ist der Unterschied eher quantitativ (z.B. nur geringere Verbesserungen bei diesen Personen), müsste sich dies als Schiefe zeigen, weil diese Teilgruppe bessere Werte als erwartet erreicht. Das Maximum von 14 Punkten in den 14 vorher bekannten Aufgaben (sehr gute Personen oder Per-sonen, die optimal von Vorwissen profitierten) erreichen nur 33 Personen. Dies sind 1% der Gesamtgruppe – was die Erwartung auch unter normalen Umständen wäre. Fasst man 13 und 14 Punkte zusammen, sind es 109 Personen, was ebenfalls in der Erwartung liegt. Gäbe es eine nennenswerte Gruppe von Personen, die (fast) alle Aufgaben aufgrund der vorherigen Bekanntheit gelöst hat, müssten hier mehr Personen vertreten sein. Die oberste Abbildung zeigt, dass sowohl in den gewerteten (unbekannten), als auch in den ungewerteten (möglicherweise bekannten) Aufgaben die Punkteverteilung nahezu ideal einer symmetrischen Glockenverteilung folgt und auch keine Schiefe als Zeichen quantitativer Unterschiede vorhanden ist (Schiefe .00 für gewertet, .08 für ungewertete Aufgaben, Kurtosis bzw. Wölbung: -.50 und -.54). Entweder haben sehr wenige Personen dieses Material tatsächlich gesehen, oder diese haben sich die richtigen Lösungen der vorher bekannten Aufgaben nicht merken können.

Die vorher bekannten Aufgaben reihen sich bezogen auf Schwierigkeit (Lösungswahrscheinlichkeit) und Trennschärfe (Korrelation Lösungswahrscheinlichkeit mit Gesamtleistung der Aufgabengruppe) an den aufgrund der in Deutschland 1996 ermittelten Kennwerten in die jeweilige Aufgabengruppe ein, sind z.B. nicht im Mittel leichter oder mit niedrigerer Trennschärfe verbunden, weil z.B. die Beantwortung anders funktioniert hätte (siehe Tabelle rechts). Sie sind über diese vergleichsweise lange Zeit gleich schwer geblieben, was für hohe zeitliche Stabilität der gemessenen Merkmale spricht.

Musste man die 14 Fragen überhaupt streichen - und waren nur diese bekannt?

  • Eine "forensische Statistik" identifiziert auf zwei Arten Personengruppen, die wahrscheinlich von der Aufgabenbekanntheit profitiert haben.
  • Diese Gruppen zeigt nur Unterschiede in den vorher bekannten Aufgaben (was an der Art der Gruppenbildung liegt und trivial ist)
  • Wichtig ist, dass es keine weiteren Aufgaben gibt, die dem Antwort-Muster der vorher bekannten Aufgaben folgen.
Vergleich der mittleren Aufgabenschwierigkeiten gewertete und nicht gewertete Aufgaben für Gruppen aufgrund Regression und Prozenträngen: Nur Unterschiede bei nicht gewerteten Aufgaben nachweisbar - Zum Vergrössern klicken
Schwierigkeiten der Aufgaben für die Trainingsgruppe im Vergleich zu anderen - Zum Vergrössern klicken

Man musste die vorher bekannten Aufgaben streichen, weil die Bekanntheit der Aufgaben vor dem Test eine formaljuristisch relevante Tatsache war. Selbst wenn nur ganz wenige Personen profitiert oder mehr Personen weniger als erwartet profitiert hätten, bliebe der Einwand möglicher Bevorteilung allein durch das Vorhandensein dieses Materials gültig.

Weitere statistische Methoden dienen der Herausfilterung von Gruppen, die Personen mit der höchsten Wahrscheinlichkeit eines Profitierens von der Aufgabenbekanntheit haben. Wir wählen zwei Methoden, einmal bezogen auf relative und einmal auf absolute Differenzen zwischen den Leistungen in den gewerteten und nicht gewerteten Aufgaben, um Personen mit dieser Wahrscheinlichkeit jeweils "anzureichern":

  • Relative Unterschiede: Ein Ansatz führte über eine Regressionsanalyse. Über die Punktwerte in den gewerteten Aufgaben kann abgeschätzt werden, welcher Punktwert in den 14 eliminierten Aufgaben aufgrund des Leistungsniveaus jedes Kandidaten erwartet werden durfte. 50 Personen, deren Punksumme in den 14 Aufgaben diesen Erwartungswert am deutlichsten übertreffen, wurden in der Folge in die "wahrscheinliche Trainingsgruppe" eingeteilt - dort ist die höchste Wahrscheinlichkeit gegeben, dass diese Personen von der Bekanntheit der Aufgaben profitiert haben. Nicht alle Personen müssen am Trainingskurs teilgenommen haben, der Unterschied kann zufällig bzw. messfehlerbedingt sein. Wenn es aber überhaupt diesen Profit gibt, der grösser als der Messfehler sein sollte, müssen sich diese Personen in dieser Gruppe gehäuft finden. Andernfalls gäbe es überhaupt keinen Trainingseffekt[5]. Diese Trainingsgruppe unterscheidet sich nicht von den übrigen Personen bezüglich der Gesamtleistung.
  • Absolute Unterschiede: Eine weitere „Extremgruppe 90/50“ wird aus 49 Personen gebildet, die in den 14 ungewerteten Aufgaben mindestens Prozentrang 90 erreicht haben (also zu den besten 10% in diesen Aufgaben gehören, das bedeutet mindestens 11 Aufgaben gelöst haben), sowie im Faktor „Schlussfolgerndes Denken“[6], über alle gewerteten Aufgaben maximal Prozentrang 50 erreicht haben (also zu den „schlechteren“ 50% in den gewerteten Aufgaben dieses Faktors gehören). Auch hier ist also die Diskrepanz zwischen gewerteten und ungewerteten Aufgaben am höchsten - es gilt die gleiche Einschränkung wie oben, dass die Unterschiede auch messfehlerbedingt sein können. Diese Extremgruppe hat bedingt durch die Auswahl durchschnittlich schlechtere Gesamtleistungen als die übrigen Personen.
    • Für beide Gruppen (siehe Balkendiagramm rechts als Lösungswahrscheinlichkeit/Itemschwierigkeit) ist ein Vorteil nur in den nicht gewerteten Aufgaben sichtbar (was wegen der Art der Gruppenbildung so sein muss und trivial ist).
    • Wichtiger ist: Bei den vorher nicht bekannten Aufgaben in den drei betroffenen Aufgabengruppen tritt kein Unterschied auf bzw. sind die Leistungen sogar etwas schlechter.
    • Die Unterschiede sind vergleichbar mit Leistungen bei beiden nicht von einer Bekanntheit betroffenen Aufgabengruppen des Faktors Schlussfolgerndes Denken: "Planen und Organisieren", sowie "Medizinisch-naturwissenschaftliches Grundverständnis".
    • Störungen hätten sich z.B. in geringfügigeren aber vorhandenen Unterschieden zugunsten der Trainingsgruppe auch bei den nicht gewerteten Aufgaben der betroffenen Aufgabengruppen zeigen müssen - mehr als in den nicht betroffenen Aufgabengruppen. Praktisch entspricht das Ergebnis genau der Erwartung, wenn man 14 beliebige Aufgaben von drei nicht betroffenen Aufgabengruppen für die Gruppenbildung verwendet hätte[7]. Die Differenzen in den nicht gewerteten Aufgaben sind - durch die Art der Gruppenbildung - natürlich kein Beleg, dass es eine klar identifizierbare Personengruppe gäbe, die nachweislich von der Bekanntheit profitiert hat, weil die maximalen Differenz bei den nicht gewerteten Aufgaben ja zur Gruppenbildung verwendet worden ist.

Es wurde auch geprüft, ob einzelne weitere Aufgaben der Version 2014 in einem Trainingsmaterial des Anbieters enthalten und damit bekannt waren. Vergleiche einzelner Aufgabenschwierigkeiten der Trainingsgruppe mit den übrigen Personen zeigen, dass sich nur die 14 ungewerteten Aufgaben aus den betroffenen Aufgabengruppen signifikant unterscheiden (Liniendiagramm). Würden einzelne weitere Aufgaben ebenfalls bekannt gewesen sein, müssten sie diesem Muster gleichfalls folgen. Diese Analyse wurde auch für alle anderen Aufgabengruppen des EMS 2014 vorgenommen – keine weitere Aufgabe weist signifikant derartige Differenzen auf. Weitere bekannte Aufgaben hätten einen gleichen systematischen Unterschied aufgewiesen wie die 14 übrigen bekannten Aufgaben, wo nicht (nur) der Messfehler zu diesem Unterschied geführt hätte.

Man muss der Vollständigkeit halber einschränken, dass es andere Traininganbieter mit anderen bekannten Aufgaben geben könnte - uns vorliegende Vermutungen (es gab weitere anonyme und nicht anonyme Nachrichten) bezogen sich allerdings ebenfalls nur auf diesen einen Anbieter. Es gab und gibt keinen Anlass, eine Nutzung "originalidentischer" Aufgaben auch anderen Trainingsanbietern zu unterstellen.

Korrekturverfahren sind geregelt

  • Korrekturverfahren zum Ausgleich von Benachteiligungen sind bei EMS definiert.

Folgendes gilt generell für Korrekturverfahren beim EMS:

  • Die rechtlichen Grundlagen des NC schreiben die Messung der Eignung unter gleichen Bedingungen für alle Personen vor (Gleichbehandlung bzw. Rechtsgleichheit).
  • Ist diese Gleichheit verletzt, muss man durch ein geeignetes und transparentes Verfahren korrigieren, was korrigierbar ist – zumeist durch Boni für Benachteiligte.
  • Aufgaben, die nicht unter vergleichbaren Bedingungen für alle beantwortet werden können, sind entsprechend der methodischen Standards für die Wertung auszuschliessen (was z.B. auch bei entstellenden Druckfehlern anzuwenden ist).

Da die einzelnen Vorkommnisse schwer konkret vorhersehbar sind, ist das Standardverfahren in solchen Fällen: (1) Analyse durch das ZTD und Erarbeitung eines Vorschlages (2) Prüfung und Entscheidung durch die politisch verantwortlichen Gremien (3) Vollzug. Dieses Vorgehen wurde auch in diesem konkreten Fall angewendet. Der anonyme Brief ging am 23.7. effektiv ein, bis 7.8. müssen die Zulassungsbescheide ausgesendet werden. Die Herausforderung für alle Beteiligten (ZTD, CRUS, SUK und Universitäten) war, eine sachgerechte Entscheidung zu treffen und trotzdem den Termin einzuhalten. Dieses Verfahren wurde auch in diesem Falle eingehalten.

Warum kann "Fakten lernen" gewertet werden?

  • Auch bei Fakten Lernen gibt es keine Hinweise auf bedeutsame Vorteile, es kann gewertet werden.
Mittelwerte (m) Standardabweichungen (s) und Personenzahl (n) "Fakten Lernen" für je 5 Klassen nach Punktwert und Punkten in 14 ungewerteten Aufgaben n.b.: Nicht berechnet, da nur 2 Personen - Zum Vergrössern klicken
Vergleich der Schwierigkeiten der einzelnen Aufgaben bei "Fakten lernen" für Extrem- und Vergleichsgruppe - Zum Vergrössern klicken
Signifikanzprüfungen der Unterschiede Fakten Lernen für Trainingsgruppe (Regression) und Vergleichsgruppe - Zum Vergrössern klicken

Es gab grosse Übereinstimmungen beim zu lernenden Material - allerdings auch Abweichungen. Die dazu in der Reproduktionsphase gestellten Fragen waren andere als in der Trainingsversion. Wie wirken sich die Unterschiede der Lernliste und die anders gestellten Fragen aus?

  • Für je 5 Personen-Klassen nach den gesamt-Punktwerten und in den vorher bekannten Aufgaben wird untersucht, ob es Vorteile beim Fakten Lernen für die Personen mit hoher Punktzahl in den ausgeschlossenen Aufgaben gibt. Die besten mittleren Leistungen bei "Fakten Lernen" haben nicht die Personen mit den höchsten Punktwerten in den nicht gewerteten Aufgaben[8]
  • Bildet man eine Extremgruppe „Training“ aus Personen mit mindestens 11 Punkten aus den 14 eliminierten Aufgaben, die gleichzeitig einen maximal durchschnittlichen Wert in der Gesamtpunktzahl des entsprechenden Faktors "Werkzeugfunktionen" (Aufgabengruppen Fakten lernen, Figuren lernen, Schlauchfiguren, Muster zuordnen und Konzentriertes und sorgfältiges Arbeiten) erzielt haben[9], so liegt diese auch bei einer Analyse der einzelnen Items dieser Aufgabengruppe wie erwartet fast durchwegs unterhalb der mittleren Lösungswahrscheinlichkeit aller übrigen Teilnehmenden (siehe Schwierigkeitsdiagramm). Hier müssten sich bessere Leistungen der Extremgruppe zeigen, wenn sie profitiert hätte.
  • Die weiter oben erläuterte aufgrund einer Regressionsanalyse gebildete Trainingsgruppe mit der grössten Differenz der Erwartung in den ungewerten Aufgaben geschätzt aus den gewerteten Aufgaben zeigt ebenfalls keine signifikanten Unterschiede in den Punktwerten[10].

Alle drei empirischen Ergebnisse zeigen keine signifikanten Vorteile für Personen, denen das Material am wahrscheinlichsten bekannt war.

Da sich keine Vorteile für Personengruppen nach möglicher Vorkenntnis nachweisen lassen (sondern in einer Analyse sogar Nachteile) ist die Wertung und Beibehaltung dieser Aufgabengruppe gerechtfertigt.[11].

Es gibt auch eine psychologische Erklärung, warum Personen mit "Vorkenntnissen" sogar etwas schlechter sind: Das Umlernen einer vorhandenen Lernliste ist in der Regel schwererer als das Neulernen. Man muss die Unterschiede ausserdem auch bemerken. Beim Abruf der gelernten Dinge kann es dann zu sogenannten proaktiven Interferenzen[12] zwischen ursprünglicher und veränderter Liste kommen, indem diese nicht ausreichend unterschieden werden können. Es kommt zur Beeinflussung bzw. Überlagerung von neu erworbenen Gedächtnisinhalten durch früher Gelerntes. [13] Die Vorgabe der ähnlichen Liste reduziert die Reproduktionsleistung der usprünglichen Liste. Underwood (1957) als einer der "Pioniere" der Forschung auf diesem Gebiet hat dies in dem Satz zusammengefasst "Je mehr {Ergänzung: und auch je intensiver} Listen vorher gelernt wurden, desto geringer ist die Wahrscheinlichkeit, die neue Liste korrekt zu erinnern".[14] Danach haben Personen, die ähnliche Listen vorher gelernt haben, sogar Nachteile gegenüber Personen, die eine Liste neu lernen, was die Ergebnisse erklären würde.

Die Güterabwägung hinsichtlich der Wertung basierte daher auf folgenden Überlegungen:

  • Gegen eine Wertung spräche die hohe Ähnlichkeit des Lernmaterials als formaler Tatsache, um jedes Risiko vermeintlicher Vorteile auszuschliessen. Auch bei Nichtwertung hätte der Test noch ausreichend Differenzierungsleistung für eine Zulassung erbracht (er ist von Beginn an sehr leicht - viele Personen erreichen hohe Punktzahlen und die Streuiungen sind gering). Es gäbe eine Kompensation der Reduktion im Faktor "Schlussfolgerndes Denken".
  • Für eine Wertung sprechen die empirischen Befunde, sowie der Erhalt aller Facetten im EMS, was ein Pluspunkt für die Vergleichbarkeit zwischen den Jahren ist. Schon im anonymen Brief wurde angemerkt: In solchen Trainingskursen werden sehr viele neue und nachempfundene Testversionen geübt. Es war zu dem Zeitpunkt nicht bekannt, welche Version wirklich in 2014 verwendet wird. Insofern konnte diese eine nicht speziell gelernt werden. Es wurde dann zwar bemerkt, dass diese Version schon einmal bearbeitet wurde - man "bereute" aber mehr, dass man diese nicht besser gelernt hat.

Neue Nachteile durch die Nichtwertung oder weitere Vorteile durch die Bekanntheit?

Entsteht durch die Nichtwertung ein Nachteil?

  • Ein psychologischer Test funktioniert anders als eine Prüfung.
  • Die Rangreihen nach der Eignung sind äquivalent für alle Aufgaben und die gewerteten Aufgaben.
  • Für neue ungerechte Nachteile gibt es keine Hinweise.
Wie NC und EMS bei der Zulassung funktionieren - Zum Vergrössern klicken

Es ist auf den Unterschied zwischen Prüfungen und einem psychologischen Test hinzuweisen. Die Fragen sind der „Parcours“, welche die Personen aufgrund der erreichten Punkte nach ihrer Eignung reihen - der kann 50, 100, 150 oder 200 Fragen haben, muss nur für alle Personen gleich sein und eine Rangfolge der Personen nach der Fähigkeit (Studieneignung) generieren. Man kann den EMS also nicht "bestehen" oder nicht, die Zulassung richtet sich nur nach den Kapazitäten (weil nicht mehr Personen zugelassen werden können, ohne die Studienqualität zu beeinträchtigen).

Wenn der Test richtig konstruiert ist, sind die Leistungen in den gewerteten und den ungewerteten Aufgaben der drei betroffenen Aufgabengruppen hoch korreliert. Die Rangreihe nach der Leistung mit allen Abstufungen zwischen Personen (die unter regulären Bedingungen teilnehmen) muss sich dann in den gewerteten und allen Aufgaben gleichermassen zeigen, alle Abweichungen davon wären aus Sicht der psychologischen Theorie Messfehler und zufällig.

Korrelationen der ursprünglichen mit den verkürzten Punktwerten der betroffenen Aufgabengruppen. Gelb: Die Äquivalenzschätzungen der jeweiligen Lang- und Kurzform - Zum Vergrössern klicken

Dies muss so sein, weil alle Einzelaufgaben konsistent das gleiche Merkmal messen – und nicht wie bei Prüfungen unterschiedliche inhaltliche Facetten sind (wenn in einer Biologieprüfung z.B. alle Genetikfragen nicht gewertet würden, käme es zu Nachteilen für Personen, die gut auf diesem Gebiet sind). Zwischen den Aufgaben der jeweiligen Aufgabengruppe gibt es keinen inhaltlichen Bezug, sondern nur die formal gleiche Anforderung (z.B. Textverständnis, Diagrammverständnis). Die Zusammensetzung der konkreten Aufgabeninhalte ist also auch zufällig.

Der Einwand, dass es Personen gibt, die ausgerechnet in den 14 Aufgaben besser waren und durch die Nichtwertung sich nun relativ verschlechtert hätten, gilt eigentlich nur für Personen, die von der Bekanntheit wirklich profitiert haben. Bei allen anderen Personen wäre dieser messfeherbedingte Unterschied symmetrisch (kann Verbesserung wie Verschlechterung bedeuten).

Auch dies kann statistisch geprüft werden: Üblich ist es, mit der sogenannten Paralleltest-Reliabilität die Äquivalenz von 2 Messungen zu prüfen. Sind die Messungen mit allen und nur den gewerteten Aufgaben äquivalent, kann die eine Messung die andere ersetzen, beide Messungen differenzieren die Personen nach der Leistung auf gleiche Weise. In der Tat korrelieren die Punktwerte aller Aufgaben mit jenen der gewerteten Aufgaben mit 0.91 bis 0.97. Reliabilitäten ab 0.85 werden üblicherweise als hoch eingeschätzt – da eine Teilmenge mit einem Ganzen verglichen wird, muss der Wert hier etwas höher sein.

Für den gesamten Test (was für die Zulassung zählt) erreicht die Äquivalenz geschätzt aus der Korrelation der ursprünglichen mit der gültigen Version für den Punktwert 0.996, für den Test-Prozentrang 0.995 und für den mittleren Rangplatz 0.996. Dies ist mehr als ausreichend für die Annahme einer vollständig vergleichbaren Rangreihe nach der Studieneignung.[15]

Ändert sich das Gewicht der Aufgabengruppen durch die Nichtwertung?

  • Die Gewichte der Aufgabengruppen sind nicht mehr verändert als zwischen den verschiedenen bisherigen Versionen des EMS
Langjährig konsistente Faktorenstruktur der Aufgabengruppen des EMS - Zum Vergrössern klicken

Die drei betroffenen Aufgabengruppen gehören zum wichtigen Faktor „Schlussfolgerndes Denken"[16], zu welchem noch die nicht betroffenen Aufgabengruppen „Medizinisch-Naturwissenschaftliches Grundverständnis“ und „Planen und Organisieren“ gehören[17].

Dieser varianzstärkste Faktor ist aktuell normalerweise mit 98 Aufgaben vertreten, jetzt noch mit 84. Bis 2004, ohne „Planen und Organisieren“ waren es nur 78 Aufgaben (wie noch heute im deutschen TMS). Die Gewichtung dieses Faktors ist also immer noch höher als in den ersten Formen des EMS. Die Reduktion ist bedauerlich, die dadurch sich ändernde Zusammensetzung des EMS liegt aber noch im bisherigen Schwankungsbereich und ist kein Grund, die Gültigkeit des Tests generell anzuzweifeln.

Es nirgends eine Begründung für die Forderung, dass alle Aufgabengruppen gleich gewichtet in den Punktwert eingehen müssen. Schon durch die unterschiedlichen Varianzen, die bewusst nicht korrigiert werden, sind die Gewichte unterschiedlich. Die Interkorrelation der Aufgabengruppen untereinander und ihre Zusammenfassung zu unterschiedlich durch die Aufgabengruppen repräsentierten Faktoren ist ein zweiter Grund. Rechtsgleichheit gilt also für Personen, nicht für Aufgaben: der "Parcours" der zu bewätigenden Aufgaben muss gleich sein und sie müssen prädiktiv für Studiererfolg sein.

Es wurde auch erwogen, die Resultate der betroffenen Aufgabengruppen proportional auf die vollen Punktzahlen wieder hochzurechnen. Das wären allerdings „neue Spielregeln während des laufenden Spiels“ gewesen[18]. Deshalb wurde davon abgesehen.

Was ist mit Zeitvorteilen der Personen, welche Aufgaben kannten, bei den übrigen Aufgaben?

  • Zeitvorteile sind theoretisch unwahrscheinlich, weil die Aufgabenschwierigkeit die Lösung mehr bestimmt als die Arbeitszeit
  • Auch empirisch können Vorteile ausgeschlossen werden
Boxplots der Punktsumme gewertete Aufgaben Diagramme und Tabellen, Textverständnis, Quantitative und formale Probleme für je 5 Punktwerteklassen und 5 Klassen Punkte in den 14 ungewerteten Aufgaben. 2 Klassen sind nur mit 2 Personen besetzt! Punkte: Ausreisser - Zum Vergrössern klicken
Signifikanzprüfungen der Unterschiede gewerteter Aufgaben für Trainingsgruppe und Vergleichsgruppe - Zum Vergrössern klicken
Vergleich gewertete/nicht gewertete Aufgaben für Gruppen aufgrund Regressionsanalyse und extremen Prozenträngen. Gewertete Aufgaben und nicht betroffene Aufgabengruppen weisen keine Unterschiede auf. Dies spricht gegen Zeitvorteile - Zum Vergrössern klicken

Es wurden Vorteile von Personen mit Vorkenntnissen der 14 Aufgaben auch bei den gewerteten Aufgaben der betroffenen drei Aufgabengruppen vermutet, etwa durch „gewonnene Zeit“. Die betroffenen Aufgabengruppen gehören allerdings zu jenen mit vergleichsweise reichlicher Bearbeitungszeit, weil dort kein zu grosser Zeitdruck gewünscht ist (2 x 50 und 1 x 45 Minuten).

Das Boxplot liefert zunächst eine „visuelle“ Übersicht über die Daten. Dort wurden die Personen nach dem EMS-Gesamt-Punktwert in fünf ca. 20% umfassende Leistungs-Gruppen eingeteilt. Analog wurden fünf Klassen nach der Punktzahl nur für die ungewerteten Aufgaben gebildet, in der besten Klasse sind Personen mit 13 und 14 Punkten zusammengefasst. Gewertete und ungewertete Aufgaben sind durch den Bezug auf den gleichen Messbereich hoch korreliert, das Niveau in beiden sollte auch vom Gesamt-Punktniveau abhängen. Die Boxplots zeigen für die Gruppen nach Punkten in den bekannten Aufgaben ein homogenenes Bild: Sie steigen zwischen den gleichen Punktwerteklassen ungewerteter Aufgaben innerhalb jeder Gesamt-Punktwerteklasse sowie auch zwischen den Klassen der Gesamt-Punktwerte gleichsinnig. Auch die Klasse mit 13 und 14 Punkten in den bekannten Aufgaben setzt sich von den übrigen nicht ab, bei einem substantiellen Punktezuwachs durch Zeitgewinn müssten sich die Klassen mit den höchsten Punktzahlen in den ungewerteten Aufgaben „unabhängiger“ von ihrem Gesamtpunktwert darstellen. Vor allem die statistischen Belege sind evident, dass es keine Zeitvorteile gibt. Sollte die Bekanntheit einiger Aufgaben der betroffenen Aufgabengruppen einen Einfluss auf die Bearbeitung der übrigen Aufgaben derselben Aufgabengruppe gehabt haben (Zeitgewinn), dann müsste die oben beschriebene "Trainings"-Gruppe auch in den gewerteten Aufgabenwenigstens einen etwas höheren („unerklärlichen“) Punktwert als den Erwartungswert erhalten, die mittlere Differenz zwischen tatsächlichem Wert und Erwartungswert in der Trainingsgruppe also signifikant höher ausfallen[19]

Die entsprechenden Ergebnisse sind pro Aufgabengruppe in der Tabelle rechts oben dargestellt. In dieser Trainingsgruppe sind Personen fast aus dem ganzen Leistungsspektrum berücksichtigt – es besteht hier deshalb kein signifikanter Unterschied zwischen diesen beiden Gruppen hinsichtlich des Gesamtpunktwerts (113.2 Vergleichsgruppe, 113.5 Trainingsgruppe). Der Vergleich der Trainingsgruppe (n=50) mit der unauffälligen (deutschsprachigen) Vergleichsgruppe (n=2780) zeigt: Sowohl der mittlere Punktwert wie auch die mittlere Differenz zum Erwartungswert unterscheiden sich nicht signifikant. Auch in der „Trainingsgruppe“ entsprechen die Punktwerte den durch das individuelle Leistungsniveau erwarteten Werten. Dieser Betrachtungsansatz liefert somit keinerlei Hinweise, dass die Punktwerte in den gewerteten Aufgaben durch eine systematische Begünstigung (Zeitgewinn) in dieser Gruppe erhöht wurden. Es treten auch im Gedächtnistest "Fakten lernen" keine Unterschiede auf.

Ausserdem sei noch einmal auf die Balkendiagramme darunter hingewiesen, die weiter oben bereits erläutert worden sind. Für Trainings- und Extremgruppe sind bei den gemittelten Schwierigkeiten der gewerteten Aufgaben keine Unterschiede zur Vergleichsgruppe vorhanden - die Unterschiede entsprechen denen in den nicht betroffenen Aufgabengruppen. Hier hätte man beim Wirken von Zeitvorteilen erwartet, dass die Differenzen in den nicht gewerteten Aufgabengruppen der betroffenen drei Aufgaben etwas mehr zugunsten der Trainingsgruppe ausfallen als in den nicht betroffenen Aufgabengruppen. Stattdessen sind sie vergleichbar.

Hier kam auch das Missverständnis auf, dass es generell auf kürzere Bearbeitungszeiten oder Zeitdruck zurückzuführen sei, dass beim EMS nur 50% der Aufgaben von der Hälfte der Personen richtig gelöst werden. Bei den betroffenen Aufgabengruppen kommt dies nicht durch Zeitdruck, sondern durch die ansteigende Schwierigkeit zustande, die ab einem bestimmten Punkt jeweils die individuelle Fähigkeit übersteigt.

Es gibt drei weitere Gründe gegen Zeitvorteile:

  • Zum einen müssen die Teilnehmenden in jedem einzelnen Fall analysieren, ob die Aufgaben wirklich identisch oder nur ähnlich sind und benötigen dazu ebenfalls Zeit.
  • Zum zweiten sind alle drei betroffenen Aufgabengruppen mit relativ reichlicher Bearbeitungszeit versehen, weil in diesem komplexeren Bereich kein zu grosser Zeitdruck gewünscht ist (2 x 50 und 1 x 45 Minuten). Der mögliche Zeitvorteil verteilt sich auch auf drei Aufgabengruppen, die in getrennten Zeitfenstern bearbeitet werden.
  • Zum dritten und vor allem steht Zeit bei diesen komplexen Aufgaben in keiner linearen Beziehung zur Leistung. Wenn die Fähigkeit nicht ausreichend ist bei schwierigeren Aufgaben, kann man diese auch mit längerer Zeitvorgabe nicht lösen – einige vergleichbare Tests („Niveau- oder Powertests“) arbeiten sogar gänzlich ohne Zeitbegrenzung und die Ergebnisse differenzieren trotzdem nach der Fähigkeit. Auch das gesamte Konzept der sogenannten probabilistischen Testtheorie beruht darauf, dass Fähigkeit und Schwierigkeit einer Aufgabe immer im Einklang stehen und niemand seine Grenzen ohne weiteres „überspringen“ kann[20]. Die ansteigende Schwierigkeit findet sich auch bei den drei betroffenen Aufgabengruppen. Übersteigt die Schwierigkeit einer Aufgabe die persönliche Fähigkeit, wird entweder geraten oder auch eine falsche Antwort gegeben. Die Personen kommen bereits innerhalb der vorhandenen Zeit an die Grenze, wo die Aufgabenschwierigkeit die eigene Fähigkeit übersteigt. Beim Konzentrationstest und einigen anderen nicht betroffenen Aufgabengruppen entscheidet die Arbeitsgeschwindigkeit und damit die zur Verfügung stehende Zeit über die Leistung. "Denkaufgaben" sind ihrem Wesen nach anders. Wir hatten in den früheren Vorbereitungsreports mehrfach festgestellt, dass der Notendurchschnitt das Testergebnis viel genauer vorhersagt als die Vorbereitungszeit, diese die dadurch vorgegebenen Grenzen quasi nicht sprengen kann. Zumindest statistisch gesehen ist der Notendurchschnitt eine mindestens ebenso gute Schätzung der Fähigkeit wie das Testergebnis (allerdings fehlt dort die Vergleichbarkeit zwischen den Kandidaten).

Die Ergebnisse bestätigen daher auch deutlich, dass ein Training sich nicht wirklich auf vorher unbekannte Aufgaben überhaupt auswirkt. Hier bleibt die individuelle Fähigkeit die Grenze, bis zu welcher Schwierigkeit man Aufgaben lösen kann. "Unfreiwillig" wird diese Aussage, die in mehreren Untersuchungen vorher schon gefunden wurde, nun auch unter Ernstfallbedingungen bestätigt. Dies heisst nicht, dass man sich nicht auf den EMS vorbereiten kann und muss (Vertrautheit mit den Anforderungen ist z.B. wichtig). Es bleiben aber weiterhin Zweifel daran gerechtfertigt, dass man dazu teure Trainingskurse besuchen muss.

Könnte man den Test kürzen?

  • Kürzung wäre möglich, ist aber nicht sinnvoll - Differenzierung nach Eignung sollte maximal sein

Es wurde in den betroffenen Aufgabengruppen die Zahl von 20 bzw. 18 Aufgaben auch aus pragmatischen Gründen festgelegt: Je mehr Aufgaben, desto zuverlässiger kann ein Merkmal gemessen werden und umso besser kann man auch die Schwierigkeiten der Aufgaben aufsteigend abstufen. Auch die Differenzierungsfähigkeit der Personen ist feiner (was wegen der Verwendung als Zulassungskriterium notwendig ist - letztendlich ist der Test auch so etwas wie ein "wettbewerbsorientiertes Reihungsverfahren").

Der EMS soll durch sein "langes" Tagesprogramm auch die dem Studium entsprechenden Anforderungen an die Aufrechterhaltung von Aufmerksamkeit und Leistungsfähigkeit simulieren. Eine deutliche Verkürzung würde diesen Aspekt vernachlässigen.

Die jetzt festgestellte hohe Äquivalenz der verkürzten Aufgabengruppen gegenüber den langen Formen belegt zwar, dass die Fähigkeit in den betroffenen Aufgabengruppen (!) praktisch noch gleich gut gemessen wird. Diese Verkürzung ist aber letztlich aus einer Notsituation und zufällig zustande gekommen. Wir würden daher ungern in Zukunft auf die zweifellos bessere Differenzierung der Langformen verzichten.

Welche Alternativen hätte es gegeben?

Hätte man den Test wiederholen müssen oder können?

  • Testwiederholung musste nicht erwogen werden
  • Sie wäre aber auch nicht realisierbar gewesen und als Aktionismus kritisiert worden

Alle Entscheidungen mussten als Abwägungen der Vor- und Nachteile infrage kommender Optionen getroffen werden. Eine Wiederholung wäre die "radikalste" Lösung gewesen. Ist sie aber notwendig und ist sie realistisch?

Diese Alternative musste nicht in Erwägung gezogen werden, weil das Problem anders lösbar war.

Bei genauer Betrachtung wäre sie aber auch kaum realistisch gewesen: Der Test findet in 30 Lokalitäten statt, dies in 8 Testorten und 3 Sprachen. Teilgenommen haben über 3300 Personen. Die logistische Vorbereitung braucht jeweils etwa ein Jahr (Personal, Räume, ca. 80 Seiten gedrucktes Material usw.). Die Tatsachen wurden effektiv am 23.7. bekannt. Das Semester beginnt Mitte September, bis dahin müssen sich viele zugelassene Personen noch am Studienort einrichten. Wirklich realistisch ist eine ausreichend schnelle Wiederholung also nicht. Zumal zunächst auch analysiert werden musste, ob eine garantiert nicht bekannte Version bereitsteht. Jede Neuansetzung mit einer möglicherweise gleichfalls betroffenen Version wäre zu Recht als blinder Aktionismus kritisiert worden. Erst jetzt wissen wir genauer, was passiert ist und dass in Zukunft mit ausreichender Sicherheit wieder nicht bekannte Testversionen eingesetzt werden können.

Hätte man alle Personen zulassen sollen, die je mit und ohne vorher bekannten Aufgaben das Zulassungskriterium erfüllen?

  • Ausser "Profitieren von einer Bekanntheit" gibt es keine sachlichen Gründe, wenn sich das Ergebnis einer Person von "zugelassen" auf "nicht zugelassen" ändert.

Alle Personen zuzulassen, die mit und ohne die ausgeschlossenen Aufgaben jeweils über der Kapazitätsgrenze liegen, wäre zum einen ungerecht gewesen: Es wären die Personen bevorteilt worden, die durch die Vorkenntnisse der Aufgaben relativ bessere Werte erreicht haben und durch die Nichtwertung ein realistischeres Ergebnis erhalten haben. Zum anderen sind die Kapazitäten bereits jetzt maximal ausgelastet, weil die Universitäten, ausgelöst durch die Diskussion zum Ärztemangel, die Anfängerkapazitäten seit 2006 um 45% gesteigert haben. Ein Mehr würde sich negativ auf die Studienqualität auswirken, weil die Betreuungskapazitäten und auch ganz einfach die Hörsaalgrössen und anderen Ressourcen ausgereizt sind. Die Diskussion zum weiteren Ausbau der Kapazitäten ist daher nicht ohne Grund mit einem höheren Finanzierungsbedarf der Universitäten verbunden.

Deshalb ist die Version mit den nicht gewerteten Aufgaben die einzig gültige Testversion, welche für die Zulassung 2014 verwendet wurde. Es gibt keine belastbaren Argumente, dass über den Messfehler hinaus Verschiebungen bei der Zulassung substanzielle Gründe hätten. Man könnte genauso darüber diskutieren, dass es Personen gibt, die mit gänzlich anderen Aufgaben der vorjährigen Testversion zugelassen worden wären, dieses Jahr aber nicht.

Einzelfall und Statistik

  • Auch Einzelfälle müssen sich regelhaft wiederholen, um Regeln dafür zu finden

Verschiedentlich wurde eingewendet, dass die statistischen Nachweise nicht ausschliessen können, dass Ungerechtigkeiten im Einzelfall aufgetreten seien und schon eine sehr kleine Zahl solcher Ungerechtigkeiten das gesamte Verfahren in Zweifel ziehen müsste. Die sogenannte anekdotische Evidenz erläutert Sinn und Fehleranfälligkeit solcher auf den Einzelfall bezogenen Aussagen, denen im Unterschied zur empirischen Evidenz die Beweiskraft fehlt. Auch der Einzelfall muss sich wiederholen: Die Bedingungen dieses Einzelfalles müssen regelhaft zu bestimmten Effekten führen, erst dann kann über eine Verletzung der Gleichbehandlung befunden werden - andernfalls handelt es sich um Zufall. Die Suche nach Extremgruppen, nach Auffälligkeiten in den Häufigkeitsverteilungen diente dazu, solche "Häufungen von Einzelfällen" zu identifizieren[21]

Nachweise und Fussnoten

Klick auf Pfeil vor dem Fussnotentext: Sprung zur entsprechenden Stelle im Haupttext

  1. Offizielle Seite des ZTD, Informationen für Kandidaten, rechts Hintergrundinformationen, Berichte, Veröffentlichungen und Analysen
  2. EMS in Wikipedia
  3. Nach den jeweiligen Sessionen werden offiziell im Buchhandel angebotene und auch einige zusätzliche Materialien zum Kauf angeboten, was wir regelmässig zur Marktbeobachtung nutzen. Die entwendete Version wurde laut Aufruck den Kandidaten nicht überlassen und danach wieder eingesammelt. Deshalb ist sie auf dem "Markt" wohl nicht in gleicher Weise verfügbar gewesen.
  4. Davor warnen wir seit Beginn des Einsatzes des EMS, siehe http://www.unifr.ch/ztd/ems/info_teilnehmer.htm#gering
  5. Die Zahl 50 wurde nach Versuchen mit weniger und auch mehr Personen gewählt, um einen optimalen Kontrast zu finden. Eine Erweiterung dieser Gruppe führt zu einer „Verdünnung“ des Anteils tatsächlich profitierender Personen und Nivellierung der Effekte, eine Reduktion schmälert die statistische Aussagefähigkeit
  6. bestehend aus den fünf Aufgabengruppen Mathematisch-naturwissenschaftliches Grundverständnis, Diagramme und Tabellen, Textverständnis, Quantitative und Formale Probleme sowie Planen und Organisieren
  7. Genauer formuliert: Es wären die Personen gewählt worden, welche die extremsten Differenzen in den 14 Aufgaben haben, was auch dort den Unterschied vergleichbar zeigen würde - dann nur messfehlerbedingt. Da der Erwartungswert des Messfehlers Null ist würde bei Annahme keiner weiteren systematischen Fehler bei den übrigen Aufgaben ebenfalls keine Differenz (bzw. eine schlechtere Leistung in der Extremgruppe) erwartet werden. Da unsere Ergebnisse diesem erwarteten Modell entsprechen, ist dies ein Hinweis, dass bei den gewerteten Aufgaben keine Vorteile durch die Bekanntheit der nicht gewerteten erreicht worden sind.
  8. Hier wird unterstellt, dass die vorherige Bekanntheit der Aufgaben zu besseren Leistungen geführt haben müsste, wenn der Trainingskurs überhaupt einen Effekt gehabt haben soll. Im Vorbereitungsreport_2014 wird gezeigt, dass diese Effekte offenbar insgesamt recht gering waren
  9. Auf diese Weise wird wieder eine Differenz innerhalb von Fähigkeitsbereichen gesucht, die aufgrund der gleichen Ladungsmuster in den Faktoren eher ähnlicher sind
  10. Die Bildung dieser Gruppe isst auch im Vorbereitungsreport_2014 erläutert
  11. Auch eine Nichtwertung dieser Aufgabengruppe wäre vorgeschlagen worden, wenn die Notwendigkeit dazu bestanden hätte. Die Zahl der verbleibenden Aufgaben wäre immer noch gross genug gewesen für eine zulassungsrelevante Rangreihe nach der Eignung. Das hätte dann der Intention entsprochen, den Faktor "Schlussfolgerndes Denken" im EMS generell höher zu gewichten - eine entsprechende Studie ist seit 2013 in Arbeit, die Gewichtungen sollen anhand der empirischen Prognosedaten geprüft und ggf. verändert werden.
  12. aus "Dorsch - Lexikon der Psychologie 2014: I. bezeichnet den störenden Einfluss eines Vorgangs auf einen anderen...
 In der Ps. des verbalen Lernens wird zwischen retroaktiver I. und proaktiver I. unterschieden. Wenn späteres Lernen die Reproduktion des früher Gelernten behindert, liegt retroaktive I. vor. Bei der proaktiven I. wird die Reproduktion des später Gelernten durch früheres Lernen gehemmt. Retroaktive I. und proaktive I. sind von der Ähnlichkeit der Lernstoffe des ersten und zweiten Lernens abhängig. Dies ist insbesondere. beim Paar-Assoziations-Lernen untersucht worden. Werden beim späteren Lernen dieselben Reize (Reiz) wie bei dem früheren Lernen verwendet (maximale Ähnlichkeit), aber mit ganz anderen Responses (response) verknüpft, so zeigt sich im Vergleich zu einer Kontrollbedingung eine verminderte Leistung bei der Reproduktion des früher Gelernten (retroaktive I.) und des später Gelernten (proaktive I.). Erklärt wurden derartige Phänomene mit der Interferenztheorie des Vergessens, die eine bedeutsame Rolle in der Ps. des verbalen Lernens gespielt hat.
  13. Dieses Prinzip wird in einigen Gedächtnistests benutzt, um diese Interferenzneigung zu messen, die ein Parameter für Stabilität der Gedächtnisprozesse ist, z.B. California Verbal Learning Test - Deutsche Adaptation von H. Niemann, W. Sturm, A.I.T. Thöne-Otto, K. Willmes: Hogrefe 2008. Hier werden 2 ähnliche Wortlisten vorgegeben und sind nach einem System mit und ohne Hilfe zu reproduzieren.
  14. siehe z.B. Folie 8 hier Lehrmaterial der FU Berlin. Umlernen ist in diesem Falle durch diese Interferenzen einem Neulernen ggf. unterlegen - auch weil die Aufgabengruppe leicht ist und hohe Punktzahlen auch durch Neulernen erreicht werden.
  15. Der NC ist in der Schweiz noch vergleichsweise "mild", es konnten in Humanmedizin 35% der Bewerbungen einen Platz zugewiesen bekommen. In Deutschland sind es 2014 nur 20% (43002 Bewerbungen, 8999 Plätze; Die WELT vom 16.8.2014, Seite 21, Quelle: Stiftung für Hochschulzulassung, in Österreich für alle Disziplinen 16% Die Presse.com vom 6.8.2014, 9948 Bewerbungen, 1561 Plätze für alle Disziplinen. Neben dem Test-Prozentrang wird dazu ein zweites Kriterium "Mittlerer Rangplatz" bei Gleichheit des ersten angewendet, falls weiter differenziert werden muss siehe http://www.unifr.ch/ztd/ems/EMSaufbau.pdf Seite 2 ff. Die abgelehnten Personen im Grenzbereich der Zulassung sind daher nicht ungeeignet für ein Medizinstudium (in den ersten Jahren wurden bis 90% zugelassen), mögliche minimale Verschiebungen durch die Verkürzung ändern daher nichts an der Eignung der Zugelassenen.
  16. Merkmal mit hoher gemeinsamer Varianz der eingeschlossenen Aufgaben, die also etwas Gemeinsames messen
  17. Vergleiche dazu die Ergebnisse der Faktorenanalysen in den Berichten des ZTD, z.B. Bericht 20, Seite 81 ff.
  18. z.B. nimmt man Kommazahlen bei Punkten, oder rundet man? Die Varianz wäre auch „künstlich“ erhöht worden, es hätten Zwischenwerte gefehlt und durch richtige Lösung einer einzigen Aufgabe hätte man plötzlich z.B. 1.2 Punkte bekommen – bei Nichtlösung quasi verloren. Da die Aufgaben unterschiedlich schwierig sind, hätte eine gleiche proportionale Erhöhung aller Aufgaben möglicherweise auch die Differenzierung innerhalb jeder Aufgabengruppe verändert.
  19. Das trifft vor allem auf die durch Regression gebildete Trainingsgruppe zu, die sich im mittleren Punktwert nicht von den übrigen Personen unterscheidet. Wenn für die diese Gruppe die Unterschiede in den bekannten Aufgaben schon durch deren Bildung deutlich sind, hätte man - wenn die Trainierten bevorzugt darunter sind - erwartet, dass sie auch einen (ggf. weniger deutlichen) Vorteil bei den nicht bekannten Aufgaben haben müssten.
  20. Niveautests enthalten Aufgaben mit zunehmender Aufgabenschwierigkeit. Das bedeutet, dass jede nachfolgende Aufgabe schwieriger ist als die vorhergehende. Der Proband kann also die Aufgaben soweit bearbeiten, bis sie für ihn zu schwer sind, um sie zu lösen. Im Grunde ist keine Zeitvorgabe notwendig, da selbst bei unbegrenzter Zeitvorgabe nicht alle Aufgaben gelöst werden können und der Proband anfangen muss zu raten. https://de.wikipedia.org/wiki/Schnelligkeitstest_und_Niveautest
  21. Richtig ist, dass man Statistik verantwortungsvoll einsetzen und dabei auch objektiv vorgehen muss. Auch eine Ungerechtigkeit im Einzelfall bedarf einer Begründung, darf nicht nur als "spekulative" Möglichkeit bestehen. Beispielsweise wurde dies bei möglichen Verschlechterungen durch die Nichtwertung der 14 Aufgaben vorgebracht: Man könne ja genau in den 14 Aufgaben besser sein als in den übrigen gewerteten Aufgaben. Sehen wir von den Personen ab, die von der Aufgabenbekanntheit profitiert haben und zu Recht etwas zurückfallen belegt hier die Statistik die Äquivalenz der ursprünglichen und der in der gültige Fassung verwendeten Punktsummen dieser Aufgabengruppen. Dies bedeutet, dass die Reihung der Personen vergleichbar bleibt. Vom Konzept her sind Abweichungen dann nur noch Messfehler und nicht substanziell bzw. inhaltlich begründbar (und es sind Verbesserungen ebenso wahrscheinlich wie Verschlechterungen).