DE:Testergebnisse

Aus ZTDWIKI
Wechseln zu: Navigation, Suche
Editorlogo3.png
MIRROR ztd.ch


Interpretation -  Profilblatt und Merkmale

Normbereiche - Zum Vergrössern klicken
Merkmalsansicht im HTS - Zum Vergrössern klicken
Verschiedene Normskalen - Zum Vergrössern klicken
Profil mit Vertrauensintervall - Zum Vergrössern klicken

Die Interpretation erfolgt üblicherweise so, dass das konkrete Ergebnis einer Person in einem diagnostischen Merkmal mit einer Normgruppe verglichen wird - die Person in diese Normgruppe eingeordnet wird. Meist wird die Normalverteilung verwendet und in der ersten Abbildung sind Bereiche angegeben, wie man das Ergebnis bewerten kann (es sind gröbere oder feinere Unterteilungen möglich). Um die Interpretation vorzunehmen, muss man folgende Dinge kennen:

  • Den Inhalt des gemessenen Merkmals: In der Regel finden sich Beschreibungen für niedrige und hohe Ausprägungen im Handbuch oder werden in der Merkmalsansicht im HTS mit ausgegeben (siehe 2. Abbildung).  Facetten nennt man die Unterbereiche eines Merkmals (z.B. Kontrollbedürfnis hat die Facetten Gründlichkeit, Ordnungsliebe und Sparsamkeit). Sind auch diese nicht angegeben, kann man sich in der Itemansicht nach Merkmalen selbst ein Bild über die Inhalte verschaffen (dies wird  auch zum Kennenlernen eines Verfahrens empfohlen).
  • Die genaue Beschreibung der Normgruppe (Normierungsstichprobe) - repräsentative Normalbevölkerung oder eine bestimmte Auswahl (Piloten, Therapiepatienten, Fahranfänger usw.)
  • Die verwendete Normskala: Liegt die Nomalverteilung der Interpretation zugrunde, sind die Kenntnis des Mittelwertes und der Standardabweichung der Skala (wird im Profilblatt mit angegeben) notwendig. Darüber definiert sich der Mittelbereich und die Abweichung in Einheiten der Standardabweichung.Man beachte, dass die meisten psychologischen Merkmale einem Kontionuitätskonzept folgen. Es ist nicht durch die Norm selbst definiert, ab welcher Abweichung wirklich eine Auffälligkeit vorliegt. Bei gut validierten Verfahren wurde dieser Grenzwert empirisch untersucht unter Abwägung der Risiken einer Fehlentscheidung. Dies finden Sie, wenn Sensibilität und Spezifität des verfahrens diskutiert werden. Alternativ können epidemiologische Daten einbezogen werden (Anteil einer Gruppe in der Normalbevölkerung übersetzt in die Normskala).

Ein Problem bei der Interpretation ist, dass der gleiche Normwert aufgrund verschiedener Kombinationen von Facettenausprägungen zustandekommen kann. (Bespiel: Hohes Kontrollbedürfnis durch hohe Gründlichkkeit, Sparsamkeit und Ordnungsliebe ODER durch niedrige Gründlichkeit, aber sehr hohe Sparsamkeit und Ordnungsliebe). Es ist daher nicht gerechtfertigt, bei der Beschreibung davon auszugehen, dass alle möglichen Inhalte auch gleich hoch oder niedrig ausgeprägt sind. Die klassische Methode des Umgangs mit dem Problem ist es, das Ergebnis im Nachgespräch zu validieren und so die tatsächlich erhöhten/erniedrigten Facetten zu bestimmen. Nicht immer ist dîeses Nachgespräch aber möglich. Eine andere Möglichkeit ist es, sich in der Itemansicht die Items nach dem Beitrag zum Testwert sortieren zu lassen (Punkwertel) und dann zu sehen, welche Inhalte einen besonders hohen Anteil haben. Hier war es lange Lehrmeinung, dass Iteminhalte nicht für die Interpretation verwendet werden können, weil die einzelne Antwort eine zu geringe Zuverlässigkeit hat. Es scheint aber möglich, bei Kenntnis der Facetten eines Merkmals aus dem gesamten Antwortmuster auf die besonders typischen oder untypischen Anteile zu schliessen.

Normskalen

Normskalen unterscheiden sich hinsichtlich der möglichen Differenziertheit. Nicht alle möglichen Normwerte müssen tatsächlich Rohwerten zugeordnet sein. Vor allem bei nicht normalverteilten Rohwerten, die mittels Flächentransformation normalisiert worden sind, treten solche Fälle auf: Etwa bei seltenen Symptomen, wo 50% der Personen keine Ausprägung angeben, wird der Rohwert 0 dann dem Prozentrang 50 und damit z.B. dem Stanine 5 zugeordnet. Im genannten Falle sind Stanine 1 bis 4 nicht definiert. Dieser Effekt kann auch dazu führen, dass ein Rohwert den Normwert a, ein nur um einen Punkt grösserer gleich einen Normwert grösser als a + 1 erhält.
Für jede einzelne Norm kann nur eine Normtabelle in HTS erfasst werden. Dabei wird die differenzierteste veröffentlichte Normskala gewählt – also diejenige, welche die meisten Unterscheidungen zwischen Rohwerten vornimmt. Gleich oder geringer differenzierende Normen lassen sich dann mit „Skalenumrechnung“ aus der erfassten Norm ohne Differenziertheitsverlust transformieren.
Im Einzelfall kann es geschehen, dass durch „Skalenumrechnung“ transformierte Normen durch eine andere Rundung von publizierten „alternativen“ Normtabellen geringfügig abweichen, wenn letztere z.B. die Rohwertbänder an den Klassengrenzen anders zusammenfassen. In diesem Falle „stimmen“ beide Werte. Mögliche Unterschiede sind dann lediglich ein Hinweis, dass ein Rohwert im Überscheidungsbereich von verschiedenen Unterteilungen liegt.
Bei Transformationen von niedrig differenzierenden Normskalen (C, STEN) in höher differenzierende (T, PR) ist zu beachten, dass der höher differenzierende Normwert immer der Klassenmitte der niedrig differenzierenden Skala entspricht - die Unterscheidbarkeit von Rohwerten kann durch die Normwert-Transformation nicht erhöht werden.
Ein Sonderfall ist die STANINE-Norm (5 + 2 z) und die STEN-Norm (5.5 + 2 z) und die wechselseitige Transformation. Die Klassenmitten der STANINE-Norm entsprechen genau den Klassengrenzen der STEN-Norm und umgekehrt. Beide haben nur eine geringe Differenzierung und sind „eigentlich“ nur als ganze Zahlen definiert. Transformiert man STANINE 4 in STEN, entspricht das exakt 4.5 – STANINE 5 wäre 5.5. Rundet man beide entsprechend der üblichen Regeln auf ganze Werte, ist der eine STEN 4, der andere STEN 6. Es „fehlt“ also die 5. Dies würde zu relativ grossen Verzerrungen führen.
In den Fällen der Transformation wenig differenzierender Normen, wo die Klassenmitten der einen Normskala auf die Klassengrenzen der anderen Norm fallen, wird in „Skalenumrechnung“ bei der transformierten Norm zusätzlich die Kommastelle „.5“ angezeigt (also STEN 5.5). Dies soll darauf hinweisen, dass eine Rundung auf ganze Zahlen möglicherweise zu ungenau ist – und keine Entscheidung zwischen den gleich wahrscheinlichen, benachbarten Stufen getroffen werden kann. Je nach Fragestellung muss man dann möglichst eine andere Norm nehmen.
Dennoch müssen Sie bei Tests, die STANINE und STEN gleichermassen „üblich“ verwenden, nicht auf beide Normen mit der gleichen Exaktheit verzichten. Beispielsweise beim BIP wurden beide Normen als Tabellen erfasst und nach den Stanine-Normen (ohne besondere Bezeichnung) werden alle Normen als STEN-Normen bei Normwahl (!!) wiederholt (siehe Beispiel unten). Indem Sie eine STEN-Norm bei Normwahl wählen, wird die genaue Tabelle zur Umrechnung der Rohwerte in STEN verwendet.

Vertrauensintervalle und Kritische Differenzen

Tests, die auf der klassischen Testtheorie beruhen, können hinsichtlich der Fehlerhaftigkeit der Messung betrachtet werden. Jede Messung setzt sich aus wahrem Wert und Messfehler zusammen, der Fehler ist eine Zufallsvariable mit dem Erwartungswert 0. Bei der Bewertung einer einzelnen Messung ist nun von Interesse, in welchem Bereich der Messwert mit einer bestimmten Wahrscheinlichkeit liegt („Vertrauensintervall“) - bei der Bewertung von Differenzen zwischen verschiedenen Messungen interessiert, ab welcher Differenz nicht mehr von einem zufälligen (fehlerbedingten) Unterschied auszugehen ist ("Kritische Differenz"). Berechnet werden diese Vertrauensintervalle und kritischen Differenzen für diejenigen Normwerte, für die eine Reliabilitätsschätzung bekannt ist. Da die Reliabilität verschieden geschätzt werden kann (unterschiedliche Stichproben - Stabilität oder Konsistenz), ist die Gültigkeit der jeweiligen Fehlerbetrachtung vor allem von der Repräsentativität der Zuver-lässigkeitsschätzung für den jeweiligen Fall abhängig. Zur Reliabilitätsschätzung kann man einmal die Stabilität verwenden (dann sollte dies besonders für die Bewertung von Wiederholungsmessungen geeignet sein), zum anderen die Konsistenz (dann vor allem für die Bewertung verschiedener Messungen verschiedener Personen). Asserdem ist eine Irrtumswahrsheinlichkeit zu wählen - 5% oder 1% sind hier übliche Werte.

Reports und automatisierte Interpretationen

Narrativer Report - Zum Vergrössern klicken

Von den „Automatisierungsbefürwortern“ der Psychodiagnostik wird meist gewünscht, dass Testprofile automatisch interpretiert werden, indem für Werte und Wertekombinationen eine Zuordnung zu Textbausteinen erfolgt. Deshalb bieten nun einige Tests auch Textbausteine als Interpretationshilfen an, die normabhängig die individuellen Ergebnisse erläutern.
Durch die DIN-Norm 33430 wird unter Punkt 4.6.2 definiert, „die Ausprägung der interessierenden Merkmale ist im Hinblick auf die Referenzgruppe zu bewerten“ und unter 4.6.3 „bei computergestützten Verfahren mit automatischer Klassifikation und/oder Textbausteinen für die Befundinterpretation und Eignungsbeurteilung trägt der Auftragnehmer in jedem Fall die Verantwortung für die Richtigkeit des übermittelten Befundes“.
Aus diesem Grund ist jeder elektronische Report vom Verantwortlichen hinsichtlich der Gültigkeit bzw. des Zutreffens zu prüfen Für viele Tests existieren Reports, die abhängig vom Normwert oder von Normwert-Kombinationen vorgefertigte Textbausteine als Interpretationshilfe anbieten. Hier muss man sich zuerst des Problems bewusst sein, dass sie in der Regel von einer gleichsinnigen Erhöhung/Erniedrigung aller Facetten eines Merkmales ausgehen. Die Überprüfung der Interpretation wie oben beschrieben ist deshalb ebenso empfohlen wie eine angemessene Erläuterung für die getesteten Personen, dass auch die Interpretationstexte sich nur auf statistisch häufige Zusammenhänge beziehen, die Ursache für Abweichungen vom Mittelbereich im Einzelfall  sich davon unterscheiden können. Da die Interpretation eines Normwertes stark von der verwendeten Stichprobe abhängig ist (so bedeutet "durchschnittliches Führungsverhalten" oder "durchschnittliche Konzentrationsfähigkeit" etwas anderes, ob ich die Normalbevölkerung, Studierende, erfolgreiche Manager oder Piloten als Normgruppe verwende.Grundsätzlich gibt es daher zwei Typen von Reports:

  • normspezifisch: solche die sich auf eine feste Normgruppe beziehen und wo die Textbausteine konkret auf diese Normgruppe zugeschnitten sind ("durchschnittliche" Konzentrationsfähigkeit für Piloten ist in der Normalbevölkerung eben überdurchschnittlich gut). Hier ist der Wechsel der Normgruppe nicht möglich, weil dann die Interpretationen nicht mehr stimmen würden). Sie kommen dem tatsächlichen Vorgehen eines Dagnostikers am nächsten, eine individualisierte Interpretation zu finden.
  • allgemein: solche, wo auch die Textbausteine relativ gestaltet sind ("im Vergleich zur Normguppe überdurchschnittliche Ausprügung). Hier muss man sich die Normgruppe immer mit dazudenken. bei solchen Reports ist der Wechsel der Norm möglich - sie sind in der Aussage aber selten so konkret möglich wie normspezifische Reports.

Theoretische Rohwertskala (TRW-Profilblatt)

TRW-Profilblatt - Zum Vergrössern klicken

Da dieses Profilblatt auf den ersten Blick dem Normprofilblatt ähnlich sieht, besteht vor allem für Laien eine Verwechslungsgefahr. Es ist für bestimmte Tests dennoch sehr sinnvoll. Es zeigt die Ausnutzung des möglichen Rohwertintervalles in % (maximal möglicher - minimal möglicher Rohwert). Werte im Extrembereich zeigen, dass hier die sogenannte "Testdecke" oder der "Testboden" erreicht wurde - sprich höhere oder niedrigere Roh- und damit Normwerte gar nicht erreichbar gewesen wären. Wenn Sie z.B. einen Intelligenztest im Rahmen der Begabungsdiagnostik verwendet haben, dieser "nur" einen IQ von 120 anzeigen würde - aber fast 100% der Aufgaben richtig beantwortet wurden, dann wissen Sie spätestens bei Anzeige der Theoretischen Rohwertskala, dass der Test nicht geeignet für diese Fragestellung war. Vor allem weil  viele Tests bei der Normskala durch bestimmte Transformationen eine Normalsierung herstellen, steht hinter kleinen Rohwertunterschieden manchmal ein (zu) hoher Normwertunterschied, der dann nicht mehr zuerlässig ist. Das TRW-Profilblatt kann hier als Kontrollmöglichkeit dienen. Als Faustregel kann dienen, dass ein Test dann eine optimale Diffenzierung für die getestete Person erlaubt, wenn auch die theoretischen Rohwerte nicht in den Extrembereichen liegen.

Antworttendenzen-Kontrolle

Antwortzeitanalyse - Zum Vergrössern klicken
Häufigkeit Antwortstufen - Zum Vergrössern klicken

Nicht immer werden bei Urteilsverfahren die Antworten "unverfälscht" oder "unverzerrt" gegeben - formale oder inhaltliche Antworttendenzen können die Interpretation erschweren oder sogar nicht sinnvoll machen. HTS bietet einige Möglichkeiten, formale Antworttendenzen zu erkennen:

  • Die Kontrolle der Bearbeitungszeit des Tests.
    • Wenn diese weit unter der angegebenen durchschnittlichen Antwortzeit liegt, kann man von einem einfachen "Durchclicken" ausgehen, ohne wirklich zu antworten. Pro Item wird im Player bekanntlich eine Rückmeldung gegeben, wenn die Antwortzeit unter einer geschätzten Lesezeit liegt und eine erneute Antwort erwartet. In Untersuchungen von Stichproben sollte man die Antwortzeitenverteilung analysieren und Personen mit extrem niedrigen Antwortzeiten exkludieren. Bei sehr langen Antwortzeiten sollte man analysieren, ob dies alle Items betrifft oder nur bei einzelnen Aufgaben auftrat (z.B. eine Unterbrechung bei laufendem Test vorgenommen wurde). Hierzu werden die einzelnen Antwortzeiten pro Aufgabe mit angezeigt.
    • Es erfolgt auch eine gemittelte Anzeige pro Merkmal. Hier kann man prüfen, ob bestimmte Merkmale abweichend hohe oder niedrige Antwortzeiten zeigen. Die Antwortzeiten werden ipsativ dargestellt: der Mittelwert pro Merkmal wird auf die mittlere Gesamt-Antwortzeit bezogen z-transformiert: z = (mittlere Itemantwortzeit pro Merkmal - mittlere Gesamt-Antwortzeit aller Items) / Standardabweichung der Antwortzeiten aller Items und anschliessend transformiert: Ipsative Antwortzeit = 50 + 20 z. Eine ipsative Antwortzeit von 50 entspricht dem Gesamt-Mittelwert, Abweichungen nach oben bedeuten längere, Abweichungen nach unten kürzere mittlere Antwortzeiten in diesem Merkmal, wobei 20 der Standardabweichung aller Einzelzeiten entspricht.
  • Die Kontrolle des Antwortmusters. In der Antwortverteilung (Häufigkeit pro Stufe) kann geprüft werden, ob eine Extremscheue und Tendenz zur Mitte oder im Gegenteil eine starke Polarisierung und Nutzung der Extremkategorien auftritt. Auch generelle Bejahung oder Verneinung kann auf Antworttendenzen hindeuten. In der Regel spricht auch eine Gleichverteilung der Antworten bei Mehrstufenantworten für eine zufällige Beantwortung. Eine weitere Kontrollmöglichkeit bietet der Repetitionsindex, womit perseverierende Muster gefunden werden können.Berücksichtigt werden aufeinander folgende gleiche Antwortstufen im Verhältnis zur maximal möglichen Anzahl gleicher Antwortstufen. Gezählt werden, wie oft 2, 3, 4 usw. bis zur maximal durch die Itemszahl definierten gleiche Antworten aufeinander folgen, jede mögliche Kombination wird gezählt.
    • So würde für einen 11-Item-Fragebogen bei einem Antwortvektor berechnet:
      • 11121212121 3 Repetitionen (einmal 3, zweimal 2 gleiche Antworten aufeinander folgend)
      • 11221122112 5 Repetitionen (fünfmal 2 gleiche Antworten aufeinander folgend)
      • 11122121111 10 Repetitionen (einmal 4, zweimal 3, sieben mal 2 gleiche Antworten aufeinander folgend)
    • Die maximal mögliche Anzahl der Repetitionen ergibt sich bei gleicher Beantwortung aller Items: Bei 11 Items ergäbe sich ein Wert von 55.

Informationen über das Verfahren

Kurzinformation (aus der HTS Verfahrensdatenbank) Beispielbefunde Testhandbuch (Beschreibungen und Info aus der HTS-Verfahrensdatenbank)




Hogicon transp.png © Hogrefe Verlag Göttingen • 1992 -2012 • Alle Rechte vorbehalten • Impressum