Testen und Bewerten fremdsprachlicher Kompetenzen. Barbara HingerЧитать онлайн книгу.
den angestrebten Leistungsstand bzw. die entsprechende Niveaustufe zu erreichen. Klassen- und Schularbeiten müssen also die beiden Testgütekriterien InhaltsInhaltsvalidität- und KonstruktvaliditätKonstruktvalidität beachten. Das kann aber nur der Fall sein, wenn über das Schuljahr hinweg das Konstrukt repräsentativ durch die Inhalte der Klassen-/Schularbeiten abgebildet ist. Die KonstruktvaliditätUnterrepräsentation des Konstrukts: Unvollständige oder unzureichende Abbildung des Konstrukts und seiner Teilaspekte in den Testaufgaben einer Klassen-/Schularbeit ist gefährdet, wenn ein Test nur sehr eingeschränkte Teilaspekte des Konstrukts überprüft und das Konstrukt somit im Test unterrepräsentiertKonstruktunterrepräsentation ist, oder wenn Aspekte in die Bewertung einfließen, die eigentlich nicht Teil des beabsichtigten Konstrukts sind und daher zu einer konstrukt-irrelevanten Varianzkonstrukt-irrelevante VarianzKonstrukt-irrelevante Varianz: Einfluss von Faktoren und Fähigkeiten auf das Testergebnis, die nicht Teil des Testkonstrukts sind in den Ergebnissen führen.
Die Definition, ein Test sei valide und somit „qualitativ wertvoll“, wenn er einfach nur das testet, was er vorgibt zu testen, ist inzwischen in den Augen der meisten TestforscherInnen zu eng gefasst2. Obwohl dieses frühe Verständnis nach wie vor zentraler Bestandteil des Validitätsbegriffs ist, sehen viele KonstruktvaliditätKonstruktvaliditätKonstruktvalidität als zentrales Testgütekriterium nicht länger als Teil der Validität – wie etwa AugenscheinAugenscheinvalidität-, InhaltsInhaltsvalidität- oder KriteriumsvaliditätKriteriumsvalidität –, sondern, basierend auf Messick (1989), als allumfassendes Konzept, das es bei der Testerstellung zu berücksichtigen gilt (vgl. Chapelle 2016, 23). Zudem wird in jüngeren Definitionen der Fokus weg von der Validität als Eigenschaft eines Tests hin zur validen Verwendung und Interpretation der Testergebnisse (‚Validierung‘) gelegt, wozu ein assessment use argument herangezogen wird (vgl. Bachman 2005; Weir 2005a; Xi 2008).
Eckes (2015b) spricht sogar von der polymorphen Bedeutung der Begriffe Validität bzw. Validierung, aufgrund derer es schwierig sei, eine klare und eindeutige Definition dieser Begriffe zu bieten. Zusammenfassend hält Eckes als Konsens in der langjährigen Diskussion der Validitäts-/Validierungskonzepte fest, dass Validität keine Eigenschaft eines Tests ist, sondern dass sich Validität auf die Interpretation der Ergebnisse eines Tests und die damit verbundenen Inferenzen bezieht (ebd., 451). Des Weiteren sei Validität von unterschiedlichen Arten bestimmt, von denen die Konstruktvalidität inzwischen eine übergeordnete Position einnehme. Validität sei ferner nicht dichotom (valide/nicht valide), sondern als Kontinuum aufzufassen und als Prozess zu sehen (ebd., 452).
Im schulischen Kontext sind Augenscheinvalidität und KriteriumsvaliditätAugenscheinvalidität: Akzeptanz von Tests Kriteriumsvalidität: Vergleichbarkeit von Tests von unterschiedlicher Bedeutung. Die Augenscheinvalidität hat einen nicht unwesentlichen Einfluss auf SchülerInnen oder Eltern. Weisen Eltern oder SchülerInnen eine Klassen-/Schularbeit oder einen Test als inakzeptabel zurück, weil in ihren Augen das Testformat oder die Art der Prüfung fremd oder die Aufgaben nicht plausibel erscheinen, so hat der Test eine wesentliche Funktion nicht erfüllt und er wird nicht als solcher angenommen. SchülerInnen und Eltern müssen deshalb mit den eingesetzten Testformaten vertraut sein. Die Kriteriumsvalidität kann konkurrent oder prädiktiv festgestellt werden. Wird z. B. ein Test in der Schule mit einem bereits validierten schulexternen Messverfahren, das dasselbe sprachliche Konstrukt wie der Test in der Schule misst, gleichzeitig durchgeführt, so sollten die Ergebnisse idealerweise korrelieren. Man spricht in diesem Fall von konkurrenter Validitätkonkurrente Validität.
Wird das Kriterium erst nach der Messung erhoben, haben wir es mit prädiktiver Validitätprädiktive Validität zu tun. Ein Beispiel hierfür wäre der akademische Erfolg im fremdsprachlichen Ausland, der sich erwartungsgemäß so einstellt, wie er durch die Note (die Bewertung) der Qualifikationsprüfung, die Voraussetzung für die Zulassung zum Studium an der ausländischen Institution war, vorhergesagt wurde.
Von Lehrpersonen entwickelte Prüfungen und Tests können nur ansatzweise valide sein, da die Überprüfung der Validität – so wie bei standardisierten Tests – komplexe Verfahren wie Pilotierungen,Pilotierung FeldtestungenFeldtestung (s. Abschnitt 5.4) und eine statistische Auswertung der Testitems erfordern würde. Dennoch können LehrerInnen Maßnahmen ergreifen, um die Validität ihrer Klassen-/Schularbeitsergebnisse zu erhöhen. Da ReliabilitätReliabilität die Voraussetzung für Validität ist, sollten die o.a. Maßnahmen (s. Abschnitt 4.1.2) nach Möglichkeit umgesetzt werden. Des Weiteren helfen im Schulalltag ein klares Verständnis des zugrunde liegenden theoretischen KonstruktsKonstrukt, die Kenntnis und eine transparente Weitergabe der curricularen Erfordernisse an die SchülerInnen und – darauf aufbauend – gemeinsam mit KollegInnen ausgearbeitete TestspezifikationenTestspezifikationen bzw. TestanleitungenTestanleitung (s. dazu Abschnitt 5.3 und Kapitel 11) sowie die begründete Wahl geeigneter Aufgabenformate. Testspezifikationen beschreiben, was mit einer Klassen-/Schularbeit, einem Test, geprüft werden soll und erleichtern LehrerInnen damit die Erstellung, Durchführung und Korrektur von schulischen Arbeiten, machen diese in Parallelklassen vergleichbar und geben SchülerInnen, Eltern und KollegInnen einen Einblick in die an der Schule gelebte Prüfungskultur. Sie tragen auf diese Weise wesentlich zu einer Transparenz der Leistungsbeurteilung bei.
Fassen wir abschließend zusammen: Objektivität kann bei der Durchführung, Auswertung und Interpretation eines Tests als ObjektivitätTeil der ReliabilitätReliabilität bzw. als eine Bedingung für sie angesehen werden. Klare Durchführungsparameter, transparente Auswertungskriterien und eine konstruktbezogene Interpretation der Ergebnisse helfen, subjektive Theorien einzelner PrüferInnen zu reduzieren.
Reliabilität ist als Voraussetzung für den ValidierungsprozessValidität unabdingbar, garantiert aber an sich noch keine Validität. Für den schulischen Kontext stellt sich also nicht die Frage, ob Validität oder Reliabilität das Testprinzip ist, das eher umgesetzt werden kann bzw. soll (vgl. Kranert 2013, 10), da beide Gütekriterien für eine qualitativ hochwertige Leistungsmessung erforderlich sind. Betrachtet man obendrein KonstruktvaliditätKonstruktvalidität als das umfassende Kriterium, das Inhalt, Vergleichbarkeit und AugenscheinAugenscheinvalidität einschließt, so wäre diese Diskussion im Grunde ohnehin obsolet.
Der GeR unterstützt das Verständnis für das zugrunde liegende sprachliche Konstrukt auch für Testverfahren, die unter den Begriff classroom-based assessmentclassroom-based assessment bzw. instruction-embedded assessment fallen (Rea-Dickens 2004). Mit Quetz (2008) kann treffend geschlossen werden: So wie wir im schulischen Kontext lehren und unterrichten – kommunikativ, handlungs- und kompetenzorientiertKompetenzorientierung –, sollten wir auch testen und prüfen.
Die folgende Abbildung 1 bietet abschließend eine Übersicht über die Testgütekriterien, die einzelnen Formen und Kategorien sowie Messverfahren bzw. -methoden.
Abb. 1: Testgütekriterien Objektivität – Reliabilität – Validität
4.2 Authentizität, Washback, Praktikabilität
Validität und Reliabilität sind die zentralen Gütekriterien, die ein Test jeglicher Art, und damit auch ein Sprachtest, erfüllen soll, um adäquate Resultate hervorzubringen. Eng mit diesen beiden Grundprinzipien verknüpft sind weitere Prinzipien, die bei der Entwicklung und Verwendung von Sprachtests zu berücksichtigen sind. Während TestforscherInnen unterschiedliche Prinzipien nennen bzw. in den Vordergrund stellen, scheinen die folgenden in den meisten Auflistungen auf: Authentizität, WashbackWashback und PraktikabilitätPraktikabilität (Bachman & Palmer 1996). Diese sollen im Folgenden erläutert werden.
4.2.1 AuthentizitätAuthentizität
Bachman & Palmer (1996) definieren AuthentizitätAuthentizität: Testaufgaben sind realen Sprachhandlungssituationen möglichst ähnlich. als den Grad der Übereinstimmung der Charakteristika einer Testaufgabe mit denen einer realen, lebensweltlichen Aufgabe oder Handlung in der Zielsprache. Authentizität könnte damit auch als Teilaspekt von ValiditätValidität aufgefasst werden, weshalb beispielsweise Weir (2005a) dieses Konzept als Bestandteil