Turnitin KI-Erkennung

Avatar
Lisa Ernst · 23.09.2025 · Technik · 6 min

Der Turnitin AI Checker ist ein Werkzeug, das Hinweise auf KI-generierte Textpassagen liefern soll. Für Studierende und Lehrende ist es wichtig zu verstehen, was dieser Dienst aussagt und wie verlässlich seine Ergebnisse sind. Turnitin selbst betont, dass die Erkennung kein Beweismittel ist und nicht die alleinige Grundlage für Maßnahmen sein darf. Branchenbeispiele und Forschung zeigen zudem, dass die KI-Detektion grundsätzlich schwierig ist.

Turnitin AI Checker: Overview

Der Turnitin AI Checker ist eine Funktion im Similarity Report von Turnitin. Er schätzt, welcher Anteil des „qualifizierenden“ Fließtexts (lange Prosa-Sätze) wahrscheinlich von einem großen Sprachmodell (LLM) stammt. Dabei wird zwischen „nur KI-generiert“ sowie „KI-generiert und per Paraphrasier-/Bypass-Tool verändert“ unterschieden. Technisch segmentiert Turnitin den Text in überlappende Abschnitte, bewertet Sätze zwischen 0 (menschlich) und 1 (KI) und mittelt diese Bewertung zu einem Dokument-Prozentsatz. Grundlage ist unter anderem die Vorhersagbarkeit von Wortfolgen, wie in den FAQs von Turnitin beschrieben. Für einen Bericht sind mindestens 300 Wörter Prosa erforderlich. Akzeptiert werden die Dateiformate .docx, .pdf, .txt und .rtf. Unterstützt werden die Sprachen Englisch, Spanisch und Japanisch, wobei Paraphrasing/Bypass derzeit nur für Englisch verfügbar ist. Diese Dateianforderungen sind von Turnitin festgelegt.

Ein Beispiel für die Turnitin-Oberfläche, die den KI-Erkennungsindikator mit einem Wert von 75% hervorhebt.

Quelle: imagetou.com

Ein Beispiel für die Turnitin-Oberfläche, die den KI-Erkennungsindikator mit einem Wert von 75% hervorhebt.

Current Status and Developments

Turnitin hat die KI-Erkennung 2023 eingeführt und kurz danach auf vermehrte False Positives bei niedrigen Werten hingewiesen. Seit Juli 2024 werden Werte unter 20 % nicht mehr als Zahl angezeigt; stattdessen markiert ein Sternchen, dass der Score weniger belastbar ist. Dies geht aus den Turnitin Release Notes hervor. 2025 folgte ein ausgebauter Bericht mit zwei Kategorien („KI-generiert“ und „KI-generiert & KI-paraphrasiert“) und visueller Aufteilung über ein Seiten-Balkendiagramm, wie im AI writing detection model beschrieben. Turnitin betont, dass die Anzeige unabhängig vom klassischen Ähnlichkeitsscore ist und nur ein Startpunkt für die Prüfung sein soll. Dies ist im klassischen Report View erläutert. Laut Turnitin-Daten, über die Wired im April 2024 berichtete, enthielten 11 % von über 200 Millionen geprüften Arbeiten mindestens 20 % KI-Sprache; 3 % hatten ≥80 % KI-Text. Der dokumentweite False-Positive-Anteil liege unter 1 % (bei >20 % KI-Anteil).

Analysis and Context

Hochschulen benötigen Orientierung, da Textgeneratoren alltäglich werden. Anbieter wie Turnitin positionieren sich als Integritäts-Infrastruktur. Institutionen balancieren zwischen Didaktik, Fairness und Nachweisbarkeit, wie in den Turnitin Guides beschrieben. Gleichzeitig stoppen manche Universitäten die KI-Detektion temporär, beispielsweise Vanderbilt oder Montclair State, aus Sorge vor Bias und Fehlalarmen oder um Richtlinien nachzuschärfen. Vanderbilt deaktivierte den Turnitin AI Detector. Wired berichtete ebenfalls über diese Entwicklungen. Parallel verschiebt Turnitin den Fokus teils in Richtung Prozess-Transparenz (z. B. Writing/Clarity-Funktionen), um Entstehungswege statt nur Endtexte zu betrachten, wie Axios berichtete.

Quelle: YouTube

Ein kurzer Überblick von Turnitin selbst hilft, die Begriffe im Bericht (Prozentwert, Kategorien) zu verorten.

Fact Check: Evidence vs. Claims

Belegt ist, dass Turnitin eine prozentuale Schätzung über den Anteil qualifizierenden Texts liefert, der wahrscheinlich KI-basiert ist. Zwei Kategorien zeigen „nur KI“ und „KI + Paraphrase“, wie in den Turnitin Guides beschrieben. Ebenfalls belegt sind die Mindestanforderung von 300 Wörtern Prosa, die Dateitypen .docx/.pdf/.txt/.rtf sowie die unterstützten Sprachen Englisch/Spanisch/Japanisch (Paraphrase/BYPASS nur Englisch). Diese Dateianforderungen sind detailliert aufgeführt. Scores unter 20 % werden nicht als Zahl angezeigt (Sternchen), da hier die Fehlalarm-Wahrscheinlichkeit höher ist. Dies geht aus den Release Notes und den Informationen zum klassischen Report View hervor. Turnitin nennt dokumentweite False-Positives unter 1 % für Fälle mit > 20 % erkanntem KI-Text und führt Tests unter anderem auf 700.000 Vor-ChatGPT-Arbeiten pro Modell-Update durch. Diese Informationen sind in den FAQs zur KI-Erkennung verfügbar.

Offizielle Ankündigung von Turnitin zur Verfügbarkeit ihrer KI-Schrifterkennung.

Quelle: bestaito.com

Offizielle Ankündigung von Turnitin zur Verfügbarkeit ihrer KI-Schrifterkennung.

Unklar ist, wie robust diese Werte institutionenübergreifend sind, etwa bei fach-, sprach- oder stilbedingten Besonderheiten. Turnitin veröffentlicht Detailmetriken begrenzt, und externe Metastudien zeigen je nach Tool und Setting deutliche Streuung, wie in EdIntegrity beschrieben. Falsch oder irreführend ist die Behauptung, „KI-Detektoren beweisen Betrug“. Selbst Turnitin rät ausdrücklich, die Anzeige nicht als alleinige Grundlage für Entscheidungen zu nutzen. Dies ist in den Turnitin Guides klar formuliert. Zudem hat OpenAI seinen eigenen Text-Klassifikator 2023 wegen zu geringer Genauigkeit eingestellt, was ein Hinweis auf die Grenzen der Gattung ist, wie OpenAI selbst mitteilte.

Reactions and Counterarguments

Hochschulen wie Vanderbilt deaktivierten die Funktion zeitweise mit Verweis auf Intransparenz und Risiken, wie in der Guidance von Vanderbilt nachzulesen ist. Medienberichte dokumentieren sowohl echte KI-Nutzung als auch Fehlinferenzen und plädieren für klare Regeln statt Technik-Alleingänge, wie Wired berichtete. Turnitin selbst betont Fairness-Ziele, Bias-Tests und konservative Schwellen, um Fehlalarme zu minimieren. Dies wird in einem Blogbeitrag von Turnitin und den FAQs zur KI-Erkennung dargelegt. Zugleich zeigen peer-reviewte Studien, dass mehrere Detektoren Nicht-Muttersprachler überdurchschnittlich oft falsch als KI markieren – ein wichtiges Warnsignal für die Praxis, wie in Cell Patterns veröffentlicht.

Implications and Recommendations

Für Lehrende gilt: Nutzt den AI-Wert als Gesprächsanlass, nicht als Urteil. Prüft „qualifizierenden“ Text, Lücken (Listen, Tabellen) und die zwei Kategorien im Bericht, legt Kurs-Policies zugrunde und dokumentiert die Prüfung. Empfehlungen hierzu finden sich in den Turnitin Guides zur Überprüfung des Reports und zu Maßnahmen bei hohem Score. Für Studierende: Hebt Entwürfe, Notizen und Quellen auf; das erleichtert die Klärung, wenn ein Score Fragen aufwirft, wie die University of Melbourne rät. Wer mit KI arbeitet, sollte die erlaubte Nutzung klären und transparent dokumentieren – denn „echte“ Plagiate kann der Similarity Report weiterhin separat anzeigen, wie im klassischen Report View erläutert.

Quelle: YouTube

Eine kurze Erläuterung von Turnitin zum Thema False Positives ist hilfreich für die Gesprächsführung mit Studierenden.

Ein hoher KI-Erkennungswert von 96% in Turnitin, der die Notwendigkeit einer sorgfältigen Interpretation unterstreicht.

Quelle: lebow.drexel.edu

Ein hoher KI-Erkennungswert von 96% in Turnitin, der die Notwendigkeit einer sorgfältigen Interpretation unterstreicht.

Open Questions and Future Outlook

Es bleiben offene Fragen: Wie groß ist die reale Fehlerquote in spezifischen Fachbereichen, Sprachniveaus und Aufgabenformaten – inklusive „humanized“ oder umgeschriebener KI-Texte? Hier fehlen unabhängige, kontinuierliche Feldstudien über verschiedene Disziplinen hinweg, wie in EdIntegrity angemerkt. Wie entwickelt sich Bias gegen Nicht-Muttersprachler mit neuen Schwellen und Modellen – bleibt das Risiko oder sinkt es messbar? Dies ist eine wichtige Frage, die in Cell Patterns diskutiert wird. Und wann setzen sich robuste Herkunftsnachweise (Wasserzeichen/Provenance) durch, die auch didaktisch tragfähig sind? OpenAI hat hierzu ebenfalls Überlegungen angestellt.

Conclusion

Der Turnitin AI Checker kann sinnvolle Hinweise liefern – besonders, wenn der Bericht im Kontext gelesen wird: qualifizierender Text, Kategorien, Schwellen und Aufgabenstellung. Gleichzeitig ist er kein Lügendetektor. Niedrige Werte sind explizit mit Vorsicht zu deuten, hohe Werte verlangen fachliche Prüfung und Dialog. Dies geht aus den Release Notes und den Turnitin Guides hervor. Da sich große Sprachmodelle rasant weiterentwickeln und Umgehungs-/Umschreib-Tools existieren, bleibt die Erkennung ein Katz-und-Maus-Spiel – nützlich als Signal, nicht als Urteil. Dies wurde bereits bei False Positives und in Studien deutlich. Wer Integrität stärken will, kombiniert klare Regeln, transparente Prozesse und Aufgabenformate, die Denkwege sichtbar machen – mit dem AI-Report als eine von mehreren Informationsquellen, wie in den Turnitin Guides empfohlen.

Teilen Sie doch unseren Beitrag!