Turnitin AI 检测:一项分析
文本是否来源于机器的检测是一个复杂的问题。即使是 ChatGPT 的开发者 OpenAI,也在 2023 年因准确率低而停用了其自有的文本检测器。Turnitin 不断改进其检测功能,但仍明确警告不得将检测结果作为采取措施的唯一依据。
AI 检测基础
Turnitin AI 检测是 Similarity Report. 中的一项附加功能。它检查提交内容中“合格的”连续文本,以寻找表明 AI 写作的模式。“合格文本”包括段落中的散文;表格、列表、诗歌或代码无法可靠地计入评分。得分只有达到 20% 或更高才会显示百分比。自 2024 年 7 月起,低于此值时 Turnitin 只显示一个星号,因为此时 误报率更高.
目前支持的语言包括英语、西班牙语和日语。最低要求包括至少 300 个散文词、最多 30,000 个词,以及 .docx、.pdf、.txt 或 .rtf 等文件类型。报告还区分“ AI-generated only" ”和“ AI-generated and AI-paraphrased" ”(例如使用释义工具),以更精细地分析使用模式。Turnitin 正在逐步扩展其检测能力,并正在整合对所谓“ Bypasser/Humanizer"-Tools 的检测(限英语)。.
当前状态与发展
Turnitin 于 2023 年大规模引入其 AI 检测功能,并自那时起评估了大量数据。根据 Turnitin/Medienberichten ,截至 2024 年,该系统已审查了超过 2 亿份作业。约有 11% 的作业包含至少 20% 的 AI 成分,约 3% 的作业包含 80% 或更多。Turnitin 表示,对于 AI 成分超过 20% 的文档,误报率低于 1%。
2024 年 7 月,Turnitin 更改了显示方式:低于 20% 的值不再以数字形式显示;取而代之的是一个星号,暗示不确定性增加。2023 年/2024 年新增的功能包括 AI 释义检测,以及日语和西班牙语的语言模型。Turnitin 宣布,2025 年将推出“ AI-bypasser detection" 和更精细控制的管理功能。
与此同时,一些高等院校决定禁用 Turnitin AI 检测或仅非常谨慎地使用。例如 Vanderbilt, 、 Montclair State University, 以及 Northwestern, ,其中 AI 检测未启用。

Quelle: in.turnitin.com
Turnitin 界面显示 AI 写作百分比的示例。
批判性分析
Turnitin 旨在保护机构工作流程并保持低误报率;与此同时,公平处理 AI 使用的压力也在增加。然而,研究表明系统存在局限性:一项被广泛引用的 Studie in „Patterns“ (Cell Press) 记录显示,多个检测器将非母语学习者(ELL)的文本错误判断为 AI 的频率高于平均水平。在 TOEFL 语料库中,平均假阳性率达到 61.3%(并非专门针对 Turnitin,但与 AI 检测的背景相关)。
Turnitin 本身否认其材料中存在显著的 ELL 偏差,并发布了相关的博文,但这不能替代经过同行评审的研究。实际重要性:Turnitin 明确指出, KI-Anzeige nicht als alleinige Grundlage für Maßnahmen 此外,与释义/人性化工具的“军备竞赛”仍在继续:研究表明,有意识的改写可以显著降低检测器的命中率。
Quelle: YouTube
Turnitin 关于 AI 写作报告的简短概述有助于从供应商的角度理解其运作逻辑和局限性。
事实与误解
已证实: Turnitin 在 1% 至 19% 之间只显示一个星号,没有高亮显示,因为此时 Fehlalarme auftreten.
更频繁。 已证实: AI-generated only" 报告区分了“ AI-generated and AI-paraphrased" ”和“
”以对模式进行分类。 已证实:
最低要求包括至少 300 个散文词、最多 30,000 个词,接受的文件格式为 .docx/.pdf/.txt/.rtf,语言为英语/西班牙语/日语。 已证实: nicht als alleinige Grundlage" 结果是一个决策信号,而非证据;应“
使用。 不明确:
在广泛应用中,真实的文档误报率是多少。Turnitin 称对于 AI 成分 >20% 的文档,“<1%”;独立、经过同行评审的重复验证结果公开数据稀少。 不明确: Patterns"-Studie 特别针对 Turnitin 的非母语学习者偏差。“
”研究显示检测器普遍存在强烈偏差;Turnitin 引用其自有分析,称无显著偏差 —— 证据状况相互矛盾。 错误/误导: qualifizierenden" “AI 百分比对应于整篇作业的比例。”这不正确,它仅指“
的连续文本;其他文本类型不会可靠地计入。 错误/误导: nicht als alleinige Evidenz “检测器证明了 AI 滥用。”即使是大型供应商也警告,结果应
;它们是进行教学澄清的契机,而非判决。 错误/误导: niedriger Genauigkeit “AI 检测问题已解决。”OpenAI 因
而停用了其自有的文本分类器,这突显了问题的难度。
反馈与建议 Vanderbilt 像 Montclair 这样的大学停用了 Turnitin AI 检测,理由是可靠性和偏差问题,并建议采用对话式程序。 Northwestern 停止了使用,并提到其他大学也做出了类似决定。强调 AI 检测不应取代教师的判断,而应提供线索。对教师和学生而言:AI 检测可以是一个有用的信号,但不能取代教育性澄清。利用 AI 报告作为对话的起点,并结合对比文本、过程证明和课程规则。侧重于透明的课程设计和对允许的 AI 使用的明确期望,而非纯粹的惩罚逻辑。对机构而言:不要高估 AI 检测,而应投资于作业形式、对话和干预指南。始终进行多重检查,绝不将其作为采取措施的唯一依据。
停止了使用,并提到其他大学也做出了类似决定。Turnitin 强调,该技术旨在为教师提供线索,而不是取代他们的判断。 Jisc rät, 对教师和学生而言:AI 检测可以是一个有用的信号,但不能取代教育性澄清。利用 AI 报告作为对话的起点,并结合对比文本、过程证明和课程规则。侧重于透明的课程设计和对允许的 AI 使用的明确期望,而非纯粹的惩罚逻辑。对机构而言:不要高估 AI 检测,而应投资于作业形式、对话和干预指南。始终进行多重检查,绝不将其作为采取措施的唯一依据。
Quelle: YouTube

Quelle: turnitin.com
Turnitin 关于其 AI 检测模型架构和测试协议的白皮书。
未来展望
悬而未决的问题仍然存在:在现实、多样化的环境中,文档误报率究竟有多准确?它对不同的语言和能力水平有何影响?这方面缺乏独立、最新的对照研究和开放数据集。长期来看,检测对抗释义/人性化工具的鲁棒性如何?当前研究显示存在规避的可能性。监管方面,各国当局正在为 AI 时代的公平考试制定指导方针,例如英国 Ofqual 提出了在评估系统中安全使用 AI 的原则。OpenAI 等供应商也倾向于使用出处证明/来源追溯,而不是事后检测,因为纯粹的检测仍然不确定。
结论: Turnitin AI 检测为 AI 典型模式提供了有用的线索,但它并非一台证据自动机。可靠的做法是结合:允许的 AI 使用的透明规则、与作业紧密相关的表现证明、过程文档——以及将 AI 显示作为对话的开端而非定罪。采取这种做法,既能保护公平性、实现学习目标,又能同时关注技术的机遇和局限。