Khi AI phát hiện AI: Vì sao kết quả thường sai?

TL;DR

Nghiên cứu mới trên Elsevier Next Research kết luận: hầu hết kết quả từ công cụ phát hiện AI trong văn bản học thuật đều không đáng tin cậy.
False positive rate: 61.3% với sinh viên ESL (không dùng tiếng Anh bản ngữ) - nghĩa là hơn 6/10 bài tự viết bị gắn nhãn oan.
Người dùng AI thật sự có thể bypass 80-90% trường hợp bằng cách chỉnh sửa nhỏ trước khi nộp.
Khuyến nghị: không dùng kết quả các tool này như bằng chứng duy nhất để xử lý kỷ luật học thuật.

Bối cảnh: Cuộc đua vũ trang mà không ai thắng

Từ khi ChatGPT bùng nổ cuối 2022, hàng loạt trường đại học, tạp chí học thuật và cơ sở giáo dục trên thế giới đã triển khai các phần mềm phát hiện nội dung AI như Turnitin AI, GPTZero, Copyleaks và ZeroGPT. Mục tiêu nghe có vẻ rõ ràng: phát hiện sinh viên gian lận bằng AI để xử lý theo quy chế.

Nhưng trong khi các tổ chức giáo dục tin tưởng vào các con số phần trăm của những công cụ này, giới nghiên cứu đã liên tục đặt câu hỏi về độ tin cậy thực sự của chúng.

Công trình mới nhất được đăng trên tạp chí Next Research của Elsevier - với tiêu đề "AI detecting AI in academic writing: Why most AI detector findings are false" - đã đưa ra bằng chứng rõ ràng nhất từ trước đến nay rằng phần lớn kết quả từ các công cụ này dễ dẫn đến hiểu lầm và quyết định oan uổng.

Các công cụ này hoạt động như thế nào?

Không giống kiểm tra đạo văn truyền thống (so sánh text với cơ sở dữ liệu có sẵn), các AI detector phân tích đặc điểm thống kê của văn bản.

Hai chỉ số chính:

Perplexity - đo mức độ "có thể đoán được" của từ ngữ. AI chọn từ có xác suất cao nhất, nên văn bản AI thường rất dễ đoán (perplexity thấp). Câu "Tôi đang uống cà phê" có perplexity thấp hơn "Tôi đang uống máu" vì câu đầu phổ biến hơn.
Burstiness - đo mức biến thiên cấu trúc câu. AI thường viết câu đều đặn ~15 từ. Người thật xen kẽ câu dài-ngắn linh hoạt hơn.

Vấn đề cơ bản nằm ở đây: đặc điểm viết của người thật và AI chồng lấp nhau đáng kể, đặc biệt với những nhóm người viết cẩn thận, có cấu trúc, hoặc không dùng tiếng Anh bản ngữ.

Nghịch lý đáng lo ngại

Người viết thật bị flagged - AI dùng tool chỉnh sửa nhẹ là thoát được.

Nghiên cứu chỉ ra một vòng lặp bất công:

Người tự viết bị kết luận là AI: Tỷ lệ false positive lên tới 61.3% với bài TOEFL của sinh viên Trung Quốc, so với chỉ 5.1% với sinh viên Mỹ trong cùng điều kiện. Sinh viên không dùng tiếng Anh bản ngữ thường viết câu đơn giản hơn, dùng từ phổ biến hơn - đây là đặc điểm tự nhiên của người học ngôn ngữ thứ hai, không phải bằng chứng dùng AI.
Người dùng AI thật lại thoát: Chỉ cần chạy văn bản qua QuillBot, thêm một vài câu cá nhân, hoặc thậm chí thêm một từ như "cheeky" vào prompt - xác suất bypass detector tăng lên 80-90%. Khi DetectGPT được calibrate ở ngưỡng 1% false positive, độ chính xác phát hiện AI thật giảm từ 70.3% xuống còn 4.6%.

Kết quả: người thật bị kết luận là gian lận, người gian lận thật sự lại thoát. Chính xác là ngược chiều với mục đích ban đầu.

Hậu quả lan rộng

Cuộc khủng hoảng này không chỉ trong phòng học:

Một giáo sư tại Cal State bị gắn nhãn 98% xác suất AI trên bài tự viết tay hoàn toàn.
Nhiều sinh viên bắt đầu cố tình viết kém hơn - tránh câu rõ ràng, chèn lỗi cố ý - chỉ để "có vẻ người thật hơn" với thuật toán. Như một sinh viên nói với NBC News: "Tôi đang viết chỉ để không bị flag AI detector."
43 công cụ "AI humanizer" ghi nhận 33.9 triệu lượt truy cập chỉ trong tháng 10/2025 - phần lớn từ sinh viên muốn chứng minh bài của mình là thật.
Sinh viên Yale và Đại học Michigan đã kiện trường vì bị kết luận gian lận dựa trên kết quả AI detector - và tòa án bắt đầu xác lập rằng điểm AI detection không đủ làm bằng chứng gian lận học thuật.

Phản ứng của các tổ chức: hơn 25 trường đại học lớn - MIT, Yale, NYU, UC Berkeley, Vanderbilt, Đại học Toronto, Đại học Manchester - đã cấm hoặc hạn chế dùng AI detector. UCLA từ chối tích hợp Turnitin AI detection sau khi kiểm tra nội bộ dữ liệu độ chính xác.

Khuyến nghị từ giới nghiên cứu

Nhóm nghiên cứu đề xuất hướng đi rõ ràng:

Không dùng kết quả AI detector như bằng chứng duy nhất - chỉ coi là tham khảo phụ trợ, kết hợp với nhiều yếu tố khác.
Thiết kế lại cách đánh giá: bài thi có giám sát, oral defense, bài nộp có đánh giá theo quá trình (portfolio), thay vì essay nộp về nhà.
Dạy AI literacy: tích hợp AI vào giáo trình một cách minh bạch thay vì cố cấm - đặc biệt hướng dẫn dùng AI như công cụ brainstorm, outline, chứ không offload toàn bộ tư duy.
Watermarking kỹ thuật: nhúng pattern vào text ngay lúc AI generate (white-box watermarking) - đáng tin cậy hơn nhiều so với phát hiện sau.

Kết

AI detector không phải bộ máy nói thật. Chúng là mô hình thống kê đưa ra ước tính xác suất, không phải sự thật. Vận dụng chúng như "bằng chứng cuối cùng" trong môi trường học thuật - nơi hậu quả với sinh viên là rất thực - là một sai lầm phương pháp luận nghiêm trọng.

Khi cả người vô tội lẫn người gian lận đều biết điều đó, nhưng chỉ người gian lận biết cách khai thác - thì hệ thống phát hiện không bảo vệ ai cả. Nó chỉ tạo thêm bất công.

via Elsevier Next Research