Phát hiện nội dung AI không phải lúc nào cũng chính xác! Công cụ phát hiện của bạn đôi khi có thể gắn cờ nội dung do con người viết là do AI tạo. Đây là lý do tại sao điều này xảy ra và những gì bạn có thể làm về nó.
Công cụ kiểm tra AI hoạt động như thế nào?
Trước khi hiểu tại sao công cụ check AI lại thất bại, hãy đặt một số nền tảng. Phát hiện nội dung AI chủ yếu là tìm kiếm các mẫu.
Tại sao? Đơn giản vì khi con người viết, họ trộn lẫn những suy nghĩ ngẫu nhiên thành những câu có ý nghĩa. Không có mẫu thiết lập. Một số câu có thể quá dài để đọc và một số có thể ngắn.
Điều này hoàn toàn trái ngược với cách AI suy nghĩ và viết. Có sự ngẫu nhiên tối thiểu và văn bản có cấu trúc rất chặt chẽ. Cũng có thể có sự lặp lại ý tưởng hoặc từ ngữ. Và bản thân việc lựa chọn từ ngữ có thể quá khó để đọc.
Trình phát hiện nội dung AI tính đến tất cả những điều này. Họ tìm kiếm những mẫu như vậy để phân biệt giữa nội dung do con người viết và nội dung do AI tạo ra.
Để làm điều này, bốn khái niệm được đưa vào sử dụng.
Họ áp dụng phân loại
Trình phân loại là một thuật toán phân loại văn bản thành các lớp khác nhau dựa trên các yếu tố như cách sử dụng, ngữ pháp, văn phong và giọng điệu.
Ví dụ: một văn bản có giọng điệu nhạt nhẽo, ngữ pháp kém và phong cách viết lặp đi lặp lại có nhiều khả năng được phân loại là do AI tạo ra.
Họ sử dụng phần nhúng
Trong tính năng phát hiện nội dung AI, Nội dung nhúng là cách thể hiện bằng số của các từ và mối quan hệ của chúng với nhau. Chúng được biểu diễn dưới dạng vectơ trong không gian nhiều chiều, mỗi vectơ có một mã duy nhất.
Họ nhìn vào sự bối rối
Tính phức tạp là một đặc điểm của văn bản xác định mức độ ngẫu nhiên trong một đoạn văn. Con người viết với sự bối rối rất cao. AI thì không.
Ví dụ, hãy nghĩ về những kết thúc có thể có của câu này: “Hôm qua tôi đã đi xem Oppenheimer , và đó là _____.”
Nếu bạn trả lời điều gì đó được mong đợi như “ngoạn mục”, “nổi bật”, “đáng chú ý”, “ấn tượng” hoặc “quyến rũ”, thì tôi xin lỗi nhưng bạn có thể là robot. Tuy nhiên, bạn có khiếu xem phim rất tốt!
Ngoài những câu chuyện cười ra, con người có nhiều khả năng hoàn thành câu bằng điều gì đó mang tính trò chuyện hơn hoặc dựa trên kinh nghiệm cá nhân. Điều gì đó như “hoàn toàn điên rồ” hoặc “không như tôi mong đợi”. Suy cho cùng, con người có thể mong đợi điều gì đó từ một bộ phim. AI rõ ràng là không thể. Nếu nó khẳng định điều đó thì mô hình ngôn ngữ cơ bản có thể đang bị ảo giác (bịa ra những khẳng định ngay tại chỗ mà không có bằng chứng thực tế) hoặc thiếu các rào chắn bảo vệ (cấu trúc đầu ra và kiểm soát chất lượng).
Chúng ta đã nói về cách con người viết một cách khó đoán. Và làm thế nào một số câu có thể dài và một số có thể ngắn. Tính bùng nổ là một đặc điểm văn bản khác xác định điều này.
Văn bản do AI viết thường được tạo thành từ các câu có độ dài và cấu trúc tương tự nhau (độ lặp lại thấp). Đây là ví dụ về một số văn bản được tạo bởi ChatGPT. Lưu ý cấu trúc đơn điệu và độ dài tương đương của cả hai câu:
“Chuỗi văn bản, còn được gọi là bùng nổ từ hoặc bùng nổ thuật ngữ, là một khái niệm trong xử lý ngôn ngữ tự nhiên và phân tích văn bản đề cập đến sự phân bố không đồng nhất của các từ hoặc thuật ngữ trong một văn bản hoặc tài liệu nhất định. Nói cách khác, nó mô tả hiện tượng trong đó các từ hoặc thuật ngữ nhất định xuất hiện thường xuyên hơn trong một ngữ cảnh hoặc tài liệu cụ thể hơn dự kiến dựa trên sự phân bố ngẫu nhiên hoặc thống nhất.”
Văn bản của con người thì ngược lại (như bài viết này). Nó có sự kết hợp lành mạnh giữa các câu dài và ngắn với sự sáng tạo vừa đủ để phá vỡ các khuôn mẫu. Và tránh xa các cấu trúc buồn tẻ (độ bùng nổ cao).
Trình phát hiện AI sử dụng kết hợp bốn khái niệm này để phát hiện nội dung do AI viết. Vì vậy, khoa học là ở đó. Nhưng nó có âm thanh không?
Đáng buồn thay, khả năng phát hiện AI không chính xác 100%. Dù sao thì vẫn chưa. Nó chỉ là một trò chơi xác suất.
Và đó là lý do tại sao việc chạy bất kỳ nội dung nào thông qua trình phát hiện AI sẽ trả về mức độ tin cậy chứ không bao giờ là mức độ chính xác. Ví dụ: nếu trình phát hiện AI cho bạn điểm 70%, điều đó có nghĩa là nó chắc chắn 70% rằng nội dung đó là do AI tạo ra và 30% chắc chắn rằng đó là do con người viết.
Bây giờ, hãy tưởng tượng điều này. Tôi cho bạn xem mười viên sôcôla và cho bạn biết bảy viên sôcôla đen và ba viên màu trắng. Bây giờ tôi yêu cầu bạn chọn ngẫu nhiên một loại và cho tôi biết hương vị bạn có mà không cần mở giấy gói. Bạn có thể trả lời điều này? Dĩ nhiên là không! Bản thân tiền đề đang khiến bạn thất bại. Và đó chính xác là những gì đang xảy ra với máy dò AI. Chỉ với mức độ tin cậy và xác suất để dựa vào, sớm hay muộn họ chắc chắn sẽ mắc sai lầm.
Tại sao trình phát hiện nội dung AI lại thất bại?
Có nhiều lý do khiến việc phát hiện nội dung AI ngày càng trở nên khó khăn.
- Các trình tạo nội dung AI đang vượt xa chúng : Các mô hình như ChatGPT 4 (và thậm chí cả phiên bản miễn phí ) đang thực sự giỏi trong việc viết nội dung giống con người. Họ chỉ sử dụng các phân loại, nhúng, bối rối và bùng nổ phù hợp. Họ đã phân tích số lượng lớn nội dung do con người tạo ra để tìm ra điểm phù hợp giữa cách sử dụng ngữ pháp phù hợp và lựa chọn từ vựng.
- Công cụ phát hiện AI của bạn chưa đủ tốt : Giống như các trình tạo AI, ngay cả các trình phát hiện AI cũng cần được đào tạo về lượng dữ liệu khổng lồ. Nếu không, họ không thể phân loại chính xác nội dung do con người và AI tạo ra.
- Sự thiên vị thường xuyên xuất hiện trong dữ liệu đào tạo : Khi AI đưa ra các quyết định không chính xác một cách có hệ thống đối với các trường hợp sử dụng cụ thể, điều đó được gọi là thành kiến. Và đây là một vấn đề nghiêm trọng. Chúng tồn tại bởi vì tất cả dữ liệu đào tạo đều đến từ con người. Con người có những thành kiến, ngay cả khi họ không nhận thức được chúng.
- Các chiến lược tạo nội dung AI mới đang khiến mọi thứ trở nên tồi tệ hơn : Các nhà văn và blogger chuyên nghiệp về AI không ngừng phát triển các chiến lược mới để đánh lừa các máy dò AI. Ví dụ: họ đã tìm ra các lời nhắc cụ thể để khiến ChatGPT viết nội dung có nhiều khả năng không bị phát hiện hơn. Thậm chí còn có một plugin chuyên dụng để nhân bản hóa văn bản ChatGPT !
Cách tốt nhất của bạn là học cách tự mình phát hiện nội dung AI.
Nó có dễ không? Không thực sự. Nhưng nó chắc chắn là có thể. Với một số thực hành, bạn có thể rèn luyện mắt mình để tìm kiếm những điều sau:
- Các từ và cụm từ lặp đi lặp lại, đặc biệt tập trung vào các từ khóa mục tiêu có thể có. Ngay cả cấu trúc cũng có vẻ quá đồng nhất. Ví dụ: “Tôi yêu mèo vì mèo rất dễ thương. Mèo có bộ lông mềm mại và tiếng gừ gừ ấm áp. Tôi không thể tưởng tượng cuộc sống của mình nếu không có mèo”.
- Giọng điệu chung chung và robot, không có tính sáng tạo đến mức tối thiểu. Ví dụ: “Chào mừng bạn đến với trang web của chúng tôi. Chúng tôi cung cấp nhiều loại sản phẩm và dịch vụ. Chúng tôi đáp ứng nhu cầu của khách hàng. Nhóm của chúng tôi làm việc chăm chỉ để cung cấp chất lượng tốt nhất và sự hài lòng cho khách hàng.”
- Chiều sâu bề nổi của những ý tưởng chính không có cái nhìn sâu sắc thực sự hoặc những bài học thực tế dựa trên kinh nghiệm thực tế. Ví dụ: “Bạn phải luôn sống tích cực và không bao giờ bỏ cuộc. Sự tích cực mang lại thành công và hạnh phúc trong cuộc sống. Đó là một thói quen tốt”.
- Sai lầm thực tế và thông tin lỗi thời. Những người tạo nội dung AI đôi khi được biết đến là “ảo giác” và tạo ra thứ gì đó ngay tại chỗ mà không có bất kỳ nền tảng thực sự nào. Ví dụ: “Theo một nghiên cứu gần đây vào năm 2002, Trái đất phẳng và mặt trời quay quanh nó”.
- Sự mâu thuẫn về mặt logic và các lỗi khiến người đọc cảm thấy xấu hổ. Ví dụ: “John đang ăn trưa vào buổi tối thì có thư buổi sáng đến.”
- Một cảm giác chung về sự thiếu sức sống trong nội dung.