Tin tức

Cuộc chiến giữa các công ty AI và những trang web nắm nội dung

Đăng bởi

Ngày đăng

Một vụ kiện công ty AI do diễn đàn trực tuyến Reddit khởi xướng đã hé lộ phần nào “trận quyền anh” khốc liệt ẩn sau những cuộc trò chuyện của chatbot.

Ở một góc sàn đấu là các dịch vụ trí tuệ nhân tạo — những “cỗ máy ăn dữ liệu” trên khắp Internet, được huấn luyện để giúp người dùng lên kế hoạch du lịch hay tạo video vui nhộn. Ở góc còn lại là các công ty — những nguồn cung dữ liệu đôi khi bất đắc dĩ hoặc bị choáng ngợp trước quy mô khai thác đó.

Trong đơn kiện, tương tự các vụ kiện mà nhiều tổ chức tin tức, hãng phim Hollywood, tác giả sách và các nhóm khác từng đệ trình, Reddit cáo buộc công ty khởi nghiệp Perplexity đã trục lợi bất hợp pháp bằng cách sử dụng trang web của mình làm “nguyên liệu AI”.

Những cáo buộc này phản ánh lời cảnh báo của Reddit, Wikipedia và nhiều nền tảng khác: Nếu “trận đấu quyền anh” này tiếp diễn mà không có luật lệ, các dịch vụ AI có thể hủy hoại chính những trang web và kho tư liệu số mà chúng ta yêu thích.

Từ khi Napster sụp đổ cách đây hơn hai thập kỷ, thế giới công nghệ chưa bao giờ thôi chứng kiến các cuộc chiến giữa những “tay chơi mới” và các nhà cung cấp nội dung cũ — những kẻ tái chế, biến tấu hoặc phân phối thông tin theo cách chưa từng có. Tuy nhiên, cuộc chiến với AI có lẽ là cuộc đối đầu nan giải nhất từ trước tới nay.

Khi AI bị coi là kẻ cướp ngân hàng

Hai mươi năm thảo luận, tranh luận trên Reddit — từ chuyện nhà hàng ngon ở xứ Wales đến các mẫu điều hòa êm nhất — là mỏ vàng dữ liệu cho các dịch vụ AI. Chúng cần khối lượng thông tin khổng lồ như vậy để “huấn luyện” mô hình và tạo ra câu trả lời cho các truy vấn của người dùng.

Reddit hiểu rõ giá trị của nguồn dữ liệu này. Công ty đặt ra những nguyên tắc rõ ràng: các hãng AI muốn khai thác dữ liệu Reddit phải ký hợp đồng trả phí và tuân thủ các giới hạn kỹ thuật mà nền tảng quy định.

Một số công ty, bao gồm Google và OpenAI — công ty mẹ của ChatGPT — đã chấp thuận các điều khoản đó. Còn với những ai không đồng ý, Reddit dựng “bức tường kỹ thuật số” nhằm chặn phần mềm thu thập dữ liệu tự động (web crawler) của họ.

Theo cáo buộc của Reddit, CEO của Perplexity từng hứa với tổng cố vấn của Reddit hơn một năm trước rằng sẽ tôn trọng “bức tường kỹ thuật số” này. Tuy nhiên, thay vì làm vậy, Perplexity — công ty tự mô tả mình là “công cụ trả lời AI” và nhà phát triển trình duyệt chuyên biệt cho AI — đã tìm cách lách luật để hút dữ liệu từ Reddit.

Đơn kiện của Reddit, nộp hôm thứ tư tuần trước tại tòa liên bang New York, cho biết Perplexity đã thuê ít nhất một bên trung gian chuyên “hút dữ liệu” để trích xuất hàng tỉ trang từ Reddit, thông qua kết quả tìm kiếm Google.

Những bên trung gian này bị cáo buộc sử dụng các thủ thuật kỹ thuật tinh vi để vượt qua các biện pháp bảo vệ của Google chống lại hoạt động thu thập dữ liệu tự động không mong muốn. Reddit khẳng định họ có được thông tin này thông qua một trát đòi hầu tòa gửi Google trong một vụ kiện khác, hiện vẫn được giữ bí mật.

Reddit so sánh hành vi của Perplexity và những “bot đánh thuê” đó với “những tên cướp ngân hàng biết rằng không thể đột nhập vào kho tiền, nên phá tung chiếc xe chở tiền bọc thép trên đường để lấy chiến lợi phẩm”.

Đáp lại, trong một bài đăng trên chính Reddit, Perplexity tuyên bố Reddit chỉ đang đòi tiền: “Đây là ví dụ đáng buồn về việc điều gì xảy ra khi dữ liệu công khai trở thành trụ cột trong mô hình kinh doanh của một công ty đại chúng”.

Về phía mình, Google cho biết: “Chúng tôi đã triển khai các biện pháp kỹ thuật mạnh mẽ để ngăn chặn kiểu lạm dụng độc hại này, bởi nó làm suy yếu quyền kiểm soát nội dung mà các trang web được phép thiết lập”.

Điều đó có ý nghĩa gì với tương lai của internet?

Theo giới chuyên gia, pháp luật hiện hành thường bảo vệ các công ty công nghệ khi họ sử dụng tài liệu có bản quyền — như bài báo, sách hay phim — để tạo ra một hình thức sáng tạo mới. Nhiều hãng AI cho rằng sản phẩm của họ đáp ứng tiêu chí này.

Tuy nhiên, vụ kiện của Reddit bổ sung một “nút thắt pháp lý” mới: Reddit không sở hữu bản quyền các bài đăng trên nền tảng — chính người dùng tạo ra chúng mới là chủ sở hữu. Điều này, theo giáo sư Blake Reid của Trường Luật Đại học Colorado, khiến kết quả vụ kiện trở nên khó lường.

Dẫu vậy, AI vẫn đang mắc kẹt trong một nghịch lý: để trở nên hữu ích, nó phải “nuốt” gần như toàn bộ quá khứ, hiện tại và tương lai của Internet. Nhưng chính hành động đó lại làm tăng chi phí vận hành, đồng thời hút người dùng rời xa các trang web nguồn, đe dọa sự tồn tại của chính mạng Internet mà nó dựa vào.

Chúng ta từng nghe những lời phàn nàn tương tự trước đây. Các công ty giải trí kiện YouTube vì cung cấp miễn phí tác phẩm của họ. Các hãng thu âm nổi giận vì TikTok cho phép người dùng nhảy theo nhạc Taylor Swift. Báo chí phàn nàn rằng Google và Facebook giúp người đọc xem tin tức mà chẳng cần mua báo hay truy cập trang tin.

Dù vậy, các “ông lớn nội dung” vẫn tìm được cách chung sống (và kiếm lời) cùng những kẻ nổi loạn công nghệ. Nhưng theo Toshit Panigrahi – Giám đốc điều hành của TollBit (công ty hỗ trợ các trang web thu tiền từ việc thu thập dữ liệu AI), AI là một câu chuyện khác.

Ông nói rằng các dịch vụ AI hiện hút dữ liệu với tốc độ siêu nhanh và quy mô công nghiệp, từ vô số nguồn: Báo chí, giải trí, hãng du lịch, nhà bán lẻ nội thất…

Theo Panigrahi, mô hình quen thuộc xưa nay — “công nghệ mới cuối cùng cũng tốt cho cả người dùng lẫn chủ sở hữu nội dung” — có thể không còn đúng nữa. Ông thừa nhận điều này đang làm thay đổi tận gốc cách internet vận hành.

Theo Bùi Tú / Một thế giới

Xem thêm:

Download WordPress Themes

Download Best WordPress Themes Free Download

Free Download WordPress Themes

free download udemy paid course

Chủ đề:công ty AI, Focus, reddit

Marketing Review

Cuộc chiến giữa các công ty AI và những trang web nắm nội dung

Tin tức

Cuộc chiến giữa các công ty AI và những trang web nắm nội dung

Khi AI bị coi là kẻ cướp ngân hàng

Điều đó có ý nghĩa gì với tương lai của internet?

More in Tin tức

Tin tức

Chuyên gia chỉ 3 cách tận dụng ChatGPT để làm bảng tính Excel

Kiến thức

Hồi sinh nghệ sĩ bằng AI: Tri ân hay trục lợi từ hoài niệm?

Tin tức

Sàn thương mại điện tử đua tăng phí, đẩy người bán hàng vào thế khó

Bài nổi bật

Các mô hình AI tiên tiến nhất có thể gặp khó với tác vụ cơ bản

Bài nổi bật

YouTube chuẩn bị ‘nắm quyền’ Oscar?

Bài nổi bật

Cỗ máy ngốn tiền ChatGPT bắt đầu chạy quảng cáo

Bài nổi bật

AI bùng nổ làm cạn chip nhớ, Apple-Samsung có thể giữ giá smartphone không tăng

Chủ đề hay

Đi bộ Từ thiện Đinh Thiện Lý lần 21 năm 2026: Chung tay quyên góp, mang Tết ấm đến người nghèo

Bài nổi bật

Chatbot AI tái định hình việc tìm kiếm thông tin

Chủ đề hay

Nhạc sĩ Xuân Tài trổ tài đấu trí, Kim Đào tái xuất đầy ấn tượng tại Đoán Ca Dao Tìm Tục Ngữ

Bài nổi bật

‘Trả tiền chia sẻ link trên Facebook chẳng khác gì mất phí trò chuyện nơi công cộng’

Bài nổi bật

AI bị mô tả là ‘quái vật ngốn nước’: Con số sai thổi bùng nỗi sợ hãi