Liên hệ

Tin tức

Cuộc chiến giữa các công ty AI và những trang web nắm nội dung

Một vụ kiện công ty AI do diễn đàn trực tuyến Reddit khởi xướng đã hé lộ phần nào “trận quyền anh” khốc liệt ẩn sau những cuộc trò chuyện của chatbot.

công ty AI
Vụ kiện giữa Reddit và Perplexity đang thu hút sự chú ý của thế giới.

Ở một góc sàn đấu là các dịch vụ trí tuệ nhân tạo — những “cỗ máy ăn dữ liệu” trên khắp Internet, được huấn luyện để giúp người dùng lên kế hoạch du lịch hay tạo video vui nhộn. Ở góc còn lại là các công ty — những nguồn cung dữ liệu đôi khi bất đắc dĩ hoặc bị choáng ngợp trước quy mô khai thác đó.

Trong đơn kiện, tương tự các vụ kiện mà nhiều tổ chức tin tức, hãng phim Hollywood, tác giả sách và các nhóm khác từng đệ trình, Reddit cáo buộc công ty khởi nghiệp Perplexity đã trục lợi bất hợp pháp bằng cách sử dụng trang web của mình làm “nguyên liệu AI”.

Những cáo buộc này phản ánh lời cảnh báo của Reddit, Wikipedia và nhiều nền tảng khác: Nếu “trận đấu quyền anh” này tiếp diễn mà không có luật lệ, các dịch vụ AI có thể hủy hoại chính những trang web và kho tư liệu số mà chúng ta yêu thích.

Từ khi Napster sụp đổ cách đây hơn hai thập kỷ, thế giới công nghệ chưa bao giờ thôi chứng kiến các cuộc chiến giữa những “tay chơi mới” và các nhà cung cấp nội dung cũ — những kẻ tái chế, biến tấu hoặc phân phối thông tin theo cách chưa từng có. Tuy nhiên, cuộc chiến với AI có lẽ là cuộc đối đầu nan giải nhất từ trước tới nay.

Khi AI bị coi là kẻ cướp ngân hàng

Hai mươi năm thảo luận, tranh luận trên Reddit — từ chuyện nhà hàng ngon ở xứ Wales đến các mẫu điều hòa êm nhất — là mỏ vàng dữ liệu cho các dịch vụ AI. Chúng cần khối lượng thông tin khổng lồ như vậy để “huấn luyện” mô hình và tạo ra câu trả lời cho các truy vấn của người dùng.

Reddit hiểu rõ giá trị của nguồn dữ liệu này. Công ty đặt ra những nguyên tắc rõ ràng: các hãng AI muốn khai thác dữ liệu Reddit phải ký hợp đồng trả phí và tuân thủ các giới hạn kỹ thuật mà nền tảng quy định.

Một số công ty, bao gồm Google và OpenAI — công ty mẹ của ChatGPT — đã chấp thuận các điều khoản đó. Còn với những ai không đồng ý, Reddit dựng “bức tường kỹ thuật số” nhằm chặn phần mềm thu thập dữ liệu tự động (web crawler) của họ.

Theo cáo buộc của Reddit, CEO của Perplexity từng hứa với tổng cố vấn của Reddit hơn một năm trước rằng sẽ tôn trọng “bức tường kỹ thuật số” này. Tuy nhiên, thay vì làm vậy, Perplexity — công ty tự mô tả mình là “công cụ trả lời AI” và nhà phát triển trình duyệt chuyên biệt cho AI — đã tìm cách lách luật để hút dữ liệu từ Reddit.

Đơn kiện của Reddit, nộp hôm thứ tư tuần trước tại tòa liên bang New York, cho biết Perplexity đã thuê ít nhất một bên trung gian chuyên “hút dữ liệu” để trích xuất hàng tỉ trang từ Reddit, thông qua kết quả tìm kiếm Google.

Những bên trung gian này bị cáo buộc sử dụng các thủ thuật kỹ thuật tinh vi để vượt qua các biện pháp bảo vệ của Google chống lại hoạt động thu thập dữ liệu tự động không mong muốn. Reddit khẳng định họ có được thông tin này thông qua một trát đòi hầu tòa gửi Google trong một vụ kiện khác, hiện vẫn được giữ bí mật.

Reddit so sánh hành vi của Perplexity và những “bot đánh thuê” đó với “những tên cướp ngân hàng biết rằng không thể đột nhập vào kho tiền, nên phá tung chiếc xe chở tiền bọc thép trên đường để lấy chiến lợi phẩm”.

Đáp lại, trong một bài đăng trên chính Reddit, Perplexity tuyên bố Reddit chỉ đang đòi tiền: “Đây là ví dụ đáng buồn về việc điều gì xảy ra khi dữ liệu công khai trở thành trụ cột trong mô hình kinh doanh của một công ty đại chúng”.

Về phía mình, Google cho biết: “Chúng tôi đã triển khai các biện pháp kỹ thuật mạnh mẽ để ngăn chặn kiểu lạm dụng độc hại này, bởi nó làm suy yếu quyền kiểm soát nội dung mà các trang web được phép thiết lập”.

Điều đó có ý nghĩa gì với tương lai của internet?

Theo giới chuyên gia, pháp luật hiện hành thường bảo vệ các công ty công nghệ khi họ sử dụng tài liệu có bản quyền — như bài báo, sách hay phim — để tạo ra một hình thức sáng tạo mới. Nhiều hãng AI cho rằng sản phẩm của họ đáp ứng tiêu chí này.

Tuy nhiên, vụ kiện của Reddit bổ sung một “nút thắt pháp lý” mới: Reddit không sở hữu bản quyền các bài đăng trên nền tảng — chính người dùng tạo ra chúng mới là chủ sở hữu. Điều này, theo giáo sư Blake Reid của Trường Luật Đại học Colorado, khiến kết quả vụ kiện trở nên khó lường.

Dẫu vậy, AI vẫn đang mắc kẹt trong một nghịch lý: để trở nên hữu ích, nó phải “nuốt” gần như toàn bộ quá khứ, hiện tại và tương lai của Internet. Nhưng chính hành động đó lại làm tăng chi phí vận hành, đồng thời hút người dùng rời xa các trang web nguồn, đe dọa sự tồn tại của chính mạng Internet mà nó dựa vào.

Chúng ta từng nghe những lời phàn nàn tương tự trước đây. Các công ty giải trí kiện YouTube vì cung cấp miễn phí tác phẩm của họ. Các hãng thu âm nổi giận vì TikTok cho phép người dùng nhảy theo nhạc Taylor Swift. Báo chí phàn nàn rằng Google và Facebook giúp người đọc xem tin tức mà chẳng cần mua báo hay truy cập trang tin.

Dù vậy, các “ông lớn nội dung” vẫn tìm được cách chung sống (và kiếm lời) cùng những kẻ nổi loạn công nghệ. Nhưng theo Toshit Panigrahi – Giám đốc điều hành của TollBit (công ty hỗ trợ các trang web thu tiền từ việc thu thập dữ liệu AI), AI là một câu chuyện khác.

Ông nói rằng các dịch vụ AI hiện hút dữ liệu với tốc độ siêu nhanh và quy mô công nghiệp, từ vô số nguồn: Báo chí, giải trí, hãng du lịch, nhà bán lẻ nội thất…

Theo Panigrahi, mô hình quen thuộc xưa nay — “công nghệ mới cuối cùng cũng tốt cho cả người dùng lẫn chủ sở hữu nội dung” — có thể không còn đúng nữa. Ông thừa nhận điều này đang làm thay đổi tận gốc cách internet vận hành.

Theo Bùi Tú / Một thế giới

Xem thêm:

Continue Reading

More in Tin tức

Advertisement

Bài nổi bật

Advertisement
To Top