ByteDance ra mắt công cụ thu thập dữ liệu web nhanh gấp 25 lần OpenAI

Khải Minh
Khải Minh
08/10/2024 07:38 GMT+7

Bytespider của ByteDance vượt mặt OpenAI với tốc độ thu thập dữ liệu gấp 25 lần. Công cụ tiên tiến này đã đưa ByteDance vào vị trí dẫn đầu trong cuộc đua phát triển AI (trí tuệ nhân tạo) toàn cầu.

ByteDance đẩy mạnh việc thu thập dữ liệu với Bytespider

Công ty mẹ của TikTokByteDance, đã ra mắt công cụ thu thập dữ liệu web mang tên Bytespider vào tháng 4 năm nay. Theo Kasada, một công ty chuyên về quản lý bot (phần mềm tự động), Bytespider nhanh chóng nổi lên như một trong những công cụ thu thập dữ liệu mạnh nhất trên internet, vượt qua các đối thủ lớn như Google, Meta, AmazonOpenAI. Nghiên cứu cho thấy, tốc độ thu thập dữ liệu của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI, công cụ thu thập dữ liệu phục vụ cho nền tảng ChatGPT.

ByteDance ra mắt công cụ thu thập dữ liệu web nhanh gấp 25 lần OpenAI

Dù đang vướng mắc vào nhiều vụ kiện cáo, ByteDance vẫn đầu tư mạnh vào phát triển AI, đặc biệt là trong lĩnh vực mô hình ngôn ngữ lớn (LLM)

ẢNH: CHỤP MÀN HÌNH

Việc thu thập dữ liệu với tốc độ cao giúp ByteDance có thêm nhiều dữ liệu để đào tạo các mô hình ngôn ngữ lớn (LLM) và mô hình đa phương tiện (LMM), những thành phần cốt lõi trong việc phát triển các công cụ AI thế hệ mới. Trong bối cảnh các công ty công nghệ lớn đang chạy đua trong lĩnh vực AI, ByteDance cố gắng rút ngắn khoảng cách bằng cách thu thập một lượng dữ liệu khổng lồ từ các trang web toàn cầu.

Tham vọng AI của ByteDance đối mặt thách thức pháp lý

Dù đối mặt với nguy cơ bị cấm tại Mỹ, ByteDance vẫn kiên trì với chiến lược phát triển AI. Gần đây, Tổng thống Joe Biden đã ký một đạo luật yêu cầu ByteDance phải bán TikTok hoặc ngừng hoạt động tại Mỹ do lo ngại về an ninh quốc gia. Tuy nhiên, điều này không ngăn cản ByteDance đẩy mạnh việc thu thập dữ liệu để hỗ trợ các dự án AI. Một nguồn tin nội bộ cho biết, ByteDance đang phát triển một mô hình ngôn ngữ lớn mới nhằm cải thiện khả năng tìm kiếm trên TikTok.

Ngoài ra, Bytespider không tuân thủ tập tin quy định về robots.txt, một tập tin mà các nhà xuất bản web sử dụng để ngăn các công cụ thu thập dữ liệu. Mặc dù điều này không vi phạm pháp luật, nhưng nó có thể dẫn đến các tranh chấp về quyền sở hữu trí tuệ. Nhiều tổ chức cho rằng việc thu thập dữ liệu mà không được phép là hành vi vi phạm bản quyền, gây ra nhiều tranh cãi trong lĩnh vực này.

Việc ByteDance đẩy mạnh thu thập dữ liệu cho thấy tham vọng lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, bất chấp những thách thức pháp lý và sự cạnh tranh khốc liệt trong ngành.

Top

Bạn không thể gửi bình luận liên tục. Xin hãy đợi
60 giây nữa.