Các nhà nghiên cứu AI tại Microsoft vô tình làm lộ 38 TB dữ liệu

Loan Chi
Loan Chi
20/09/2023 13:38 GMT+7

Microsoft cho biết đã thực hiện các bước để khắc phục lỗi bảo mật dẫn đến việc 38 terabyte dữ liệu riêng tư bị lộ.

Theo The Hacker News, Wiz Research - công ty khởi nghiệp trong lĩnh bảo mật đám mây - mới đây phát hiện sự cố rò rỉ dữ liệu trong kho lưu trữ GitHub của Microsoft AI, được cho là đã vô tình lộ ra ngoài khi xuất bản một nhóm dữ liệu đào tạo nguồn mở.

Dữ liệu bị công khai bao gồm một bản sao lưu máy trạm của hai cựu nhân viên Microsoft với các khóa bí mật, mật khẩu và hơn 30.000 tin nhắn nội bộ của ứng dụng Teams.

Kho lưu trữ có tên "robust-models-transfer" hiện đã không thể truy cập được. Trước khi bị gỡ, kho này đã giới thiệu mã nguồn và các mô hình máy học liên quan đến một bài nghiên cứu năm 2020.

Wiz cho biết vụ lộ dữ liệu xảy ra do mã thông báo SAS quá dễ, đây là tính năng trong Azure cho phép người dùng chia sẻ dữ liệu vừa khó theo dõi và cũng khó thu hồi. Sự cố đã được báo cáo cho Microsoft vào ngày 22.6.2023.

Theo đó, tệp README.md của kho lưu trữ đã hướng dẫn các nhà phát triển tải xuống các mô hình từ địa chỉ URL Azure Storage, vô tình cung cấp quyền truy cập vào toàn bộ tài khoản lưu trữ, vì vậy đã làm lộ thêm dữ liệu riêng tư.

Các nhà nghiên cứu của Wiz cho biết ngoài phạm vi truy cập quá mức cho phép, mã thông báo SAS cũng đã cấu hình sai, từ đó cho phép quyền kiểm soát hoàn toàn thay vì chỉ đọc. Nếu bị khai thác nghĩa là hacker không chỉ có thể xem mà còn có thể xóa và ghi đè tất cả các tập tin trong tài khoản lưu trữ.

Phản hồi lại báo cáo, Microsoft cho biết cuộc điều tra của hãng không tìm thấy bằng chứng dữ liệu khách hàng bị lộ, cũng như không có dịch vụ nội bộ nào khác gặp rủi ro vì sự cố. Tập đoàn này nhấn mạnh khách hàng không cần phải thực hiện bất kỳ hành động nào, đồng thời cho biết đã thu hồi mã thông báo SAS và chặn tất cả quyền truy cập từ bên ngoài vào tài khoản lưu trữ.

Để giảm thiểu những rủi ro tương tự, Microsoft đã mở rộng dịch vụ bí mật truy quét để tìm bất kỳ mã thông báo SAS nào có thể có hạn hoặc đặc quyền quá mức. Hãng cũng xác định một lỗi trong hệ thống quét đã gắn cờ URL SAS trong kho lưu trữ với kết quả sai.

Các nhà nghiên cứu cho rằng do thiếu tính bảo mật và quản trị đối với mã thông báo tài khoản SAS, biện pháp phòng ngừa là nên tránh sử dụng chúng để chia sẻ ra bên ngoài. Lỗi tạo mã thông báo có thể dễ dàng bị bỏ qua và làm lộ dữ liệu nhạy cảm.

Trước đó vào tháng 7.2022, JUMPSEC Labs công bố một mối đe dọa có thể lợi dụng những tài khoản này để giành quyền truy cập vào doanh nghiệp.

Các nhà nghiên cứu AI tại Microsoft vô tình lộ 38TB dữ liệu - Ảnh 1.

Các tập tin nhạy cảm được Wiz Research tìm thấy trên bản sao lưu

CHỤP MÀN HÌNH

Đây là sai phạm bảo mật mới nhất của Microsoft, trước đó 2 tuần hãng cũng tiết lộ tin tặc có nguồn gốc từ Trung Quốc đã xâm nhập và đánh cắp khóa có độ bảo mật cao. Hacker đã chiếm đoạt được tài khoản của một kỹ sư thuộc tập đoàn này và truy cập vào kho lưu trữ chữ ký số của người dùng.

Vụ việc mới nhất cho thấy tiềm ẩn rủi ro khi đưa AI vào các hệ thống lớn, Ami Luttwak - CTO của Wiz CTO cho rằng AI mở ra tiềm năng to lớn cho các công ty công nghệ. Tuy nhiên, khi các nhà khoa học và kỹ sư dữ liệu chạy đua đưa các giải pháp AI mới vào ứng dụng, lượng dữ liệu khổng lồ mà họ xử lý đòi hỏi phải có các biện pháp bảo vệ và kiểm tra bảo mật bổ sung.

Với nhiều nhóm phát triển cần thao tác với lượng dữ liệu khổng lồ, chia sẻ dữ liệu đó với các đồng nghiệp của họ hoặc cộng tác trong các dự án nguồn mở công cộng, thì những trường hợp như của Microsoft ngày càng khó theo dõi và tránh khỏi.

Top

Bạn không thể gửi bình luận liên tục. Xin hãy đợi
60 giây nữa.