Phần mềm tóm tắt văn bản thành một câu

02/12/2020 10:19 GMT+7

Theo Techxplore , Viện Trí tuệ Nhân tạo ở Seattle (Mỹ) đã tìm ra cách giúp các học giả tóm tắt khối lượng văn bản khổng lồ mà không cần đọc.

Semantic Scholar là công cụ sử dụng AI để hỗ trợ quá trình thực hiện nghiên cứu khoa học của các học giả. Không chỉ là kho lưu trữ ấn phẩm chuyên môn, gần đây Semantic Scholar còn vừa công bố tính năng tóm tắt cho phép khảo sát số lượng lớn văn bản và rút gọn tất cả trong một câu duy nhất. Mỗi tháng Semantic Scholar có hơn 7 triệu người truy cập. Dự án bắt đầu từ năm 2015 và là đối thủ cạnh tranh của Google Scholar và PubMed.

Giao diện của Semantic Scholar

Ảnh: Chụp màn hình

Trong nhiều năm qua, các nhà khoa học thuộc ngành Xử lý Ngôn ngữ Tự nhiên (NLP) đã mong muốn phát triển một chương trình tóm tắt văn bản thực sự hiệu quả. Họ có cách tiếp cận chủ đạo. Đầu tiên là phương pháp khai thác tập trung, lựa chọn một đoạn đại diện cho cả bài viết và dùng nguyên văn đoạn đó trong phần tóm tắt. Phương pháp còn lại trừu tượng hơn, dùng các thuật toán để tạo tóm tắt dựa trên những từ ngữ mà tác giả sử dụng. Cải tiến trong lĩnh vực NLP những năm gần đây đã khiến cách tiếp cận này trở thành phương pháp được các lập trình viên ưa chuộng.
Semantic Scholar đáng chú ý vì đạt được độ nén lớn nhất trong tất cả công cụ tóm tắt. Với các bài báo dài 5.000 từ, Semantic Scholar có thể tóm lại trong khoảng 21 từ, tức chỉ còn 1/238 khối lượng văn bản gốc. Đối thủ cạnh tranh của Semantic Scholar chỉ có thể nén văn bản bằng 1/36 so với bài gốc.
Sau khi dùng thử tính năng tóm tắt, Jevin West - nhà khoa học của Đại học Washington ở Seattle (Mỹ) nêu cảm nhận: "Tôi dự đoán những công cụ kiểu này sẽ trở thành tính năng tiêu chuẩn của việc tìm kiếm học thuật trong tương lai gần. Tôi ngạc nhiên là đến bây giờ chúng mới xuất hiện". Dù tính năng mới của Semantic Scholar chưa thực sự hoàn hảo nhưng Jevin West cho rằng nó đã đi đúng hướng.
Hiện tại Semantic Scholar có khoảng 180 triệu bài báo khoa học trên cơ sở dữ liệu. Các bài báo từ các ngành khác sẽ được bổ sung dần dần. Hạn chế của phần mềm là chỉ tóm tắt được những bài viết bằng tiếng Anh nhưng những nhà lập trình hi vọng có thể mở rộng sang các ngôn ngữ khác trong tương lai.
Top

Bạn không thể gửi bình luận liên tục. Xin hãy đợi
60 giây nữa.