Chuyện gì sẽ xảy ra khi AI đỗ kỳ thi này?

Bài kiểm tra cuối cùng đang thách thức khả năng của trí tuệ nhân tạo – Ảnh: Getty.
Trong khi ngành trí tuệ nhân tạo tiến nhanh như vũ bão, các nhà khoa học tìm cách đặt ra một giới hạn mang tên “Kỳ thi cuối cùng của nhân loại” (Humanity’s Last Exam – HLE), để xem AI có thể tiến xa tới đâu. Không chỉ là bài kiểm tra học thuật thông thường, HLE được thiết kế nhằm buộc các mô hình ngôn ngữ lớn (LLM) như ChatGPT, Gemini hay DeepSeek chứng minh khả năng hiểu biết thực sự, chứ không trả lời theo kiểu “học vẹt” nhờ lượng dữ liệu khổng lồ.
Kỳ thi này là kết quả hợp tác giữa hai đơn vị đại diện cho hai thái cực: Trung tâm An toàn AI (Center for AI Safety) – tổ chức phi lợi nhuận với sứ mệnh giảm thiểu rủi ro từ AI ở quy mô xã hội, và Scale AI – doanh nghiệp chuyên cung cấp dữ liệu huấn luyện cho các tập đoàn công nghệ hàng đầu. Dù kết quả ban đầu còn khiêm tốn, nghiên cứu đã hé lộ một tương lai không xa: nơi AI có thể trả lời những câu hỏi khó nhất mà giới học thuật từng đặt ra.
Kết quả nghiên cứu đã được gửi lên nền tảng arXiv, và hiện chưa được bình duyệt.

Bài kiểm tra yêu cầu AI phải thành thạo nhiều lĩnh vực – Hình minh họa.
Với hơn 2.700 câu hỏi được gửi về từ các chuyên gia trên khắp thế giới, HLE không đơn thuần là một bài kiểm tra tổng hợp – nó là bản đồ tri thức của nhân loại. Khoảng 41% câu hỏi liên quan đến toán học, phần còn lại trải dài từ y học, vật lý, hóa học cho đến nhân văn, khoa học máy tính và kỹ thuật. Một câu yêu cầu AI dịch một dòng chữ La Mã cổ; câu khác thách thức khả năng hiểu biết về cấu trúc gân cơ của chim ruồi; thậm chí có cả những câu khiến AI phải suy ngẫm về chính bản thân nó.
Điểm đặc biệt của HLE là tính khách quan tuyệt đối. Mỗi câu hỏi đều có đáp án duy nhất, không thể bị đánh lạc hướng bởi mẹo vặt tìm kiếm trên mạng. Quá trình chấm điểm cũng được tự động hóa, sử dụng AI GPT-40 để xác thực và đánh giá các câu trả lời một cách linh hoạt; câu trả lời được chấp nhận chỉ cần đúng về bản chất.
Đúng như dự đoán, AI đã “trượt” toàn tập, và các nhà nghiên cứu AI hoàn toàn có thể đổ lỗi cho “đề khó”: HLE thực sự đẩy AI đến giới hạn, một số mô hình đã nộp bài (bao gồm Gemini và DeepSeek) chỉ đạt 3-14% độ chính xác.
Tuy nhiên, theo nhóm nghiên cứu, các hệ thống AI hoàn toàn có thể đạt được tới số điểm 50% câu trả lời đúng vào cuối năm 2025, nếu tốc độ tiến bộ vẫn duy trì như hiện tại.
Giai đoạn tiếp theo của huấn luyện sẽ tập trung vào việc giúp AI nhận biết mức độ không chắc chắn, thay vì cứ tự tin đưa ra câu trả lời sai. AI sẽ được yêu cầu không chỉ trả lời mà còn đưa ra mức độ tin tưởng cho câu trả lời đó, theo thang điểm từ 0 đến 100%.
Chỉ số “độ tự tin” sẽ giúp giảm thiểu nguy cơ sai lầm mang tính hệ thống – điều mà giới chuyên môn coi là rào cản lớn nhất của AI trong các lĩnh vực quan trọng như y học, pháp lý hay tài chính.
Dù vẫn còn thất bại nhiều, AI đang tiến gần hơn bao giờ hết đến ngưỡng cửa của tri thức con người. Và khi chúng chinh phục được “kỳ thi cuối cùng” này, câu hỏi tiếp theo có lẽ không còn là: “AI biết gì?”, mà sẽ là: “AI còn cần chúng ta đến mức nào nữa?”
Theo
VTV
Copy link
Lấy link

Công Nghệ
Hướng dẫn bật Siri đọc thông báo ứng dụng trên iPhone 17 siêu nhanh
Th7
Công Nghệ
Steam Machine chính thức mở bán với giá khởi điểm hơn 1.000 USD dành cho game thủ
Th7
Thời Sự
Đẩy mạnh đối ngoại toàn diện ở tầm cao mới
Th7
Giải Trí
Địa điểm mát cả ngày lẫn đêm ở Quảng Ngãi, khách hào hứng cắm trại, săn mây
Th7
Ẩm Thực
Trứng gà luộc bao lâu thì chín? Cách luộc trứng gà ngon
Th7
Ẩm Thực
Đặc sản miền Trung có vẻ ngoài kỳ dị, được khen ngọt thơm hơn thịt gà
Th7
Ẩm Thực
Luộc trứng cút lộn bao nhiêu phút thì chín?
Th7
Thời Sự
Các giám đốc sở, bí thư huyện ủy dự kiến làm bí thư phường ở Nam Định
Th7
Thể Thao
Florian Wirtz, ma thuật Đức và kỷ lục gia Liverpool
Th7
Công Nghệ
Chủ quyền số: Chìa khoá tăng trưởng của Việt Nam trong thập kỷ tới
Th7
Công Nghệ
Thiếu tướng Nguyễn Tùng Hưng: ‘Không thể bảo đảm chủ quyền số nếu phụ thuộc công nghệ nước ngoài’
Th7
Giải Trí
Trước khi bị bắt vì liên quan ma túy, Tăng Nhật Tuệ từng vướng loạt bê bối
Th7
Thời Sự
Trường ĐH Khoa học Tự nhiên – ĐHQGHN công bố điểm sàn xét tuyển năm 2026
Th7
Radio My
Hí hửng nhận 3 cây vàng ngày cưới từ mẹ chồng, dâu mới khóc thét đòi ly hôn ngay lập tức khi biết xuất xứ của nó
Th7
Công Nghệ
Góc tối sau siêu bom tấn IPO: ‘Con gà đẻ trứng vàng’ của Elon Musk gặp biến
Th7
Radio My
Bé gái mất tích 47 ngày trong rừng, gầy trơ xương khi được tìm thấy, giờ ra sao?
Th7
Video
funny moment #onepiece #shorts #anime
Th7
Video
Bao Thanh Thiên Khai Phong Kỳ Án Tập 29
Th7
Video
Không hề khó TÔM SÚ KHO LÁ QUẾ đưa cơm phải biết | MÓN NGON MỖI NGÀY
Th7
Video
HƯỚNG DẪN LÀM GÀ GIANG MUỐI SIÊU ĐỈNH | LẠC ĐƯỜNG VLOG
Th7
Video
X-72: TANG TRÙNG TANG – CHƯƠNG 5: MẮT ÂM DƯƠNG || TG: HOÀNG EZ – PHẠM HOA
Th7
Video
THÁO AO BỎ LÂU NGÀY CÓ MÓN NGON | Nhịp Sống Tây Bắc
Th7
Công Nghệ
5 phụ kiện Belkin dành cho hệ sinh thái Apple mà dân văn phòng không nên bỏ qua
Th7
Công Nghệ
Top 5 tai nghe chơi game PUBG PC, Mobile nên mua nhất
Th7
Công Nghệ
Qualcomm bất ngờ hoãn Snapdragon X3, thay thế bằng dòng X2 Refresh
Th7
Thời Sự
Thanh Liệt: Hoàn tất hiệp thương lần 3, thống nhất danh sách ứng cử Hội đồng nhân dân
Th7
Radio My
Phụ nữ khổ tâm thường sẽ có thói quen này, muốn đổi vận hãy sửa ngay hôm nay
Th7
Radio My
Có 3 việc ngộ ra sớm nửa đời sau bớt khổ
Th7
Giải Trí
Cách Hà Nội không xa có “Làng nguyên thủy 3 không”, là thiên đường cho hội chữa lành với không khí mát lạnh
Th7
Ẩm Thực
Cách làm sườn xốt me đơn giản, đưa cơm cho cả gia đình
Th7
Ẩm Thực
Món ‘nửa nộm, nửa bánh đúc’ giá 25.000 đồng, khách ưa thích trong mùa hè Hà Nội
Th7
Ẩm Thực
Mực luộc bao nhiêu phút để giòn sần sật, không bị teo nhỏ?
Th7
Thời Sự
Clip thầy giáo bơi giữa ‘phố biến thành sông’ khiến dân mạng xôn xao
Th7
Thể Thao
Tin tức về chuyển nhượng 22/6: Osimhen về MU, Liverpool ký Guehi
Th7
Công Nghệ
Việt Nam cần khoảng 15.000 nhân sự điện hạt nhân vào năm 2035
Th7
Công Nghệ
Hacker đang tấn công đánh cắp dữ liệu ở 2 cơ quan cấp bộ ở mức độ nghiêm trọng
Th7
Giải Trí
‘Lửa trắng’ tập 6: Bạn gái Cương ‘đen’ lật mặt khi biết Mai là con gái ông trùm
Th7
Thời Sự
Đại học Kinh tế Quốc dân lấy điểm sàn là 22
Th7
Radio My
Vừa gặp anh rể tương lai liền khuyên chị gái “bỏ của chạy lấy người”, tôi giận tím mặt trước câu trả lời của chị
Th7
Công Nghệ
CellphoneS gia nhập mạng lưới YouTube Shopping Affiliate tại Việt Nam
Th7
Radio My
Vườn chà là 6.800m2 ở miền Tây mở cửa miễn phí, khách đến tự hái trái
Th7
Video
Cái Bóng Trên Tường || Kỳ Án Có Thật chap 7
Th7
Video
[Vietnamese] MOON PRIDE (ÁNH TRĂNG KIÊU HÃNH) | Nhạc phim THỦY THỦ MẶT TRĂNG PHA LÊ | Music Video
Th7
Video
LÊN KẾ HOẠCH NẤU ĂN DỄ DÀNG? NGHĨ LIỀN “Món Ngon Mỗi Ngày”
Th7
Video
CHÈO XIẾC CÁ TRÊN SÔNG THƯƠNG MỘT NGÀY MAY MẮN GẶP ĐÔI CÁ CHÉP ĐẸP
Th7
Video
X-90: The Ring – Vòng tròn oan nghiệt || Lời nguyền của sadako || Radio phim ma – Hồ sơ x
Th7
Video
MÓN TỦ CỦA EM THƠM | Nhịp Sống Tây Bắc
Th7
Công Nghệ
Sơn Tùng M-TP và OPPO rục rịch ‘comeback’: Hé lộ màn tái hợp với Reno14 series, thiết kế đuôi cá đa sắc cuốn hút
Th7
Công Nghệ
Cách cài extension nhắc nhở uống nước cho dân văn phòng
Th7
Công Nghệ
Apple chính thức ra mắt iOS 27 beta 2: Bản nâng cấp có gì đổi mới?
Th7
Video
BẤT NGỜ CÓ MÓN NGON | Nhịp Sống Tây Bắc
Th6
Thời Sự
Thành lập Ban Tổ chức Triển lãm thành tựu kinh tế – xã hội nhân dịp kỷ niệm 80 năm Ngày Quốc khánh
Th6
Radio My
Hành trình tìm lại sự bình yên
Th7
Video
Bộ Tóc Của Người Chết || Kỳ Án Có Thật chap 6
Th6
Video
PỊA DÊ • Em Thơm làm nhà mới nhận được quà bất ngờ
Th6
Radio My
Dòng sông thấu cảm
Th6
Video
The legacy continues! | We Are Criminal Police 我是刑警 | iQIYI
Th7
Video
❤️Trò chơi nguy hiểm giữa hai người~#iQIYI #LưuThiThi #TrươngVânLong #phimhay
Th6