Muốn tìm câu bịa đặt, người đánh giá bắt đầu từ bản tóm tắt rồi truy ngược về tài liệu gốc. Muốn tìm chỗ bỏ sót, họ phải đi theo chiều ngược lại: bắt đầu từ tài liệu gốc và xem dữ kiện quan trọng nào không xuất hiện trong bản tóm tắt.

Hai cách kiểm tra này trả lời hai câu hỏi khác nhau. Một cách hỏi “câu đã viết có căn cứ không?”. Cách còn lại hỏi “phần cần có đã được viết chưa?”. Chỉ làm cách thứ nhất thì chưa thể kết luận bản tóm tắt đã đầy đủ.

Một nghiên cứu, hai chiều kiểm tra

Nghiên cứu đăng trên npj Digital Medicine đánh giá 450 cặp gồm biên bản hội thoại và bản ghi lâm sàng qua 18 cấu hình thử nghiệm. Các bác sĩ kiểm tra 12.999 câu trong bản ghi do LLM tạo để tìm thông tin không có căn cứ, đồng thời kiểm tra 49.590 câu trong biên bản hội thoại để tìm thông tin liên quan đã bị bỏ sót.

Một lỗi được xếp loại nghiêm trọng khi nó có thể ảnh hưởng đến chẩn đoán hoặc xử trí nếu không được sửa. Cách làm này quan trọng hơn một câu khẳng định chung rằng bỏ sót “nguy hiểm hơn”, vì nó buộc từng lỗi phải được đánh giá theo hậu quả có thể xảy ra.

Nghiên cứu ghi nhận 191 trong 12.999 câu ở đầu ra có thông tin không được biên bản hội thoại hỗ trợ, tương ứng 1,47%. Trong số đó, 84 câu được xếp loại nghiêm trọng, tức 44%.

Ở chiều còn lại, 1.712 trong 49.590 câu của biên bản hội thoại bị bỏ khỏi bản ghi, tương ứng 3,45%. Có 286 câu bị bỏ sót được xếp loại nghiêm trọng, tức 16,7%.

Hai tỷ lệ dùng hai mẫu số khác nhau. Một tỷ lệ tính trên câu ở đầu ra, tỷ lệ kia tính trên câu ở tài liệu đầu vào. Vì vậy không thể lấy 3,45 chia cho 1,47 rồi kết luận bỏ sót phổ biến hơn hay nguy hiểm hơn. Nghiên cứu cũng đánh giá bản ghi được tạo từ hội thoại khám bệnh, không phải bản tóm tắt toàn bộ bệnh án theo thời gian, và không đo kết quả điều trị.

Những chỗ bỏ sót lớn tập trung ở đâu

Trong thử nghiệm này, 55% lỗi bỏ sót nghiêm trọng thuộc nhóm vấn đề hiện tại của người bệnh. Nhóm tiền sử bệnh, thuốc, dị ứng, gia đình và xã hội chiếm 35%; phần thông tin trao đổi và kế hoạch chiếm 10%.

Các con số đó giúp xác định mục nào cần kiểm tra kỹ trong một quy trình tạo bản ghi tương tự. Chúng không tạo ra một danh sách chung cho mọi hệ thống bệnh án điện tử. Với bản tóm tắt bệnh án dọc, đội ngũ xây dựng vẫn phải quy định trước dữ kiện nào bắt buộc phải có và kiểm tra trên đúng loại hồ sơ sẽ dùng thật.

Ranh giới của Meddies hiện tại

Hướng dẫn tóm tắt người bệnh trong Meddies hiện yêu cầu gom dữ liệu FHIR thành một bản thông tin có cấu trúc. Bản này liệt kê bệnh nền, thuốc, dị ứng, xét nghiệm gần đây, sinh hiệu và các nhóm dữ liệu còn thiếu, kèm nguồn cho từng trường. Nếu không có dữ liệu dị ứng, hệ thống phải ghi rõ là thiếu dữ liệu, không được đổi thành “không dị ứng”. Trước khi trả kết quả, hướng dẫn còn yêu cầu kiểm tra bệnh đang hoạt động, liều thuốc, tình trạng dị ứng và xu hướng xét nghiệm.

Đây là yêu cầu trong quy trình hiện tại, chưa phải bằng chứng rằng Meddies đã giảm được lỗi bỏ sót. Chúng tôi chưa công bố tỷ lệ bỏ sót, chưa chứng minh mọi dữ kiện quan trọng đều xuất hiện và chưa đánh giá tác động lên kết quả lâm sàng.

Một phép thử phù hợp phải đọc theo cả hai chiều. Kiểm tra từ bản tóm tắt về bệnh án để tìm câu không có căn cứ. Sau đó kiểm tra từ bệnh án sang bản tóm tắt để tìm dữ kiện bắt buộc còn thiếu. Nếu chưa làm đủ hai bước, “đúng” và “đủ” vẫn là hai cam kết khác nhau.

Tóm tắt bệnh án bằng AI phải được kiểm tra theo hai chiều

Một nghiên cứu, hai chiều kiểm tra

Những chỗ bỏ sót lớn tập trung ở đâu

Ranh giới của Meddies hiện tại

Tài liệu tham khảo