Một ghi chép thực địa từ quá trình xây dữ liệu lâm sàng cho một ngôn ngữ mà giới AI y khoa phần lớn bỏ qua.
Cái tên của cơn đau
Những ngày đầu, chúng tôi cứ va mãi vào một bức tường. Một mô hình được huấn luyện trên dữ liệu phương Tây dịch lại, khi gặp một người bệnh Việt Nam mô tả cơn đau của mình, lại lặng lẽ hiểu sai — không phải vì y học khó, mà vì con chữ không sống sót qua chặng đường vòng qua tiếng Anh.
Người bệnh Việt Nam không nói "tôi bị đau". Họ nói cho bạn biết đó là kiểu đau nào. Đau nhức là cái đau âm ỉ, sâu, đọng lại trong một khớp xương hay một chiếc răng. Đau buốt là cái đau nhói, xuyên thấu, lóe lên rồi tắt. Đau thắt là cái đau bóp nghẹt, siết chặt — cái từ đáng lẽ phải khiến người thầy thuốc nghĩ ngay đến lồng ngực mà để tâm.
Ba bức tranh lâm sàng khác nhau, ba từ mà người bệnh chọn dùng không cần nghĩ ngợi. Gộp cả ba vào "aching", "sharp" và "tight" trong tiếng Anh thì bạn không chỉ đánh mất chút sắc thái. Bạn đã xóa sạch chính cái phân biệt mà việc phân loại ưu tiên phải dựa vào. Mô hình huấn luyện bằng tiếng Anh đọc một triệu chứng đã bị làm phẳng, rồi trả lại một câu trả lời cũng phẳng dẹt như vậy.
Sự kiệm lời cũng là dữ liệu
Ngôn ngữ mới chỉ là lớp đầu tiên. Cách người bệnh ở đây kể bệnh tự nó đã là một tín hiệu. Có một sự kiệm lời, nhẫn nhịn mang tính văn hóa chạy xuyên suốt nhiều cuộc khám ở Việt Nam: cơn đau bị nói giảm đi, nỗi sợ bị giấu kín, và lời than phiền thật sự đôi khi chỉ hé ra sau câu hỏi thứ ba.
Một mô hình quen với người bệnh kiểu phương Tây — người gọi thẳng tên triệu chứng và sẵn sàng chấm điểm trên thang mười khi được hỏi — sẽ tin ngay một lời kể bình thản, nhẹ nhàng đúng như vẻ bề ngoài của nó. Nó sẽ bỏ sót mức độ nặng đang nằm bên dưới lớp nói giảm ấy. Trong phòng khám, đó không phải là một chỗ gồ ghề nhỏ. Đó là một ca bị bỏ lỡ.
Vì sao chúng tôi tạo sinh dữ liệu, chứ không đi cóp nhặt
Đây chính là lý do chúng tôi thôi cố cải biên những bộ dữ liệu đi mượn, và bắt đầu xây từ gốc. Những người bệnh tổng hợp trong meddies-consultant được thiết kế để hành xử như người thật: lo âu, vòng vo, hay kể lể dài dòng, ngại nói quá lên. Chúng tôi lập trình cái trạng thái nội tâm đó một cách có chủ đích, để mô hình học từ họ luôn sẵn sàng cho người bệnh không bước vào phòng khám dưới dạng dữ liệu sạch sẽ.
Nó cũng buộc bác sĩ AI vào đúng tư thế cần có. Đứng trước một lời than phiền mơ hồ hay dè dặt, mô hình làm tốt là mô hình biết hỏi thêm một câu nữa. Mô hình làm dở là mô hình trả lời quá sớm. Chúng tôi xây dữ liệu để tưởng thưởng cho hành vi thứ nhất và trừng phạt hành vi thứ hai.
Bài học
AI lâm sàng cho Việt Nam không phải là AI lâm sàng tiếng Anh đem đổi nhãn. Cơn đau mang một cái tên khác, người bệnh kể một câu chuyện khác, và một công cụ không nghe được dù chỉ một trong hai điều đó là công cụ sai trong căn phòng.
Vì vậy chúng tôi xây để tư vấn, chứ không phải để trả lời. Mục tiêu là một mô hình biết rằng mình vẫn chưa biết đủ, và biết hỏi. Trong một ngôn ngữ có tới ba từ để gọi cơn đau, sự khiêm tốn ấy không phải là tùy chọn. Nó chính là công việc.
