Trong y tế, dữ liệu vốn là thứ đặc biệt nhạy cảm, bởi mỗi bệnh án thật đều gắn liền với thông tin riêng tư của người bệnh, nên gần như không thể tự do mang ra để huấn luyện mô hình. Vì lẽ đó, nhiều nhóm chọn cách dùng chính các mô hình ngôn ngữ để tự tạo ra dữ liệu tổng hợp, và đến nay, năng lực của các mô hình cũng đã đủ để làm được việc này. Theo hướng đó, chúng tôi cũng bắt tay xây dựng những bộ dữ liệu y tế tổng hợp của riêng mình.

Nhưng khi xây dựng bộ dữ liệu Meddies Consultant, chúng tôi nhận ra mình đang thiếu một mảnh quan trọng. Muốn tạo sinh những cuộc tư vấn vừa đa dạng vừa giống thật, chúng tôi cần một bộ chân dung người bệnh đủ phong phú để làm nền cho từng cuộc tư vấn. Một trong những lựa chọn khả dụng tốt nhất khi đó là Nemotron-Personas-USA, nhưng bộ dữ liệu này xoay quanh người Mỹ, viết bằng tiếng Anh và mô tả đời sống khá chung chung, nên không tái hiện được nét riêng của người bệnh Việt Nam, và nếu cứ thế đem dùng thì sẽ rất thiên lệch. Hơn nữa, bộ dữ liệu của NVIDIA còn thiếu nhiều thông tin lâm sàng vốn rất cần khi tiến hành một buổi tư vấn hay khi dựng các tình huống ca bệnh để mô phỏng điều trị, chẳng hạn như thuốc người bệnh đang dùng hay tiền sử gia đình.

Meddies Persona được chúng tôi xây dựng để giải quyết đúng bài toán ấy. Đây là một bộ dữ liệu tổng hợp gồm 150.000 chân dung người bệnh Việt Nam, dùng làm bối cảnh trước khi tạo sinh bất kỳ cuộc tư vấn hay ghi chú y tế nào. Mỗi dòng dữ liệu không phải một cuộc trò chuyện đã hoàn chỉnh, mà là một con người cụ thể, với tuổi tác, nghề nghiệp, hoàn cảnh sống, bệnh nền, thuốc đang dùng, thói quen khám chữa bệnh, và cả cách riêng của họ khi kể về bệnh của mình.

Mỗi người bệnh là một chân dung riêng biệt, và xứng đáng được chăm sóc theo cách riêng.

Cách chúng tôi dựng một chân dung người bệnh

Chúng tôi luôn dựng xong người bệnh trước, rồi mới để bước sau tạo sinh cuộc tư vấn dựa trên người bệnh đó, và thứ tự này thật sự quan trọng. Nếu để mô hình vừa tạo sinh hội thoại vừa tự nghĩ ra người bệnh, kết quả nghe thì giống một người bệnh nhưng thật ra không phải ai cả. Còn khi cần tạo sinh thật nhiều mà chỉ đưa một câu lệnh chung, các chân dung sẽ dần trượt về vài kiểu quen thuộc, nhìn riêng từng cái thì hợp lý nhưng cả bộ lại quẩn quanh một mẫu số chung. Vì vậy, chúng tôi ràng buộc mỗi chân dung theo một cấu trúc chi tiết, buộc từng người bệnh phải khác nhau ở những điểm thật sự làm nên một con người.

Một chân dung được dựng qua hai bước. Trước hết, chúng tôi tạo phần thông tin nền (nhân khẩu, hoàn cảnh kinh tế xã hội, tiền sử bệnh, thói quen khám chữa bệnh) dựa trên số liệu nhân khẩu học của Việt Nam, kèm những nét rất riêng như quan niệm chữa bệnh dân gian. Sau đó, một mô hình ngôn ngữ viết phần lời như lý do đến khám, bệnh sử hay cách người bệnh giao tiếp, bám sát phần nền vừa dựng để lời kể khớp với con người phía sau. Cuối cùng, mỗi chân dung được ghi kèm thời điểm tạo, mô hình đã dùng và phiên bản cấu trúc, để truy lại khi cần.

Phần thông tin có cấu trúc ở bước đầu được gom theo chức năng, mỗi nhóm trả lời cho một câu hỏi mà người làm lâm sàng quan tâm.

Nhóm thông tin	Để làm gì
Nhân khẩu học	Tuổi, giới, dân tộc, tỉnh thành, giọng vùng miền. Nền tảng cho mọi suy luận về sau.
Kinh tế và xã hội	Học vấn, nghề nghiệp, bảo hiểm, quy mô hộ gia đình, ai chăm khi đổ bệnh. Quyết định một hướng điều trị có khả thi với người bệnh hay không.
Lối sống và tiền sử bệnh	Hút thuốc, rượu bia, bệnh mạn tính, dị ứng, tiền sử gia đình. Các yếu tố nguy cơ định hình giả thuyết lâm sàng.
Phơi nhiễm môi trường	Nguồn nước, chất lượng không khí, phơi nhiễm thuốc trừ sâu, khói đốt đồng theo mùa. Những nguy cơ rất Việt Nam mà dữ liệu phương Tây hiếm khi có.
Hành vi chăm sóc sức khỏe	Mức độ hiểu biết về sức khỏe, thói quen dùng thuốc nam, xu hướng tự mua thuốc. Quyết định người bệnh sẽ tiếp nhận lời khuyên ra sao.
Sức khỏe tâm thần và hỗ trợ xã hội	Mức độ căng thẳng, tác nhân gây stress, mạng lưới người thân. Phần bối cảnh con người mà bệnh án thường bỏ qua.
Lời kể cho mô hình	Lý do đến khám và bệnh sử hiện tại, viết sẵn bằng ngôn ngữ tự nhiên để dùng được ngay làm đầu vào.

Ghép tất cả những nhóm đó lại, một chân dung trông như thế này. Dưới đây là bốn ví dụ về người bệnh trong bộ dữ liệu.

Bốn chân dung trong Meddies Persona

36 tuổiNữDân tộc HoaBình Dương

Lý do đến khám

Đau bụng, đầy bụng, ăn vào càng khó chịu

Những gì hồ sơ biết về người bệnh

Nhấn vào một mục có chấm để xem nó đổi hướng tư vấn thế nào.

Nhân thân

Dân tộcHoa, nói giọng Triều Châu

Nơi ởVen đô Thủ Dầu Một, Bình Dương

Gia đìnhĐã kết hôn, hộ 5 người

Đời sống

Nghề nghiệpNông dân

Sức khỏe

Bệnh nềnViêm loét dạ dày, trào ngược

Đang dùngEsomeprazole, Domperidone, thêm thuốc nam

Niềm tin & cách nói

Hiểu biết sức khỏeThấp

Các chân dung tổng hợp, chọn ra để minh họa.

Mức độ đa dạng của bộ dữ liệu

Một bộ dữ liệu có thể rất chi tiết mà vẫn quẩn quanh một nhúm người bệnh giống nhau, nên chúng tôi nhìn vào những phân bố quan trọng nhất trên toàn bộ 150.000 chân dung.

Chân dung

150.000

Khoảng tuổi

0–100

Dân tộc

Nhóm bệnh

124

Vùng miền

Bắc 39,6%

Trung 30,2%

Nam 30,2%

Độ tuổi

17,5%

0–17

12,0%

18–29

14,9%

30–44

14,9%

45–59

14,9%

60–74

25,8%

75+

Số bệnh mạn tính mỗi người

32,5%

22,1%

16,2%

12,0%

17,1%

Dân tộc

Kinh62,6%

Khmer6,3%

Mường4,6%

Thái4,1%

Tày3,6%

Hmong3,5%

Nùng3,1%

Dao2,2%

Hoa2,0%

45 dân tộc khác8,0%

Bệnh thường gặp nhất

Tăng huyết áp8,6%

Rối loạn mỡ máu6,1%

Bệnh mạch vành5,7%

Tật khúc xạ4,9%

Loét dạ dày4,7%

Rối loạn lo âu4,5%

Viêm mũi dị ứng4,2%

Đột quỵ4,2%

Viêm lợi4,1%

Đái tháo đường3,6%

Để bộ dữ liệu vừa đa dạng vừa có cơ sở, chúng tôi tham chiếu các số liệu được công bố từ chính phủ Việt Nam, Tổ chức Y tế Thế giới và Bộ Y tế về nhân khẩu học và dịch tễ. Mục tiêu không phải tái hiện đúng tỷ lệ mắc bệnh của cả nước, mà là mô phỏng người bệnh Việt Nam sát thực tế nhất có thể.

Bộ dữ liệu này dùng vào việc gì

Bộ dữ liệu hợp với những việc cần nhiều kiểu người bệnh khác nhau: dựng cuộc tư vấn tổng hợp, tạo ghi chú tiếp nhận và bệnh sử, mô phỏng phân loại bệnh, hay thử một prompt trên nhiều hoàn cảnh người bệnh Việt Nam. Mỗi chân dung là một điểm bắt đầu, không phải một cuộc tư vấn đã hoàn chỉnh.

Bạn có thể tải bộ dữ liệu về và thử nghiệm chỉ với vài dòng.

python

from datasets import load_dataset

ds = load_dataset("Meddies/meddies-persona-vie", split="train")

print(ds)
print(ds[0].keys())
print(ds[0]["demographics"])

Phạm vi của bản phát hành

Đây là dữ liệu tổng hợp, và chúng tôi không coi nó là thật hay mang tính đại diện. Nó không phản ánh tỷ lệ mắc bệnh hay phân bố thật của dân số, cũng không phải một công cụ lâm sàng. Giá trị của nó là cho bạn nhiều kiểu người bệnh để bắt đầu, còn một tình huống có sát thực tế hay không thì vẫn tùy vào cách bạn dựng kịch bản và rà soát phía sau.

Bộ dữ liệu phát hành theo giấy phép cc-by-nc-4.0 tại Meddies Persona. Nếu muốn dùng cho mục đích thương mại, hãy viết cho chúng tôi qua [email protected]. Và nếu bạn bắt gặp một chân dung vô lý, một tổ hợp phi thực tế hay một mảng bối cảnh Việt Nam còn thiếu, hãy gửi lại cho chúng tôi. Đó là cách bản sau tốt hơn bản này.

Meddies Persona: Bộ dữ liệu hồ sơ bệnh nhân tổng hợp

Cách chúng tôi dựng một chân dung người bệnh

Mức độ đa dạng của bộ dữ liệu

Vùng miền

Độ tuổi

Số bệnh mạn tính mỗi người

Dân tộc

Bệnh thường gặp nhất

Bộ dữ liệu này dùng vào việc gì

Phạm vi của bản phát hành