Quay lại Nghiên cứu
May 14, 2026Bộ dữ liệu4 phút đọc

Meddies Persona VIE: 150.000 hồ sơ bệnh nhân tổng hợp cho dữ liệu lâm sàng tiếng Việt

Một bộ 150.000 hồ sơ bệnh nhân tổng hợp người Việt, được thiết kế để làm bối cảnh đầu nguồn cho các pipeline sinh dữ liệu lâm sàng. Đặt bệnh nhân lên trước cuộc hội thoại, để mô hình có một người bệnh giàu chi tiết để suy luận trước khi viết bất kỳ ghi chú nào.

Meddies Research

Clinical AI research at Meddies

Meddies Persona VIE: 150.000 hồ sơ bệnh nhân tổng hợp cho dữ liệu lâm sàng tiếng Việt

Đầu vào là thông tin nhân khẩu, đầu ra là cuộc hội thoại. Đó là vòng lặp mà phần lớn dữ liệu lâm sàng tổng hợp đứt gãy ngay ở lượt đầu tiên. Một bệnh án đọc lên trôi chảy, ngữ pháp chuẩn, thuật ngữ y khoa đặt đúng chỗ. Rồi bạn nhìn xuống người bệnh phía dưới và gần như không thấy gì: không có tỉnh thành, không nghề nghiệp, không tình trạng bảo hiểm, không một lý do nào giải thích vì sao người này bước vào phòng khám hôm nay. Phần văn bản mới là phần dễ. Người bệnh mới là phần khó, và nó đã bị bỏ qua.

Meddies Persona VIE xuất phát từ chính khoảng trống đó. Bản phát hành là một bộ gồm 150.000 hồ sơ bệnh nhân tổng hợp người Việt, được xây dựng cho các nhóm cần sinh ra cuộc tư vấn, ghi chú tiếp nhận, mô phỏng phân loại bệnh nhân và dữ liệu quy trình. Lựa chọn thiết kế nằm ở đầu nguồn. Đơn vị là hồ sơ bệnh nhân, không phải cuộc hội thoại đã hoàn chỉnh. Mỗi dòng dữ liệu được tạo ra để trao cho mô hình ở phía sau một người bệnh tốt hơn để làm điểm tựa, trước khi bất kỳ đoạn hội thoại hay ghi chú nào được viết ra. Hồ sơ yếu sinh ra đầu ra trôi chảy nhưng rỗng tuếch. Cách khắc phục là làm cho người bệnh giàu chi tiết hơn trước khi bắt đầu sinh dữ liệu, chứ không phải gọt giũa câu chữ sau đó.

Một bệnh nhân trước khi có cuộc hội thoại

Cách Meddies Persona VIE được xây dựng: quá trình sinh dữ liệu bằng LLM có điều kiện theo schema tạo ra 150.000 hồ sơ bệnh nhân tổng hợp người Việt làm bối cảnh đầu nguồn.

Cách Meddies Persona VIE được xây dựng: quá trình sinh dữ liệu bằng LLM có điều kiện theo schema tạo ra 150.000 hồ sơ bệnh nhân tổng hợp người Việt làm bối cảnh đầu nguồn.

Lập luận đằng sau cách xây dựng này là một khẳng định về thứ tự. Đặt hồ sơ bệnh nhân lên trước, thêm một bản tóm tắt tình huống, sinh ra bản nháp, rồi lọc thật chặt trước khi phát hành. Chính thứ tự đó là mấu chốt. Bỏ qua bước tạo hồ sơ bệnh nhân thì bộ sinh dữ liệu không có gì để neo vào, nên nó tạo ra văn bản nghe giống một người bệnh mà không thực sự là một người bệnh. Cho nó tuổi tác, hoàn cảnh, hành vi sức khỏe, phong cách giao tiếp và những ràng buộc xã hội, thì cùng bộ sinh đó có nguyên liệu thô để suy luận.

Mỗi dòng dữ liệu do máy sinh ra, có điều kiện theo một schema, và được viết để đọc lên như một hồ sơ bệnh nhân chứ không phải một chỗ trống điền tạm. Các trường được nhóm thành vài nhóm rõ ràng. Nhân khẩu học mang tuổi, giới tính, tình trạng hôn nhân, dân tộc, ngôn ngữ, tôn giáo, tỉnh thành và loại nơi cư trú. Bối cảnh xã hội và kinh tế bổ sung trình độ học vấn, nghề nghiệp, tình trạng việc làm, cấu trúc hộ gia đình, tình trạng bảo hiểm, an ninh lương thực, khả năng tiếp cận công nghệ số và các tín hiệu về hiểu biết tài chính. Bối cảnh sức khỏe và hành vi bao gồm các yếu tố lối sống, bệnh mạn tính, dị ứng, tiền sử phẫu thuật, tiền sử gia đình, bối cảnh sức khỏe tâm thần, phơi nhiễm môi trường, các quan niệm về sức khỏe theo văn hóa, hành vi tìm kiếm dịch vụ chăm sóc y tế và mức độ hiểu biết về sức khỏe. Một nhóm các trường tường thuật sẵn sàng cho prompt sau đó biến cấu trúc ấy thành đầu vào dùng được: lý do đến khám, bệnh sử của bệnh hiện tại, triệu chứng, rào cản xã hội, phong cách giao tiếp và một đoạn mô tả tường thuật hướng tới người bệnh. Phần siêu dữ liệu phát hành ghi lại seed, mốc thời gian, ID mô hình và phiên bản schema, để mỗi hồ sơ có thể truy ngược về cách nó được tạo ra.

Sợi chỉ xuyên suốt tất cả những điều này là một câu lấy từ thẻ dữ liệu: bối cảnh người bệnh tốt hơn vào, đầu ra tổng hợp tốt hơn ra. Schema không cố gắng trở thành một bệnh án. Nó cố gắng trở thành bối cảnh điều kiện đủ dày để bộ sinh dữ liệu không phải tự bịa ra người bệnh từ con số không.

Chỗ nào dày, và chỗ nào cố ý để mỏng

Một bộ dữ liệu hồ sơ bệnh nhân chỉ trung thực ngang với bản đồ độ phủ của nó. Câu hỏi thực tế đầu tiên mà người đọc đặt ra là phần nào của schema được điền đủ để tin cậy làm bối cảnh điều kiện, và phần nào còn mỏng. Thẻ dữ liệu trả lời thẳng thắn điều đó thay vì ngầm gợi ý một độ hoàn chỉnh đồng đều.

Nhóm schemaĐộ phủ
Nhân khẩu họcDày
Hành vi chăm sóc sức khỏeDày
Các trường tường thuật dành cho LLMDày
Tiền sử bệnhMỏng hơn theo chủ đích
ThuốcMỏng hơn theo chủ đích

Nhân khẩu học, hành vi chăm sóc sức khỏe và các trường tường thuật dành cho mô hình thì dày. Các trường về thuốc và tiền sử bệnh chuyên sâu hơn thì mỏng hơn, và thẻ dữ liệu coi đó là chủ đích, không phải sơ suất. Những hồ sơ này được tạo ra để neo việc sinh dữ liệu, không phải để thay thế cho một bệnh án hoàn chỉnh. Điều rút ra từ bảng này là một ranh giới sử dụng: lấy điều kiện từ các nhóm dày, và coi các nhóm mỏng hơn như điểm khởi đầu mà một bước phía sau vẫn phải điền vào.

Câu hỏi thứ hai là độ trải. Một bộ dữ liệu có thể được điền dày đặc mà vẫn co cụm về một nhúm bệnh nhân lặp đi lặp lại. Thẻ dữ liệu báo cáo những phân bố quan trọng đối với việc sinh dữ liệu dựa trên tình huống.

TrụcHình dạng được báo cáo
TuổiBao trùm toàn bộ vòng đời
Giọng vùng miềnCo cụm vào các nhóm vùng miền thường thấy như Giọng BắcGiọng Nam
Triệu chứngTuân theo phân bố đuôi dài
Số lượng bệnh mạn tínhPhần lớn ở mức thấp

Độ tuổi trải khắp toàn bộ vòng đời chứ không dồn quanh một giá trị trung bình tiện lợi. Các nhãn giọng vùng miền rơi vào những nhóm vùng miền mà một người đọc Việt Nam sẽ kỳ vọng. Triệu chứng tuân theo phân bố đuôi dài, vốn là hình dạng thực tế, vì các than phiền thường gặp chiếm ưu thế còn các trường hợp hiếm thì thưa dần. Số lượng bệnh mạn tính phần lớn ở mức thấp, khớp với một quần thể không đồng loạt bệnh tật. Rộng, đa dạng, mà vẫn có cơ sở chính là hình dạng bạn muốn khi mục tiêu là thử thách bộ sinh dữ liệu trên nhiều kiểu người bệnh, chứ không phải mô hình hóa tỷ lệ mắc bệnh trên cả nước. Thẻ dữ liệu nói rõ rằng bốn góc nhìn này chỉ là một lát cắt của bản phát hành, và phần còn lại nằm ở đó để bạn tự kiểm tra.

Nó cho phép làm gì, và dừng lại ở đâu

Mục đích sử dụng được nêu hẹp và thẳng thắn. Hãy tìm đến bản phát hành này khi điều bạn cần là sự đa dạng của người bệnh. Những trường hợp phù hợp gồm: cuộc tư vấn bác sĩ–người bệnh tổng hợp, sinh ghi chú tiếp nhận và bệnh sử, mô phỏng phân loại bệnh nhân, kiểm thử quy trình, và thử thách prompt trên các trục tuổi tác, hoàn cảnh, mức độ hiểu biết về sức khỏe, phong cách giao tiếp và rào cản xã hội trong bối cảnh chăm sóc tại Việt Nam. Hồ sơ bệnh nhân đứng ở đầu chuỗi xử lý, còn phần còn lại của pipeline làm công việc biến nó thành một cuộc hội thoại.

Để có hồ sơ đầu tiên chỉ cần ba dòng.

from datasets import load_dataset

ds = load_dataset("Meddies/meddies-persona-vie", split="train")

print(ds)
print(ds[0].keys())
print(ds[0]["demographics"])

Phần giới hạn là chỗ thẻ dữ liệu hữu ích nhất, và đáng đọc trước khi tải về bất cứ thứ gì. Đây là dữ liệu tổng hợp, và nó yêu cầu được đối xử đúng như vậy. Đừng dùng nó để ước lượng tỷ lệ mắc bệnh, lượng bệnh nhân của bệnh viện, mức độ sử dụng dịch vụ y tế, hay các phân bố trên cả nước. Đừng dùng nó như một công cụ lâm sàng. Một số tổ hợp về nhân khẩu, kinh tế xã hội và lâm sàng vẫn sẽ thiếu thực tế hoặc thiên lệch. Chất lượng đầu ra cuối cùng vẫn phụ thuộc vào thiết kế tình huống, logic triệu chứng và bước đảm bảo chất lượng lọc các kết quả sinh ra trước khi phát hành. Bộ dữ liệu cải thiện người bệnh mà bạn bắt đầu từ đó. Nó không gánh thay trách nhiệm cho phần còn lại của pipeline.

Sự trung thực đó mới là phần đáng giữ lại. Thẻ dữ liệu không tuyên bố rằng các hồ sơ là thật, mang tính đại diện, hay đã được kiểm chứng đối chiếu với các thước đo bên ngoài. Nó tuyên bố rằng các hồ sơ dày ở những chỗ độ dày giúp ích, đủ đa dạng để thử thách bộ sinh dữ liệu, và mỏng ở những chỗ mà một bệnh án sẽ là quá đà. Với một nhóm đang xây dựng pipeline dữ liệu tổng hợp tiếng Việt, đó là một cam kết hữu ích hơn nhiều so với một bảng thông số hứa hẹn một sự hoàn chỉnh mà nó không thể đem lại.

Bản phát hành được công bố theo giấy phép cc-by-nc-4.0 tại huggingface.co/datasets/Meddies/meddies-persona-vie. Việc sử dụng cho mục đích thương mại chỉ được mở sau một cuộc trao đổi: thẻ dữ liệu đề nghị các nhóm liên hệ trước tại [email protected]. Điều hữu ích nhất bạn có thể gửi lại là những thất bại. Các hồ sơ lặp lại, những tổ hợp phi thực tế, bối cảnh Việt Nam còn thiếu, hay các kết quả sinh ra ở phía sau bị hỏng theo những cách mà một pipeline đảm bảo chất lượng bắt được, chính là những tín hiệu giúp mài sắc phiên bản tiếp theo.