Phần lớn việc đánh giá các mô hình ngôn ngữ lâm sàng dừng lại ở những câu trắc nghiệm tình huống. Chọn chẩn đoán đúng trong năm phương án, chấm điểm mô hình, rồi đi tiếp. Cách làm đó chỉ kiểm tra một lát cắt của một đầu việc. Nhưng vận hành một bệnh viện là bài toán rộng hơn nhiều, và gần như không có dữ liệu huấn luyện tiếng Việt công khai nào bao phủ phần rộng hơn ấy.

Hãy nhìn vào công việc thực tế. Bác sĩ giải thích bệnh lý cho người bệnh bằng tiếng Việt đời thường. Sinh viên học cơ chế thuốc trước khi được kê đơn. Điều dưỡng trưởng cân đối công suất giường với phương án ứng phó quá tải. Nhà quản lý đọc biến động ngân sách và viết tờ trình cải tiến quy trình. Một mô hình chỉ huấn luyện trên kho dữ liệu trắc nghiệm chưa từng thấy hầu hết những việc đó. Vấn đề không nằm ở độ khó, mà ở độ phủ. Hình hài của văn bản bệnh viện, nó viết cho ai, và lập luận đằng sau nó đơn giản là vắng mặt trong các bộ dữ liệu tình huống trắc nghiệm.

Meddies Hospital Synthetic là bộ dữ liệu huấn luyện tiếng Việt cho phần còn lại của công việc ấy. Nó gồm 5.214 tác vụ suy luận trải rộng trên tám miền năng lực bệnh viện và bốn nhóm người đọc, chắt lọc từ 444.694 mẫu được sinh ra qua một hệ thống nhiều giám khảo chấm theo rubric. Tức là tỷ lệ chấp nhận 1,17%. Mỗi dòng dữ liệu được định dạng cho fine-tuning có giám sát theo kiểu hội thoại: một đoạn lập luận <think>...</think>, rồi một câu trả lời chốt lại, theo phong cách của các mô hình suy luận hiện đại.

Tỷ lệ chấp nhận 1,17% đến từ đâu

Cách dựng Meddies Hospital Synthetic: gieo persona, sinh tác vụ và câu trả lời, tự tinh chỉnh, và đánh giá bởi nhiều giám khảo với các cổng an toàn chỉ chấp nhận 1,17% số ứng viên.

Bộ dữ liệu này là tập những gì đã được chấp nhận, không phải nhật ký sinh dữ liệu. Lý do để tin nó nằm ở phần đã bị loại bỏ.

Mỗi dòng bắt đầu từ một persona gieo sẵn: một hồ sơ người bệnh hoặc người học tiếng Việt được tổng hợp, cố định bối cảnh. Nhóm người đọc, hoàn cảnh xã hội, nền tảng y khoa. Từ persona gieo sẵn đó, một mô hình ngôn ngữ sinh ra một tình huống gắn nhãn năng lực theo một trong chín dạng định dạng, với những cờ nhiễu được cài vào có chủ đích. Phủ định. Thông tin gây nhiễu không liên quan. Sai khác đơn vị. Người khai bệnh không đáng tin. Quá tải thông tin. Tác vụ được dựng cho khó ngay từ trước khi có bất kỳ câu trả lời nào.

Lượt thứ hai tạo ra một đoạn lập luận có cấu trúc và một câu trả lời nháp. Sau đó tối đa hai vòng chỉnh sửa sẽ phê bình và viết lại bản nháp ấy, và câu trả lời chốt cuối cùng mới khép lại dòng dữ liệu. Quá trình tự sửa được giữ nguyên bên trong khối <think> dưới dạng văn xuôi tiếng Việt tự nhiên, "Để tôi xem xét lại câu trả lời của mình.", chứ không phải dưới dạng XML tổng hợp. Một mô hình huấn luyện trên dữ liệu này học được nước đi, chứ không phải cái nhãn.

Khâu cuối là bộ lọc. Các rubric riêng theo từng miền, ví dụ DIAGNOSTIC_REASONING, chấm mỗi câu trả lời theo các cổng kiểm tra an toàn và các tiêu chí theo từng chiều. Chỉ những dòng vượt qua mọi giám khảo mới đạt trạng thái accepted, và tập được công bố đúng là phần đó. 444.694 ứng viên đi vào. 5.214 đi ra. Tỷ lệ chấp nhận chính là tín hiệu chất lượng then chốt của bộ dữ liệu, và đó là lý do bản phát hành này nhỏ.

Mỗi dòng dữ liệu thực sự chứa gì

Mỗi dòng là một tác vụ lâm sàng hoặc quản lý bệnh viện bằng tiếng Việt kèm một câu trả lời được lập luận đầy đủ, và cấu trúc dữ liệu nạp thẳng vào một trình huấn luyện định dạng hội thoại. Các trường mang đúng cấu trúc mà một lượt fine-tuning cần.

Trường	Kiểu	Cho bạn cái gì
`messages`	`list<{role, content}>`	Hội thoại hai lượt: câu hỏi của người dùng, câu trả lời của trợ lý kèm lập luận `<think>`
`question`	`string`	Câu hỏi của người dùng, cũng truy cập được qua `messages[0].content`
`domain`	`string`	Một trong 8 miền năng lực cấp cao nhất (xem bên dưới)
`category`	`string`	Nhánh lá phân loại con (ví dụ `chief_complaint_analysis`, `bed_capacity_management`)
`audience`	`string`	`PATIENT`, `DOCTOR`, `STUDENT`, hoặc `MANAGER` — câu trả lời dành cho ai
`difficulty`	`string`	5 mức từ `LEVEL_1_BASIC` đến `LEVEL_5_EDGE_CASES`
`format_type`	`string`	Một trong 9 dạng tác vụ (trả lời dài, liệt kê, trắc nghiệm, tính toán, thủ thuật, …)
`options`	`list<struct>` hoặc null	Các phương án trắc nghiệm khi `format_type` là `MCQ_SINGLE` hoặc `MCQ_MULTIPLE`
`perturbation`	`struct`	Các cờ kiểm tra độ bền với nhiễu (phủ định, thông tin không liên quan, sai khác đơn vị, …)
`id`, `created_at`	`string`	Định danh dòng và mốc thời gian sinh dữ liệu

Tám miền không cân bằng nhau, và chính sự lệch ấy là bức tranh trung thực về văn bản bệnh viện. Giao tiếp và ghi chép chiếm hơn một nửa số dòng, bởi văn bản hướng tới người bệnh mới là phần lớn những gì một bệnh viện viết ra.

Miền	Số dòng	Bao phủ những gì
Giao tiếp & Ghi chép	2.605	Giáo dục người bệnh, báo tin xấu, ra quyết định cùng người bệnh, bệnh án SOAP, tóm tắt ra viện, giấy chuyển tuyến, bàn giao ca
Lập luận lâm sàng	1.079	Phân tích lý do vào viện, chẩn đoán phân biệt, nhận diện mẫu hình bệnh, đọc xét nghiệm/chẩn đoán hình ảnh/điện tim, quyết định phân loại và nhập viện
Kỹ năng định lượng	560	Tính toán nhân trắc/dịch truyền/nhi/sản, thang điểm độ nặng và tiên lượng, liều theo cân nặng và hiệu chỉnh theo chức năng tạng
Khoa học y học	478	Cơ chế bệnh và cơ chế thuốc, dược động học, sinh lý, miễn dịch học, kiến thức nền về yếu tố nguy cơ và dịch tễ
Vận hành bệnh viện	163	Công suất giường, sắp lịch nhân sự, biến động ngân sách, kiểm định chất lượng, ứng phó quá tải, duy trì hoạt động liên tục, quản trị rủi ro pháp lý
Thủ thuật & Chẩn đoán	158	Chọn xét nghiệm và chẩn đoán hình ảnh, hồi sức, kiểm soát đường thở, đường truyền mạch máu, thủ thuật cấp cứu
Y đức & An toàn	138	Quyền tự quyết, đồng thuận sau khi được giải thích, từ chối điều trị, nói thật, phòng ngừa sai sót, an toàn dùng thuốc
Điều trị & Quản lý	33	Xử trí ban đầu, lựa chọn thuốc, theo dõi đáp ứng, tái khám, quản lý bệnh mạn tính

Nhóm người đọc là cấu trúc, không phải cái nhãn

Bốn nhóm người đọc không phải là một thủ thuật gắn nhãn cho tiện. Cặp ghép người-đọc–miền được cài sẵn: một bác sĩ không bao giờ nhận tác vụ giáo dục người bệnh, một nhà quản lý không bao giờ nhận một ca lập luận lâm sàng. Mỗi dòng được viết cho đúng một người đọc cụ thể, và chính điều đó khiến những thí nghiệm có điều kiện theo người đọc trở nên khả thi. Cùng một miền, người đọc khác nhau, câu trả lời khác nhau.

Nhóm người đọc	Số dòng	Các miền bao phủ
`PATIENT`	2.241	Giao tiếp & Ghi chép (văn bản hướng tới người bệnh)
`DOCTOR`	1.772	Lập luận lâm sàng, Ghi chép lâm sàng, Thủ thuật, Điều trị, Y đức
`STUDENT`	1.038	Khoa học y học, Kỹ năng định lượng
`MANAGER`	163	Vận hành bệnh viện

Độ khó trải khắp chương trình đào tạo thay vì dồn về đầu dễ hay đầu chuyên gia, và cơ cấu định dạng nghiêng về sinh nội dung mở trong khi vẫn giữ một phần trắc nghiệm để tương thích với các thước đo kiểu tình huống. Các con số dưới đây lấy từ thẻ mô tả bộ dữ liệu, không phải từ một cuộc kiểm toán độc lập.

Lát cắt	Số dòng	%
`LEVEL_1_BASIC` → `LEVEL_2_INTERMEDIATE`	2.545	48,8%
`LEVEL_3_ADVANCED` → `LEVEL_4_EXPERT`	2.309	44,3%
`LEVEL_5_EDGE_CASES`	360	6,9%
Dạng mở (`LONG_ANSWER`, `LIST_GENERATION`, `SHORT_ANSWER`, `CASE_ANALYSIS`)	3.918	75,1%
Trắc nghiệm (`MCQ_SINGLE`, `MCQ_MULTIPLE`)	354	6,8%
Tính toán, Thủ thuật, Tư vấn	942	18,1%

Nó mở ra điều gì, và dừng lại ở đâu

Bản phát hành này được dựng cho fine-tuning có giám sát, không phải để đánh giá. Một ứng dụng phù hợp là tinh chỉnh một mô hình suy luận tiếng Việt để xử lý công việc bệnh viện chứ không chỉ hỏi-đáp lâm sàng: tinh chỉnh theo chỉ dẫn cho nhiều nhóm người đọc trải khắp người bệnh, bác sĩ, sinh viên và nhà quản lý, huấn luyện năng lực quản lý bệnh viện, giám sát hỗn hợp giữa dạng mở và trắc nghiệm, và căn chỉnh theo đoạn lập luận thông qua các khối <think> được giữ nguyên. Các nhãn người đọc cũng hỗ trợ những thí nghiệm sinh nội dung có điều kiện theo người đọc.

Những giới hạn là có thật và được nói thẳng. Đây là dữ liệu tổng hợp, do mô hình ngôn ngữ sinh ra và chấm điểm. Nó không phải một thước đo đánh giá, không phải một tham chiếu về tỷ lệ mắc bệnh, và không phải một công cụ ra quyết định lâm sàng. Cổng chấp nhận dựa trên rubric, không phải do bác sĩ rà soát từng dòng, nên một số dòng vẫn phản ánh thiên kiến của mô hình sinh: cách khung hóa theo văn hóa Việt, quy ước đặt tên thuốc, thói quen mã hóa ICD-10. Cơ cấu các miền lệch nhau là có chủ đích, và một mô hình tinh chỉnh trên nó sẽ cần cân bằng thêm nếu khâu đánh giá hạ nguồn coi trọng mọi miền như nhau. Miền Vận hành bệnh viện hữu ích nhưng còn nhỏ với 163 dòng. Hãy xem nó như chất liệu gieo mầm để sinh thêm dữ liệu, chứ chưa phải một kho dữ liệu quản lý hoàn chỉnh.

Bộ dữ liệu nằm tại huggingface.co/datasets/Meddies/meddies-hospital-synthetic theo giấy phép cc-by-nc-4.0. Thứ hữu ích nhất bạn có thể gửi lại cho chúng tôi là những thất bại: các dòng mà lập luận sai, giọng điệu không khớp người đọc, thiếu bối cảnh lâm sàng Việt Nam, các tình huống quản lý không khớp với một bệnh viện Việt thực tế, những điểm mù của rubric chấm. Để dùng cho mục đích thương mại hoặc hợp tác, vui lòng liên hệ [email protected].

Meddies Hospital Synthetic: bộ dữ liệu tiếng Việt cho phần việc bệnh viện mà các bài thi trắc nghiệm bỏ sót

Tỷ lệ chấp nhận 1,17% đến từ đâu

Mỗi dòng dữ liệu thực sự chứa gì

Nhóm người đọc là cấu trúc, không phải cái nhãn

Nó mở ra điều gì, và dừng lại ở đâu