Đây là meddies-consultant: bộ dữ liệu mã nguồn mở gồm các cuộc tư vấn lâm sàng tiếng Việt tổng hợp.

Chúng tôi xây dựng bộ dữ liệu này vì đang thiếu trầm trọng dữ liệu lâm sàng an toàn về quyền riêng tư. Thay vì chỉ ra lệnh cho một mô hình ngôn ngữ rồi phó mặc cho may rủi, chúng tôi tiếp cận việc sinh dữ liệu như một bài toán thiết kế cơ chế chặt chẽ. Chúng tôi dùng các mô hình suy luận để dựng những đoạn hội thoại y khoa từ con số không, nhờ đó kiểm soát hoàn toàn độ chính xác của cuộc trò chuyện mà không bao giờ phải đụng đến dữ liệu người bệnh thật.

1. Vấn đề chúng tôi đang giải quyết

Hãy nhìn phần lớn các mô hình AI y tế hiện nay, bạn sẽ thấy cùng một khiếm khuyết. Chúng được huấn luyện để vượt qua các kỳ thi cấp chứng chỉ, chứ không phải để trò chuyện với người bệnh.

Từ trước đến nay, AI y tế chạy trên dữ liệu hỏi-đáp một lượt. Người dùng nhập vào một triệu chứng, mô hình bắn ngay lại một chẩn đoán. Cuối cùng bạn có một cuốn bách khoa y học tuyệt vời nhưng hoàn toàn vô dụng trong phòng khám thực tế.

Bác sĩ không nghe "đau ngực" rồi lập tức chẩn đoán nhồi máu cơ tim. Họ tư vấn. Họ khai thác kỹ tính chất cơn đau, đánh giá mức độ lo lắng của người bệnh, và loại trừ những tình huống nguy hiểm hiếm gặp.

Nếu muốn xây dựng những trợ lý ghi chép tự động hay các tác nhân phân loại bệnh thực sự dùng được, chúng ta phải ngừng dạy mô hình "trả lời". Chúng ta cần dạy chúng biết tư vấn.

Bức tường quyền riêng tư

Cách tốt nhất để khắc phục điều này là dùng các bản ghi hội thoại bác sĩ–người bệnh thật. Nhưng bạn không thể. Bệnh án đầy thông tin cá nhân được bảo vệ. Luật pháp không cho phép bạn mở mã nguồn chúng. Thế là các kỹ sư mắc kẹt, ngồi trên những thuật toán mạnh mẽ mà không có lấy một mẩu dữ liệu hội thoại thực để huấn luyện.

2. Tại sao lại là tiếng Việt?

Lĩnh vực AI y tế gần như hoàn toàn lấy tiếng Anh làm gốc. Khi người ta thử xây dựng cho các ngôn ngữ khác, họ thường chỉ thu thập rồi dịch lại các bộ dữ liệu phương Tây.

Trong y tế, những sai lệch do dịch thuật là nguy hiểm. Cách người bệnh nói về cơn đau và sự lo lắng không ánh xạ gọn gàng qua các biên giới ngôn ngữ. Lấy tiếng Việt làm ví dụ: sắc thái khác biệt giữa đau nhức, đau buốt và đau thắt mất sạch khi bạn ép chúng thành những từ tương đương trong tiếng Anh là aching, sharp và tight. Trên hết, bạn còn phải tính đến tâm lý nhẫn nhịn, ngại kêu ca theo văn hóa. Người bệnh ở ta mô tả triệu chứng theo cách khác. Nếu AI của bạn không hiểu điều đó, nó sẽ thất bại trong một phòng khám tại Việt Nam.

Tiếng Việt có hơn 100 triệu người bản ngữ. Chúng tôi không muốn dựa vào những bộ dữ liệu dịch lại đầy khiếm khuyết, nên đã xây dựng meddies-consultant thuần Việt từ con số không.

3. Thiết kế bộ dữ liệu từ các nguyên lý gốc

Bất kỳ ai cũng có thể viết một đoạn mã để sinh ra một triệu dòng văn bản. Nhưng nếu chỉ thả một mô hình ngôn ngữ vào một câu lệnh lâm sàng, bạn sẽ nhận về rác. Các mô hình bịa đặt. Chúng trở nên quá dễ chiều, hời hợt về mặt y khoa, và hoàn toàn phớt lờ cách một cuộc tư vấn thực sự diễn ra.

Để khắc phục, chúng tôi ngừng viết câu lệnh và bắt đầu thiết kế cơ chế. Chúng tôi buộc quy trình sinh dữ liệu tuân thủ nghiêm ngặt ba khung y khoa chuẩn:

Hướng dẫn Calgary-Cambridge: Quy định nhịp diễn tiến thực sự của cuộc trò chuyện (mở đầu buổi khám, thu thập thông tin, kết thúc).
OPQRST: Buộc AI đóng vai bác sĩ phải khai thác triệu chứng một cách có hệ thống (Khởi phát, Yếu tố làm tăng/giảm, Tính chất, v.v.).
FIFE: Lập trình trạng thái nội tâm của người bệnh (Cảm xúc, Suy nghĩ, Ảnh hưởng chức năng, Kỳ vọng).

Khung cuối cùng chính là bí quyết. Chúng tôi tiêm thẳng FIFE vào các chân dung người bệnh tổng hợp. Người bệnh thật không phải là những điểm dữ liệu gọn gàng. Họ lo lắng, họ nói lan man, họ cần được dẫn dắt trở lại đúng hướng. FIFE đảm bảo người bệnh tổng hợp của chúng tôi hành xử như những con người lộn xộn đúng nghĩa, trong khi OPQRST đảm bảo AI đóng vai bác sĩ vẫn giữ được sự phân tích chặt chẽ.

4. Bên trong có gì: Bốn cấu hình

Chúng tôi chia meddies-consultant thành bốn cấu hình. Chúng tôi không muốn chỉ đổ ra những tệp văn bản thô, nên đã định dạng mọi thứ thành các tài nguyên có cấu trúc, sẵn sàng cho các phiên huấn luyện.

Cấu hình	Số dòng	Tin nhắn người dùng	Tin nhắn trợ lý
english	109,005	826,308	930,683
vietnamese	58,064	329,728	386,082
RandomQA	67,372	67,372	67,372
RandomQuestion	61,162	61,162	0

Hai tập con Vietnamese & English là phần lõi gồm các đoạn hội thoại nhiều lượt. Nếu nhìn vào tỷ lệ số tin nhắn trên số dòng, bạn sẽ thấy đây không phải những tương tác nông cạn một lượt. Chúng là những cuộc trò chuyện sâu và liền mạch.

Chúng tôi đưa RandomQA vào để huấn luyện có giám sát về kiến thức sự kiện theo cách thông thường. Nhưng tập đáng chú ý nhất là RandomQuestion. Ở đây không có lấy một tin nhắn trợ lý nào. Đó là một tập chuyên biệt cao, tối ưu hoàn toàn cho việc huấn luyện các mô hình biết lắng nghe chủ động, buộc AI phải tìm ra câu hỏi tiếp theo cần đặt, thay vì chỉ sinh ra một câu trả lời.

5. Quy trình sinh dữ liệu

Nếu để mặc, các mô hình sẽ trôi dạt. Để ngăn chúng bịa ra những lời khuyên y khoa chung chung, chúng tôi nhốt chúng bên trong một quy trình đa tác nhân nghiêm ngặt.
Thứ tự các bước quyết định tất cả. Càng siết chặt các ràng buộc ở đầu vào, cuộc tư vấn ở đầu ra càng trôi chảy.

Figure 1 — The meddies-consultant generation pipeline

👤

Persona Design

FIFE framework

🧬

Disease Scope

1,236-condition taxonomy

Context

Disease + FIFE persona

Grounding

OPQRST · Calgary-Cambridge

Generation

Multi-agent dialogue drafting

Review Gate

JSON normalisation · clinical safety filter

English

109,005 rows · multi-turn

Vietnamese

58,064 rows · multi-turn

RandomQA

67,372 rows · supervised

RandomQuestion

61,162 rows · active-listening

Step order is strict — tighter upstream constraints produce higher-fidelity consultations downstream.

Bối cảnh: Chúng tôi chọn một bệnh cụ thể từ một bảng phân loại 1.236 tình trạng và dựng nên một chân dung người bệnh lộn xộn, thực tế bằng khung FIFE.
Định khung: Chúng tôi buộc những đầu vào thô đó đi qua các khung OPQRST và Calgary-Cambridge.
Sinh dữ liệu: Các mô hình thực sự soạn ra đoạn hội thoại, nhưng bị bó hoàn toàn trong những quy tắc đã đặt ra ở bước trước.
Cổng kiểm duyệt*: Một đoạn mã chuẩn hóa JSON và lọc đầu ra để bảo đảm an toàn lâm sàng.
Triển khai: Nếu vượt qua cổng kiểm duyệt, dữ liệu được chia thành bốn bộ.

6. Chất lượng hơn số lượng

Xu hướng hiện nay là khoe khoang về kích thước bộ dữ liệu. Chúng tôi không làm vậy. Nếu bạn muốn huấn luyện khả năng suy luận lâm sàng, 50.000 dòng hội thoại nghiêm ngặt, độ trung thực cao sẽ vượt trội hoàn toàn so với 10 triệu dòng rác bịa đặt.

Chúng tôi chấm điểm gắt gao từng tập con. Chúng tôi kiểm tra xem việc khai thác thông tin y khoa có đầy đủ không, người bệnh có thực sự nghe giống con người không, và cấu trúc cuộc trò chuyện có giữ vững qua nhiều lượt không.

Một quy tắc cứng: đây là dữ liệu tổng hợp. Hãy dùng nó để dạy mô hình cách lắng nghe, khai thác thông tin và duy trì một cuộc trò chuyện. Đừng dùng nó để thay thế cho phán đoán y khoa của con người.

7. Cách sử dụng

Bạn không cần làm sạch hay định dạng lại; dữ liệu đã sẵn sàng cho quy trình của bạn.

Trường hợp sử dụng rõ ràng nhất là tinh chỉnh theo chỉ dẫn (instruction tuning) cho các mô hình nền của bạn. Nhưng nó cũng rất hiệu quả cho việc kiểm thử đối kháng (red-teaming). Bạn có thể lấy chatbot bệnh viện hiện có của mình và thử nó với những chân dung FIFE lộn xộn, khó lường của chúng tôi để xem nó xử lý một người bệnh khó tính ra sao. Cuối cùng, đầu ra có cấu trúc khiến nó rất phù hợp để huấn luyện các trợ lý ghi chép tự động viết ra những bệnh án SOAP đáng tin cậy.

8. Điều chúng tôi đang hướng tới

meddies-consultant không phải một lần đổ dữ liệu rồi thôi. Nó là hạ tầng nền tảng chúng tôi cần để đưa AI vào hoạt động an toàn trong các bệnh viện Việt Nam. Phép tính ở đây rất đơn giản: nếu chúng ta có thể huấn luyện mô hình đảm đương đáng tin cậy việc ghi chép hồ sơ, bác sĩ cuối cùng có thể ngừng dán mắt vào màn hình và quay lại nhìn người bệnh của mình.

9. Cùng tham gia

AI lâm sàng thất bại khi nó được xây dựng trong môi trường khép kín, tách rời thực tế. Chúng tôi cần nó được thử nghiệm giữa đời thực.

Hãy tải dữ liệu về. Chạy nó qua quy trình của bạn. Hãy cố làm nó hỏng. Khi bạn tìm ra chỗ nó thất bại, hãy cho chúng tôi biết để chúng tôi khắc phục.

Truy cập dữ liệu trên Hugging Face

Vượt qua cái bẫy hỏi-đáp: bộ dữ liệu tư vấn lâm sàng tiếng Việt mã nguồn mở