Vấn đề mà bản phát hành này giải quyết là bài toán nguồn cung. Việc xây dựng mô hình ngôn ngữ (LLM) cho y tế tiếng Việt cần dữ liệu hỏi-đáp đi ra từ những nguồn y khoa có cơ sở, mà nguồn đó lâu nay vẫn khan hiếm. Meddies QA là một lời giải cho khoảng trống này.
Bài toán nguồn cung của dữ liệu hỏi-đáp y khoa tiếng Việt
Dữ liệu hỏi-đáp y khoa tốt không khởi đầu từ những câu hỏi. Nó khởi đầu từ thông tin y tế có cơ sở: bài viết y khoa, tài liệu tra cứu thuốc, bài giải thích bệnh, mô tả sản phẩm và tài liệu giáo dục sức khỏe cho người bệnh. Một mô hình huấn luyện trên dữ liệu hỏi-đáp trôi nổi, tách khỏi nền tảng đó, chỉ học được hình dạng của câu trả lời mà không học được phần chuyên môn nằm bên dưới. Cái khó nằm ở khâu chuyển đổi. Bạn phải giữ được phần cơ sở trong lúc biến văn bản tham khảo tĩnh thành những lượt hỏi và đáp mà một mô hình hội thoại có thể huấn luyện, và phải làm được điều đó ở quy mô bao phủ hơn một góc nhỏ của y học.
Meddies QA lấy đúng khâu chuyển đổi đó làm nhiệm vụ. Nó sắp xếp lại dữ liệu hỏi-đáp y khoa tiếng Việt thành năm nhóm chuyên môn, trình bày dưới dạng các dòng hỏi-đáp theo định dạng chat-template, và bổ sung các cấu hình ngân hàng câu hỏi chỉ-có-câu-hỏi cho những nhóm muốn tự sinh câu trả lời. Bản phát hành nhắm tới tinh chỉnh có giám sát (supervised fine-tuning), điều chỉnh văn phong câu trả lời, các thử nghiệm trả lời dựa trên truy hồi (retrieval), và các quy trình sinh câu hỏi.
Bộ dữ liệu được xây dựng thế nào

Cách Meddies QA được xây dựng: văn bản y khoa có cơ sở từ y văn được chuyển thành câu hỏi và câu trả lời tiếng Việt, sắp xếp theo năm nhóm chuyên môn.
Cả quy trình xây dựng chạy theo một mạch duy nhất. Bắt đầu từ văn bản y khoa có cơ sở từ y văn. Chuyển nó thành câu hỏi và câu trả lời tiếng Việt để một lượt huấn luyện có thể học độ bao phủ chuyên môn, cấu trúc câu trả lời và những khuôn mẫu phản hồi có ý nghĩa lâm sàng từ các ví dụ đã được tổ chức. Rồi sắp xếp kết quả để một nhóm có thể chọn phần dữ liệu của mình theo lĩnh vực y học, thay vì theo tên các thư mục nguồn mà dữ liệu gốc tình cờ mang theo.
Cách tổ chức đó là một lựa chọn có chủ đích. Năm nhóm chuyên môn được cố ý để rộng, để người dùng chọn ngân sách tính toán theo lĩnh vực y học chứ không theo cấu trúc nguồn. Bản phát hành nằm giữa các bộ sưu tập câu hỏi y khoa và việc huấn luyện LLM ở hạ nguồn. Quy trình nhận đầu vào là dữ liệu hỏi-đáp và ngân hàng câu hỏi, sắp xếp chúng thành các cấu hình sẵn sàng huấn luyện, và cắt ra các lát theo chuyên môn cho những thử nghiệm nhỏ hơn. Bản thân các câu trả lời được sinh tự động bằng máy và được làm sạch từ một kho ngữ liệu y khoa nguồn, đó là lý do thẻ dữ liệu yêu cầu người đọc rà soát chúng trước bất kỳ mục đích sử dụng nào liên quan đến sản phẩm, giáo dục hay người bệnh.
Lược đồ (schema) cũng phản ánh sự tiết chế ấy. Mỗi dòng mang các trường messages, question_category, complexity và domain_group. Các dòng hỏi-đáp giữ một lượt user rồi đến một lượt assistant; các dòng câu hỏi chỉ giữ lượt user. Các trường rời rạc question, answer, raw_question và raw_answer đã được lược khỏi các phần huấn luyện công khai, để lại trường chat-template làm trường mà một quy trình huấn luyện đọc đến.
Bên trong bộ dữ liệu có gì
Kho lưu trữ trình bày hai họ cấu hình. Các cấu hình qa_* là những dòng chat-template hai lượt, gồm một câu hỏi của người dùng và một câu trả lời của trợ lý. Các cấu hình questions_* chỉ là những lời nhắc một lượt của người dùng, đưa vào cho những nhóm có năng lực tính toán muốn tự sinh hoặc tự lọc câu trả lời. Cấu hình mặc định là qa_all.
| Cấu hình | Số dòng | Dạng tin nhắn | Cung cấp gì cho bạn |
|---|---|---|---|
qa_all | 2,941,561 | 2 lượt | Tất cả các cặp hỏi-đáp để huấn luyện theo chat-template. |
qa_clinical_health | 1,009,988 | 2 lượt | Hỏi-đáp về bệnh, dự phòng, giải phẫu, sức khỏe mẹ và bé, và sức khỏe lâm sàng chung. |
qa_pharmaceuticals | 1,245,477 | 2 lượt | Hỏi-đáp về thuốc, hoạt chất, vắc-xin, tá dược, dược liệu và tra cứu thuốc. |
qa_nutrition_supplements | 419,347 | 2 lượt | Hỏi-đáp về dinh dưỡng, sữa công thức, hỗ trợ chế độ ăn và thực phẩm bổ sung. |
qa_consumer_health_personal_care | 197,704 | 2 lượt | Hỏi-đáp về chăm sóc cá nhân, mỹ phẩm và sản phẩm chăm sóc sức khỏe tiêu dùng. |
qa_medical_devices_equipment | 69,045 | 2 lượt | Hỏi-đáp về trang thiết bị y tế, thiết bị theo dõi và sản phẩm hỗ trợ. |
questions_all | 7,109,244 | 1 lượt | Tất cả các lời nhắc chỉ-có-người-dùng cho quy trình sinh câu trả lời hoặc chưng cất (distillation). |
questions_clinical_health | 3,428,364 | 1 lượt | Lời nhắc về bệnh, dự phòng, giải phẫu, sức khỏe mẹ và bé, và sức khỏe lâm sàng chung. |
questions_pharmaceuticals | 2,035,139 | 1 lượt | Lời nhắc về thuốc, hoạt chất, vắc-xin, tá dược, dược liệu và tra cứu thuốc. |
questions_nutrition_supplements | 727,001 | 1 lượt | Lời nhắc về dinh dưỡng, sữa công thức, hỗ trợ chế độ ăn và thực phẩm bổ sung. |
questions_consumer_health_personal_care | 845,200 | 1 lượt | Lời nhắc về chăm sóc cá nhân, mỹ phẩm và sản phẩm chăm sóc sức khỏe tiêu dùng. |
questions_medical_devices_equipment | 73,540 | 1 lượt | Lời nhắc về trang thiết bị y tế, thiết bị theo dõi và sản phẩm hỗ trợ. |
Hai con số neo lại quy mô của bộ dữ liệu. Phía hỏi-đáp giữ 2,941,561 cặp chat-template. Ngân hàng câu hỏi giữ 7,109,244 lời nhắc chỉ-có-người-dùng, một mạch ngầm sâu hơn cho những nhóm tự mang theo năng lực sinh câu trả lời. Khoảng cách giữa hai con số chính là ý nghĩa của việc tách đôi: số câu hỏi nhiều hơn số mà bản phát hành đã trả lời, nên các lời nhắc có thể dẫn dắt việc chưng cất hoặc lọc ở quy mô lớn hơn mức mà các cặp có giám sát cho phép.
Đọc cùng dữ liệu đó theo lĩnh vực y học sẽ thấy khối lượng dồn về đâu. Dược phẩm và sức khỏe lâm sàng chiếm phần lớn các dòng hỏi-đáp, trong khi trang thiết bị và dụng cụ là lát nhỏ nhất ở cả hai phía.
| Nhóm chuyên môn | Số dòng hỏi-đáp | Số dòng ngân hàng câu hỏi |
|---|---|---|
clinical_health | 1,009,988 | 3,428,364 |
pharmaceuticals | 1,245,477 | 2,035,139 |
nutrition_supplements | 419,347 | 727,001 |
consumer_health_personal_care | 197,704 | 845,200 |
medical_devices_equipment | 69,045 | 73,540 |
Hình dạng giữa hai cột không đồng đều. Sức khỏe lâm sàng và sức khỏe tiêu dùng đều mang nhiều lời nhắc hơn hẳn so với số cặp đã được trả lời, nên ngân hàng câu hỏi mới là nơi chứa chiều sâu của chúng. Dược phẩm thì cân đối hơn. Trang thiết bị nhỏ ở cả hai phía. Một nhóm khi chọn lát dữ liệu nên đọc cả hai cột, không chỉ con số hỏi-đáp.
Bộ dữ liệu mở ra điều gì, và dừng lại ở đâu
Những trường hợp phù hợp thì cụ thể. Tinh chỉnh có giám sát cho hỏi-đáp y khoa tiếng Việt. Nạp dữ liệu theo chuyên môn cho dược phẩm, sức khỏe lâm sàng, thực phẩm bổ sung, chăm sóc cá nhân hay trang thiết bị. Các quy trình sinh câu trả lời khởi đầu từ những lời nhắc chỉ-có-câu-hỏi. Các nguyên mẫu truy hồi hay đánh giá cần lượng lớn lời nhắc y khoa tiếng Việt được nhóm theo chuyên môn rộng. Việc nạp dữ liệu chỉ gói gọn trong một lệnh gọi:
from datasets import load_dataset
qa = load_dataset("Meddies/meddies-qa", "qa_all", split="train")
clinical = load_dataset("Meddies/meddies-qa", "qa_clinical_health", split="train")
questions = load_dataset("Meddies/meddies-qa", "questions_all", split="train")
Những điểm dừng cũng quan trọng không kém những điểm phù hợp. Đây là một bộ dữ liệu nghiên cứu và huấn luyện, không phải một hệ thống hỗ trợ quyết định lâm sàng, và không phải lời khuyên y khoa. Các câu trả lời của trợ lý được sinh tự động bằng máy và có thể chứa sai sót về lâm sàng, về dữ kiện hay về văn phong, đó là lý do việc rà soát phải đến trước bất kỳ mục đích sử dụng nào liên quan đến người bệnh. Các nhóm chuyên môn là nhãn định tuyến rộng, không phải các hệ phân loại y khoa (ontology) đã được chuyên gia thẩm định, nên chúng sắp xếp các dòng để dự trù ngân sách tính toán chứ không chứng nhận một hệ phân loại lâm sàng. Những dòng bị loại được giữ lại để rà soát nhưng nằm ngoài các cấu hình huấn luyện chính.
Meddies xây dựng các bộ dữ liệu y tế tiếng Việt, các hệ thống đánh giá và hạ tầng AI phục vụ bác sĩ, và ý đồ thiết kế ở đây rất rõ ràng: chuyển văn bản y khoa có cơ sở thành dữ liệu hỏi-đáp tiếng Việt sẵn sàng huấn luyện mà không đánh mất phần cơ sở. Giấy phép là cc-by-nc-4.0, phi thương mại. Sử dụng cho mục đích thương mại cần trao đổi trước, qua [email protected]. Bộ dữ liệu được lưu tại huggingface.co/datasets/Meddies/meddies-qa, và phản hồi về các dòng trùng lặp, câu trả lời thiếu an toàn, vấn đề lược đồ hay việc xếp nhóm chuyên môn gây khó hiểu nên được gửi vào một thảo luận (discussion) trên kho lưu trữ, kèm theo tên cấu hình và bằng chứng dòng dữ liệu cụ thể.
