Meddies Consultant đặt hội thoại nhiều lượt và hỏi-đáp trong cùng một bản phát hành. Muốn hiểu quyết định thiết kế ở đây, trước hết phải tách bốn cấu hình đang được công bố.

Hai cấu hình đầu là hội thoại nhiều lượt. Tập tiếng Anh có 109.005 mẫu, trung bình 16,12 lượt cho mỗi mẫu. Tập tiếng Việt có 58.064 mẫu, trung bình 12,33 lượt. Mỗi mẫu gồm chuỗi tin nhắn, bệnh mục tiêu và chân dung bệnh nhân. Hai cấu hình còn lại tách riêng dạng hỏi-đáp và ngân hàng câu hỏi.

Cách chia này cho thấy quyết định chính của bộ dữ liệu. Một câu trả lời y khoa và một buổi hỏi bệnh là hai dạng dữ liệu huấn luyện khác nhau. Chúng có thể cùng xuất hiện trong một kho dữ liệu, nhưng không nên được đánh giá bằng cùng một tiêu chí.

“Xây từ đầu” có nghĩa gì trong bản phát hành này?

Bài giới thiệu Meddies Consultant tóm tắt phạm vi của bản phát hành. Thẻ dữ liệu công khai mô tả quy trình tổng hợp: xác định bối cảnh người bệnh và bệnh mục tiêu, tạo hội thoại hoặc mẫu hỏi-đáp, chuẩn hóa và rà soát, rồi mới chia dữ liệu thành các cấu hình.

Từ tài liệu này, chúng tôi có thể nói rằng bản phát hành được tổ chức quanh các cuộc tư vấn được tạo sinh, chứ không được giới thiệu như một tập bản ghi hội thoại tiếng Anh đem dịch sang tiếng Việt. Nhưng tài liệu công khai chưa đủ chi tiết để khẳng định mọi đầu vào đều được tạo mới hoàn toàn, hay không có thành phần nào được dịch hoặc lấy từ nguồn bên ngoài.

Thẻ dữ liệu mô tả cuộc hỏi bệnh ra sao?

Thẻ dữ liệu cho biết phạm vi tạo sinh gồm 1.236 bệnh mục tiêu và dùng các khung như OPQRST và FIFE. Các tiêu chí rà soát được công bố gồm tính đầy đủ, phù hợp, tự nhiên, đồng cảm, chất lượng OPQRST, mức độ bám sát FIFE, mạch hội thoại và an toàn.

Các tiêu chí này mô tả điều bộ dữ liệu muốn giữ lại. Chúng chưa cho biết ai là người rà soát, người rà soát có đồng thuận hay không, bao nhiêu mẫu đạt từng tiêu chí, hoặc lỗi nào còn lại sau bước lọc. Quy trình tạo sinh đầy đủ và cách tổ chức việc rà soát hiện chưa được công bố.

Vì thế, chúng tôi không thể dùng bộ dữ liệu để khẳng định người bệnh Việt Nam thường nói giảm triệu chứng, kể lan man hoặc chỉ tiết lộ nỗi lo sau nhiều câu hỏi. Đó là những giả định về hành vi cần được định nghĩa và kiểm chứng riêng, không phải điều có thể suy ra từ một đoạn hội thoại tổng hợp.

Bối cảnh tiếng Việt vẫn chưa hoàn chỉnh

Trong một số mẫu đang hiển thị công khai, hội thoại thuộc cấu hình vietnamese viết bằng tiếng Việt nhưng trường patient_persona vẫn bằng tiếng Anh, với tên riêng, địa danh và sinh hoạt gắn với Hoa Kỳ. Bộ dữ liệu đã có phần hội thoại tiếng Việt. Phần bối cảnh đầu vào vẫn chưa được chứng minh là đã bản địa hóa đầy đủ.

Khi patient_persona chưa được bản địa hóa, tên, địa danh và sinh hoạt của Hoa Kỳ có thể đi theo hội thoại tiếng Việt vào dữ liệu huấn luyện hoặc tập đánh giá. Khi đó, mô hình học hoặc được chấm trong một bối cảnh không khớp với người bệnh mà hội thoại đang đại diện. Chúng tôi phân tích kỹ hơn cơ chế này trong bài bản địa hóa dữ liệu lâm sàng.

RandomQA có 67.372 cặp hỏi-đáp hai lượt. RandomQuestion có 61.162 câu hỏi không kèm câu trả lời. Hai cấu hình này không có lịch sử nhiều lượt như hai tập hội thoại. Sự khác nhau về cấu trúc là có thật và có thể kiểm tra trực tiếp.

Nhưng từ cấu trúc đó chưa thể kết luận một mô hình sau huấn luyện sẽ biết hỏi đúng câu tiếp theo, ít kết luận vội hơn hay an toàn hơn khi dùng trong lâm sàng. Cần huấn luyện hoặc đánh giá các mô hình trên từng cấu hình, sau đó đo chất lượng câu hỏi tiếp nối, khả năng giữ bối cảnh, lỗi kết luận sớm và cách xử lý khi thông tin còn thiếu.

Meddies Consultant là dữ liệu huấn luyện tổng hợp theo giấy phép CC BY-NC 4.0. Đây không phải hướng dẫn lâm sàng, kết quả benchmark hay căn cứ để triển khai lâm sàng. Bản phát hành có giá trị vì người khác có thể xem xét dạng bài toán, kiểm tra giới hạn và xây thí nghiệm tốt hơn trên đó.

Bốn dạng dữ liệu trong Meddies Consultant

“Xây từ đầu” có nghĩa gì trong bản phát hành này?

Thẻ dữ liệu mô tả cuộc hỏi bệnh ra sao?

Bối cảnh tiếng Việt vẫn chưa hoàn chỉnh

Tài liệu tham khảo