Quay lại Nghiên cứu
May 6, 2026Phát hiện lâm sàng4 phút đọc

Tiếng Việt nguyên bản, không phải bản dịch máy

Phần lớn AI y tế được dựng theo lối lấy dữ liệu phương Tây rồi dịch sang. Với lâm sàng tiếng Việt, lối tắt ấy làm mất chính tín hiệu mà bác sĩ dựa vào để phân loại bệnh.

Meddies Research

Clinical AI research at Meddies

Tiếng Việt nguyên bản, không phải bản dịch máy

Hầu hết AI y tế đều lấy tiếng Anh làm gốc. Khi một đội ngũ muốn làm sản phẩm cho một ngôn ngữ khác, cách quen thuộc là gom dữ liệu phương Tây rồi đưa qua một lớp dịch. Trong y khoa, lối tắt đó là một mối nguy.

Bản dịch làm phẳng phòng khám

Cách người bệnh tả cơn đau là một tín hiệu lâm sàng, không phải cách nói hời hợt bên ngoài. Tiếng Việt mang những phân biệt mà tiếng Anh gộp chung lại. Đau nhức là cái đau âm ỉ, sâu. Đau buốt là cái đau nhói, xuyên thấu. Đau thắt là cái đau bóp nghẹn, siết chặt, đúng từ người bệnh chọn khi tả cơn đau ngực khiến bác sĩ phải giật mình cảnh giác.

Gộp cả ba thành "đau", "nhói" và "tức" là đánh mất cái sắc thái mà người làm lâm sàng dựa vào để phân loại bệnh. Một mô hình được huấn luyện trên dữ liệu đã dịch chỉ học được lối ghép nghĩa của tiếng Anh, để rồi khi gặp người bệnh Việt Nam, nó lặng lẽ đọc sai họ.

Văn hóa là một phần của bệnh sử

Ngôn ngữ triệu chứng mới chỉ là một nửa câu chuyện. Người bệnh ở đây kể bệnh theo cách khác. Tính nhẫn nhịn ăn sâu, nên một người bệnh có thể nói nhẹ đi cảm giác của mình, hoặc diễn đạt nó bằng những lối nói mà một mô hình huấn luyện theo kiểu phương Tây chưa từng gặp. Một hệ thống không lường trước kiểu khai báo dưới mức ấy sẽ tin nguyên một lời mô tả bình thản, và bỏ sót mức độ nặng nề ẩn bên dưới.

Đây không phải những ca hiếm gặp. Đây là phần đông các cuộc thăm khám ở Việt Nam. Một mô hình lâm sàng không đọc được những điều này không phải là một mô hình kém hơn đôi chút. Nó là công cụ sai.

Xây dựng từ gốc

Tiếng Việt có hơn 100 triệu người bản ngữ, và họ xứng đáng có một AI lâm sàng được dựng đúng theo cách họ thực sự nói. meddies-consultant được tạo sinh nguyên bản, không qua dịch thuật, nên sắc thái được giữ lại trong chính dữ liệu huấn luyện thay vì bị đánh mất ở một bước tiền xử lý.

Phần còn lại sau khi dịch sẽ luôn mang theo cái giọng của ngôn ngữ mà nó xuất phát. Với một công cụ phải hiểu được người bệnh trong phòng khám Việt Nam, cái giọng ấy là một khiếm khuyết, không phải một chi tiết nhỏ.