Dữ liệu hội thoại lâm sàng tốt nhất lẽ ra phải là những bản ghi thật giữa bác sĩ và người bệnh. Nhưng loại dữ liệu này gần như không thể đưa ra dùng. Bệnh án vốn mang theo thông tin cá nhân được pháp luật bảo vệ, và việc luật giữ kín chúng là điều hoàn toàn đúng đắn. Hệ quả là các kỹ sư có trong tay những mô hình đủ mạnh, nhưng lại gần như không có dữ liệu hội thoại nào để huấn luyện chúng.
Vấn đề của việc dọn dẹp dữ liệu về sau
Cách làm quen thuộc là thu thập bất cứ dữ liệu nào có thể tiếp cận được, rồi xóa thông tin định danh ở bước sau. Nhưng khử định danh vốn là một việc khó, gần như không bao giờ làm được một cách trọn vẹn, và chỉ cần sót lại một chi tiết nhỏ cũng đủ để nhận diện lại một người bệnh. Khi một chương trình bảo mật được xây trên nền những bệnh án thật, công việc còn lại là phải liên tục chứng minh rằng không có thông tin nhạy cảm nào bị rò rỉ, và đây là điều mà không một khâu dọn dẹp nào có thể bảo đảm một cách trọn vẹn.
Khi buộc phải dùng bệnh án thật, khử định danh vẫn là công cụ cần thiết, và đó chính là việc của Meddies PII. Nhưng khi dữ liệu có thể được tạo sinh, chúng tôi chọn một hướng đi ngược lại. Thay vì gỡ bỏ thông tin riêng tư sau khi nó đã có mặt trong dữ liệu, chúng tôi không đưa loại thông tin đó vào ngay từ đầu.
Cách chúng tôi giữ cho dữ liệu tổng hợp chính xác
Meddies Consultant được tạo sinh hoàn toàn bằng các mô hình suy luận. Mỗi nhân vật, mỗi triệu chứng, mỗi lượt đối thoại đều là dữ liệu tổng hợp. Không có người bệnh thật nào đứng sau bất kỳ bản ghi nào, nên không có gì để khử định danh và cũng không có gì để rò rỉ.
Điều đó không có nghĩa là dữ liệu được tạo ra một cách lỏng lẻo. Việc tạo sinh dữ liệu tổng hợp nếu làm cẩu thả sẽ cho ra những đoạn văn trôi chảy nhưng vô nghĩa, vừa ba phải, vừa nông về chuyên môn, lại vừa sai về mặt cấu trúc. Chúng tôi tránh điều đó bằng cách ràng buộc quá trình tạo sinh bên trong các khung lâm sàng, cùng một cổng rà soát lọc theo tiêu chí an toàn lâm sàng. Vì không có người bệnh thật nào tham gia, quyền riêng tư đã được bảo đảm sẵn mà không cần làm thêm bất cứ điều gì, nhờ vậy toàn bộ công sức được dồn vào việc nâng cao độ chính xác.
Vì sao phải bảo vệ riêng tư ngay từ đầu
Một quy trình dọn dẹp dữ liệu chỉ tốt ngang với lần bỏ sót tệ nhất của chính quy trình đó. Trong khi đó, một quy trình không bao giờ chạm vào dữ liệu thật thì cũng không có gì để mà bỏ sót. Đó là lý do an toàn riêng tư ngay từ thiết kế vững chắc hơn an toàn riêng tư có được nhờ dọn dẹp về sau.
Với các bệnh viện Việt Nam, nơi việc xử lý dữ liệu người bệnh vừa là nghĩa vụ pháp lý vừa là vấn đề niềm tin, chính khác biệt giữa dọn dẹp về sau và bảo đảm riêng tư ngay từ thiết kế mới là thứ quyết định liệu một bộ dữ liệu có triển khai được hay không. Bộ dữ liệu dùng để huấn luyện mô hình có thể được mở ra, soi xét và chia sẻ mà không đặt bất kỳ người bệnh thật nào vào rủi ro, và đó chính là điều khiến nó có thể được dùng ngay bên trong bệnh viện.
