LViTES (Leveraging Vision and Text for Endoscopic Segmentation) do Thăng phát triển là mô hình có khả năng phân đoạn các tổn thương trong ảnh nội soi. Công cụ này phân tích hình ảnh và tự động xác định, khoanh vùng các tổn thương nghi ngờ như khối u nhú (polyp), viêm loét, hoặc các dấu hiệu tiền ung thư.
Điểm đặc biệt là mô hình có thể kết hợp bệnh án hoặc ghi chú từ bác sĩ với công cụ phân tích hình ảnh sẵn có, để đưa ra chẩn đoán, tăng độ chính xác. LViTES đã được thử nghiệm thành công trên bộ dữ liệu Kvasir-SEG, một tập dữ liệu khoa học mở chứa các ảnh về tình trạng poly trong hệ tiêu hóa.
"Em vẫn trăn trở về việc làm sao để mô hình này trở thành một sản phẩm hoàn chỉnh và tích hợp vào các hệ thống y tế", Thăng cho hay.
![]() |
Lã Kiều Ngọc Thăng. Ảnh: Nhân vật cung cấp |
Ngọc Thăng hiện là sinh viên năm thứ tư ngành Truyền thông số và Kỹ thuật đa phương tiện.
Nam sinh bắt đầu quan tâm đến Thị giác máy tính từ môn Xử lý ảnh số, được học cách ứng dụng Học máy cho dữ liệu hình ảnh. Khi thực hiện Đồ án 1 với sự hướng dẫn của PGS. TS Trần Thị Thanh Hải, giảng viên trường Điện - Điện tử, Thăng tiếp cận bài toán ứng dụng AI phân tích ảnh nội soi y tế.
Quá trình này giúp Thăng nhận ra nhiều thách thức mà các y, bác sĩ gặp phải. Chẳng hạn, bác sĩ nội soi mất nhiều giờ phân tích hình ảnh để phát hiện tổn thương trong hệ tiêu hóa, nhưng lại thiếu công cụ hỗ trợ nhanh và chính xác.
"Đây là nguồn cảm hứng trực tiếp để em bắt tay vào mô hình LViTES", Thăng nói.
Từ tháng 5 năm ngoái, nam sinh bắt tay nghiên cứu đề tài này, dưới sự hướng dẫn của PGS Hải. Trong khoảng nửa năm, đề tài được chia làm ba giai đoạn chính. Đầu tiên, Thăng thu thập và xử lý dữ liệu từ bộ dữ liệu Kvasir-SEG và hình ảnh nội soi ung thư dạ dày, thực quản. Tiếp đó là giai đoạn xây dựng và huấn luyện mô hình trên nền tảng mạng nơ-ron tích chập (CNN) EfficientNet để trích xuất đặc trưng hình ảnh và kiến trúc Transformer, kết hợp thông tin hình ảnh với văn bản. Giai đoạn cuối cùng, mô hình được thử nghiệm trên bộ dữ liệu thực tế, cho thấy hiệu suất vượt trội, đặc biệt là về độ chính xác phân vùng.
Ngọc Thăng nghiên cứu độc lập, đảm nhiệm toàn bộ công việc, từ khâu tìm hiểu đến triển khai.
"Làm một mình giúp mình tự do sáng tạo và kiểm soát toàn bộ quá trình, nhưng đồng thời cũng phải tự giải quyết mọi vấn đề kỹ thuật và học thuật", Thăng cho biết.
Theo nam sinh, trở ngại lớn nhất là thiếu dữ liệu văn bản mô tả đi kèm ảnh nội soi - nguồn đầu vào thiết yếu để huấn luyện mô hình AI. Để khắc phục, nam sinh xây dựng một module sinh văn bản tự động, biến các nhãn hình ảnh thành mô tả chi tiết về tổn thương.
Quá trình đánh giá được thực hiện dựa trên những chỉ số phổ biến trong thị giác máy tính như IoU và Dice coefficient, kết hợp định hướng khoa học từ PGS Hải và đánh giá của các chuyên gia y tế để đảm bảo tính khách quan. Kết quả thử nghiệm với hình ảnh nội soi ung thư dạ dày, thực quản cho thấy LViTES vượt xa các phương pháp truyền thống về độ chính xác phân vùng.
"Bài toán mình giải quyết không phải quá mới trong giới học thuật, nhưng cách tiếp cận và hướng giải quyết của mình thì chưa có nhiều công trình tương tự", Thăng nhìn nhận.
Thăng cho rằng điều quan trọng khi nghiên cứu là khả năng tự học và tinh thần kiên trì, dám thử thách bản thân. Nền tảng toán học vững chắc cũng giúp Thăng tự tin hơn khi giải quyết các vấn đề liên quan đến mô hình LViTES.
PGS. TS Trần Thị Thanh Hải, giảng viên hướng dẫn, nhận xét nam sinh điềm đạm và luôn cố gắng để hoàn thiện bản thân. Thăng có nền tảng về kỹ thuật và các môn khoa học tự nhiên rất vững vàng.Nam sinh cũng lựa chọn một hướng đi rất mới trong lĩnh vực nghiên cứu về mô hình thị giác - ngôn ngữ (Visual Language Models – VLM).
"Em ấy luôn kiên định với chủ đề mình lựa chọn và nỗ lực giải quyết các vấn đề một cách trọn vẹn. Đây là một nỗ lực sáng tạo rất đáng ghi nhận", cô Hải nói.
Ngọc Thăng dự định tiếp tục theo đuổi hướng nghiên cứu ứng dụng AI trong lĩnh vực y tế. Nam sinh cho biết đang phát triển phiên bản nâng cao của mô hình, trở thành công cụ hỗ trợ đắc lực cho bác sĩ nội soi trong phát hiện sớm, chính xác.
Ngoài ra, nam sinh mở rộng ứng dụng sang các lĩnh vực chẩn đoán hình ảnh khác như X-quang, CT scan.
Phương Anh - Huyền Trang