Cải thiện hiệu quả mạng neuron hỗ trợ chẩn đoán bệnh da liễu bằng phương pháp thay đổi số neuron trong lớp ẩn

Tóm tắt: Hiện nay, việc ứng dụng mạng Neuron nhân tạo hỗ trợ chuẩn đoán bệnh lý đang ngày càng phổ biến nên việc cải thiện các chỉ tiêu chất lượng cho các mạng này như độ chính xác chẩn đoán, tốc độ hội tụ của quá trình huấn luyện mạng vốn phụ thuộc vào việc xác định số Neuron trong lớp ẩn cho mạng chẩn đoán đang được quan tâm đặc biệt. Để góp phần giải quyết vấn đề này, trong bài báo sẽ trình bày việc sử dụng phương pháp thay đổi số Neuron trong lớp ẩn của mạng.

pdf7 trang | Chia sẻ: thanhle95 | Lượt xem: 262 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Cải thiện hiệu quả mạng neuron hỗ trợ chẩn đoán bệnh da liễu bằng phương pháp thay đổi số neuron trong lớp ẩn, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Kỹ thuật Điện tử – Vật lý – Đo lường N. T. Thủy, , H. L. Nghĩa, “Cải thiện hiệu quả mạng Neuron số Neuron trong lớp ẩn.” 144 CẢI THIỆN HIỆU QUẢ MẠNG NEURON HỖ TRỢ CHẨN ĐOÁN BỆNH DA LIỄU BẰNG PHƯƠNG PHÁP THAY ĐỔI SỐ NEURON TRONG LỚP ẨN Nguyễn Thị Thủy*, Đinh Văn Quang, Đỗ Văn Thanh, Huỳnh Lương Nghĩa Tóm tắt: Hiện nay, việc ứng dụng mạng Neuron nhân tạo hỗ trợ chuẩn đoán bệnh lý đang ngày càng phổ biến nên việc cải thiện các chỉ tiêu chất lượng cho các mạng này như độ chính xác chẩn đoán, tốc độ hội tụ của quá trình huấn luyện mạng vốn phụ thuộc vào việc xác định số Neuron trong lớp ẩn cho mạng chẩn đoán đang được quan tâm đặc biệt. Để góp phần giải quyết vấn đề này, trong bài báo sẽ trình bày việc sử dụng phương pháp thay đổi số Neuron trong lớp ẩn của mạng. Từ khóa: Mạng Neuron nhân tạo; Lớp ẩn. 1. ĐẶT VẤN ĐỀ Trong rất nhiều công trình nghiên cứu ứng dụng mạng Neuron nhân tạo gần đây điển hình như bài báo [1], đã đưa ra kết luận rằng: “Phân loại bằng cách sử dụng các mô hình mạng Neuron nhân tạo cho thấy tỷ lệ phần trăm thành công rất tốt. Mạng Neuron nhân tạo đa lớp truyền thẳng (MLP: multi-layer perceptron networks) được thử nghiệm cho bài toán phân loại bệnh lý dựa trên các thông tin triệu chứng, ảnh chụp y tế và kết quả phân tích xét nghiệm, là phù hợp để sử dụng trong chẩn đoán y học (hình 1). Hình 1. Chẩn đoán y tế sử dụng mạng Neuron MLP[4]. Thông thường đầu vào của mạng này là các triệu chứng – thuộc tính bệnh lý được ghi nhận bằng các phương thức khác nhau và đầu ra là kết quả chẩn đoán được khẳng định bởi thực tế dùng để luyện (dạy) mạng. Nói chung, các mạng này đã cho kết quả có thể chấp nhận được nhưng khi đầu vào quá lớn có thể dẫn đến giảm độ chính xác và tăng thời gian xử lý (hội tụ chậm hơn). Để giải quyết vấn đề này, nhiều giải pháp đã được đề xuất như chọn lựa cấu trúc tối ưu của mạng Neuron nhân tạo, giảm số lượng kích thước thuộc tính đầu vào, chọn thuật toán luyện mạng thích hợp, Cũng nhằm mục đích này, ý tưởng phương pháp thay đổi số Neuron trong lớp ẩn của mạng Neuron nhân tạo hỗ trợ chẩn đoán bệnh lý xuất phát từ việc xem xét thành phần của các thuộc tính đầu vào Mạng. Cụ thể các tham số/thuộc tính đầu vào này - vốn được thu nhận bằng các phương pháp đo lường y sinh khác nhau - sẽ tương ứng với 5 cấp cấu trúc của cơ thể như: cơ thể → cơ quan chức năng → mô → tế bào → phân tử sinh học, như được phân loại trong bảng sau: Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 145 Bảng 1. Mức cấu trúc của cơ thể và các phương pháp chẩn đoán tương ứng. Số cấp độ Mức cấu trúc Phương pháp chẩn đoán 1 Cấp cơ thể Thu thập triệu chứng ho, đau, sốt Đo Mạch đập, nhiệt độ, huyết áp, 2 Cấp cơ quan chức năng Chẩn đoán chức năng (ECG, EEG, EMG,) 3 Cấp mô CT, MRI, PET SPECT, kính hiển vi nano, phương pháp thử phân tích 4 Cấp độ tế bào: các loại tế bào 5 Cấp độ phân tử sinh học Một cách trực giác chúng ta thấy, thuộc tính đầu vào càng nhiều, càng phức tạp thì số Neuron trong lớp ẩn của mạng phải thay đổi để sao cho việc chẩn đoán đạt được kết quả chính xác nhất. Như vậy, vừa để kiểm tra tính xác đáng và hiệu quả của phương pháp nêu trên vừa để cải thiện chất lượng của mạng chẩn đoán một số bệnh da liễu, trong nghiên cứu này sẽ áp dụng phương pháp gán thay đổi số Neuron trong lớp ẩn đối với mạng Neuron nhân tạo hỗ trợ chẩn đoán bệnh da liễu. 2. XÂY DỰNG MẠNG NEURON NHÂN TẠO HỖ TRỢ CHẨN ĐOÁN BỆNH DA LIỄU VỚI ĐẦU VÀO LÀ CÁC THUỘC TÍNH BỆNH LÝ 2.1. Để thiết kế mạng Neuron trước tiên phải chọn cơ sở dữ liệu phù hợp. Trong trường hợp đang xét ta chọn cơ sở dữ liệu của bệnh da liễu Dermatology Data Set gồm 2 ma trận: ma trận đầu vào mỗi cột tương ứng với các thông số đặc trưng của bản ghi điện tim đồ của một bệnh nhân (DermatologyInputs) và ma trận đầu ra mỗi cột tương ứng với loại bệnh chuẩn đoán của một bệnh nhân (DermatologyTarget) lấy từ kho cơ sở dữ liệu trực tuyến của Đại học Wisconsin [9], được tạo ra vào năm 1998 bởi các tác giả Nilsel Ilter từ Đại học Gazi và Altay Guvenir từ đại học Bilkent ở Thổ Nhĩ Kỳ. Đây là một bộ dữ liệu phản ánh đầy đủ nhất những yếu tố đặc trưng – triệu chứng của bệnh da liễu. Hơn nữa, hiện nay ở Việt Nam chưa có những bộ dữ liệu để phục vụ cho việc chẩn đoán như vậy. Cơ sở dữ liệu này chứa các bản ghi triệu chứng lâm sàng và mô bệnh học thu được từ 366 bệnh nhân với 34 thông số đặc trưng (thuộc tính đầu vào) được liên kết với 6 loại bệnh lý da liễu chẩn đoán (đầu ra). 2.2. Trước khi dùng để luyện Mạng Neuron, cơ sở dữ liệu này cần được xử lý sơ bộ. Các bệnh lí được chẩn đoán trong bộ dữ liệu gồm có (bảng 2): Bảng 2. Các loại bệnh da liễu được chẩn đoán. Mã lớp Tên bệnh Số trường hợp 01 Vẩy nến 112 02 Viêm da tiết bã 61 03 Lichen planus (bệnh hắc lào) 72 04 Pityriocation rosea (phát ban – hồng ban lan tỏa ) 49 05 Viêm da mãn tính 52 06 Pityriocation rubra pilaris (bệnh sùi mào gà) 20 Kỹ thuật Điện tử – Vật lý – Đo lường N. T. Thủy, , H. L. Nghĩa, “Cải thiện hiệu quả mạng Neuron số Neuron trong lớp ẩn.” 146 Ngoài ra, dữ liệu được chuẩn hóa bằng cách xác định giá trị phần trăm của thuộc tính so với giá trị tuyệt đối lớn nhất của nó sao cho nằm trong khoảng [0,1] và những thuộc tính không xác định thì bị loại bỏ. Như vậy, sau khi xử lý sơ bộ, cơ sở dữ liệu dùng để luyện mạng gồm 2 ma trận: ma trận dermatologyInputs có kích thước là 34 x 366 ứng với 34 thuộc tính và 366 mẫu-bản ghi, và ma trận dermatologyTargets với kích thước 6 x 366 ứng với 6 loại bệnh được chẩn đoán và 366 mẫu-bản ghi. Các thuộc tính (TT) bao gồm 2 nhóm:  Thuộc tính lâm sàng 1: Ban đỏ 2: Tróc vảy(bong tróc) 3: Phân chia vùng(đặc điểm bệnh sùi mào gà) 4: Mẩn ngứa 5: Koebner (tổn thương da trên vị trí chấn thương) 6: Sẩn đa giác 7: Sẩn nang 8: Liên quan đến niêm mạc miệng 9: Liên quan đến đầu gối và khuỷu tay 10: Liên quan đến da đầu 11: Tiền sử gia đình, (0 hoặc 1) 34: Tuổi  Thuộc tính mô bệnh học 12: Hắc tố melanin(tế bào biểu bì tạo sắc tố) không kiểm soát 13: Xâm nhập bạch cầu(tế bào ưa eosin) 14: Sự xâm nhập PNL 15: Xơ hóa của nhú hạ bì 16: Exocytosis 17: Acanthosis(tăng sản lượng bì-làm dày da) 18: Hyperkeratosis (tăng sừng) 19: Parakeratosis (sự lưu giữ hạt nhân trong sừng) 20: Clubbing of the rete ridges (rãnh rete- mô sẹo thiếu chốt rete sẽ dễ dàng bong ra) 21: Độ giãn RETE 22: Lớp biểu bì mỏng suprapapillary 23: Mụn mủ, bóng nước 24: Munro microabcess (tập hợp bạch cầu trung tính trong lớp sừng) 25: Khu trú hypergranulosis 26: Sự biến mất của lớp hạt 27: Không bào và tổn thương của lớp cơ bản 28: Spongiosis (nhiễm trùng-phù trong lớp biểu bì) 29: Saw-tooth appearance of retes(sự xuất hiện rete-răng cưa) 30: Xuất hiện nang sừng 31: Parakeratosis parifaticular (quanh nang nông) 32: Viêm nhiễm đơn nhân 33: Thâm nhiễm giống như bang 2.3. Dựa trên cơ sở dữ liệu đã được xử lý tiến hành xây dựng Mạng Neuron nhân tạo đa lớp (MLP) hỗ trợ chẩn đoán bệnh da liễu. Dựa trên cơ sở dữ liệu đã được xử lý tiến hành xây dựng mạng Neuron nhân tạo đa lớp truyền thẳng (MLP) hỗ trợ chẩn đoán bệnh rối loạn nhịp tim. Một mạng MLP tổng quát là mạng có n (n≥2) tầng (thông thường tầng đầu vào không được tính đến): trong đó gồm Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 147 một tầng đầu ra (tầng thứ n) và (n-1) tầng ẩn. Hình 2. Mạng Neuron MLP. Kiến trúc của một mạng MLP tổng quát có thể mô tả như sau: Đầu vào là các vector ( , ,..., ) trong không gian p chiều, đầu ra là các vector ( , ,..., ) trong không gian q chiều. Đối với các bài toán phân loại, p chính là kích thước của mẫu đầu vào, q chính là số lớp cần phân loại. Đầu ra của Neuron tầng trước là đầu vào của Neuron thuộc tầng liền sau nó. Hoạt động của mạng MLP như sau: tại tầng đầu vào các Neuron nhận tín hiệu vào xử lý (tính tổng trọng số, gửi tới hàm truyền) rồi cho ra kết quả (là kết quả của hàm truyền); kết quả này sẽ được truyền tới các Neuron thuộc tầng ẩn thứ nhất; các Neuron tại đây tiếp nhận như là tín hiệu đầu vào, xử lý và gửi kết quả đến tầng ẩn thứ 2;; quá trình tiếp tục cho đến khi các Neuron thuộc tầng ra cho kết quả. Xác định số Neuron tầng ẩn: Câu hỏi chọn số lượng Neuron trong tầng ẩn của một mạng MLP thế nào là khó, nó phụ thuộc vào bài toán cụ thể và vào kinh nghiệm của nhà thiết kế mạng. Càng nhiều nút ẩn trong mạng thì càng nhiều đặc tính của dữ liệu huấn luyện sẽ được mạng nắm bắt, nhưng thời gian học sẽ càng tăng nên việc xác định số Neuron trong tầng ẩn sao cho chính xác và phù hợp là rất quan trọng. Để bảo đảm tính khoa học và giản tiện trong việc xây dựng và khảo sát mạng, công cụ Neural Network Toolbox trong phần mềm MATLAB được sử dụng. Như vậy, để phù hợp với mục đích nghiên cứu đặt ra, ta chọn Mạng Neuron có cấu trúc như sau (hình 3): Hình 3. Mạng Neuron hai lớp MLP. Cụ thể, với 34 Neuron ở lớp đầu vào, lớp ẩn sigmoid với số lượng Neuron trong lớp ẩn là 25 Neuron, và 6 đầu ra ứng với 6 loại bệnh được chẩn đoán. 2.4. Dữ liệu chẩn đoán đã chuẩn hóa của bệnh nhân từ ma trận DermatologyInputs và ma trận DermatologyTargets được áp dụng để huấn luyện mạng MLP đã thiết kế. Dữ liệu này được phân chia một cách phù hợp thành các nhóm dữ liệu đào tạo (60%), kiểm tra (20%), và xác thực (20%). Mạng được luyện bằng phương pháp lan truyền ngược gradient liên hợp. Kết quả thu được từ quá trình luyện mạng được trình bày trên hình 4, hình 5 và bảng 3. Kỹ thuật Điện tử – Vật lý – Đo lường N. T. Thủy, , H. L. Nghĩa, “Cải thiện hiệu quả mạng Neuron số Neuron trong lớp ẩn.” 148 Hình 4. Kết quả xác thực tốt nhất. Hình 5. Chỉ số của mô hình mạng Neuron tốt nhất. Bảng 3. Tỷ lệ thành công của mô hình phân loại bệnh da liễu. Tỷ lệ thành công [%] 99.7 Tỷ lệ thất bại (%) 0.3 Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 149 3. XÂY DỰNG MẠNG NEURON NHÂN TẠO HỖ TRỢ CHẨN ĐOÁN BỆNH DA LIỄU VỚI SỐ NEURON TRONG LỚP ẨN CỦA MẠNG LÀ KHÁC NHAU 3.1. Với mục đích chính là xác định tầm quan trọng của việc xác định số Neuron trong lớp ẩn bằng cách so sánh kết quả luyện mạng giữa các trường hợp có số Neuron trong lớp ẩn khác nhau nên ta duy trì cấu trúc của mạng (số lớp, số tế bào thần kinh đầu vào và đầu ra), nghĩa là vẫn giữ nguyên mạng như trên hình 2 chỉ thay đổi số Neuron trong lớp ẩn. 3.2. Như trên đã phân tích, trong cơ sở dữ liệu chẩn đoán đã chuẩn hóa của bệnh nhân từ ma trận DermatologyInputs và ma trận DermatologyTargets được áp dụng để huấn luyện mạng MLP đã thiết kế. Dữ liệu này được phân chia một cách phù hợp thành các nhóm dữ liệu đào tạo (60%), kiểm tra (20%), và xác thực (20%). Mạng được luyện bằng phương pháp lan truyền ngược gradient liên hợp. Ngoài ra, dữ liệu này cũng có thể chia thành các nhóm dữ liệu đào tạo (70%), kiểm tra (15%), và xác thực(15%). Kết quả kiểm tra đánh giá hiệu quả Mạng Neuron chẩn đoán bệnh da liễu cho trường hợp thay đổi số Neuron Neuron trong lớp ẩn được đưa ra trong bảng 4 sau đây: Bảng 4. Kết quả kiểm tra đánh giá hiệu quả mạng Neuron chẩn đoán bệnh da liễu cho trường hợp thay đổi số Neuro trong lớp ẩn. Trường hợp Số Neuron trong lớp ẩn Kết quả đào tạo mạng Tỷ lệ thành công [%] Hiệu suất xác thực tốt nhất Chu kỳ hội tụ 1 Kết quả luyện mạng theo thiết kế chia dữ liệu luyện mạng(60/20/20) 25 98.4 0.0057921 47 51 98.6 0.0019347 23 85 99.5 0.00098301 22 2 Kết quả luyện mạng theo thiết kế chia dữ liệu luyện mạng(70/15/15) 90 99.7 0.00049447 28 350 99.5 0.00080694 22 220 99.2 0.010493 16 4. KẾT QUẢ VÀ THẢO LUẬN Kết quả đào tạo mạng neuron chẩn đoán bệnh da liễu bằng phương pháp thay đổi số Neuron trong lớp ẩn cho thấy: Mô hình mạng MLP chẩn đoán bệnh da liễu có độ chính xác và độ hội tụ tương đương với kết quả nhận được trong [1], do đó phù hợp cho sử dụng trong chuẩn đoán y học. Kết quả luyện mạng theo thiết kế chia dữ liệu luyện mạng của trường hợp 1 đem lại hiệu quả tương đối tốt, tuy nhiên, khi tăng số Neuron trong lớp ẩn thành 85 thì ta thu được kết quả tốt hơn so với số Neuron trong lớp ẩn ban đầu là 25 cùng với thời gian hội tụ giảm xuống. Điều đó cho ta thấy được việc chọn số lớp ẩn là cực kì quan trọng. Kết quả luyện mạng theo thiết kế chia dữ liệu luyện mạng của trường hợp 2 với số Neuron trong lớp ẩn là 90 thu được kết quả ngoài mong đợi : Tỷ lệ thành công cao, lên tới 99.7% ,chu kì hội tụ nhanh, kết quả xác thực tốt. Từ bảng 4 cho ta thấy, với số Neuron trong lớp ẩn là 90 luyện mạng theo cách thiết kế chia dữ liệu luyện mạng như của trường hợp 2 và với số Neuron trong lớp ẩn là 85 luyện mạng theo cách thiết kế chia dữ liệu luyên mạng như của trường hợp 1 cho kết quả thành công tốt nhất, thời gian chu kỳ hội tụ ở tối ưu. Qua các trường hợp còn giúp ta nhận thấy việc xác định số Neuron trong lớp ẩn là rất quan trọng để có một kết quả luyện mạng chính và thời gian hội tụ tối ưu. Nhiếu số Kỹ thuật Điện tử – Vật lý – Đo lường N. T. Thủy, , H. L. Nghĩa, “Cải thiện hiệu quả mạng Neuron số Neuron trong lớp ẩn.” 150 Neuron trong lớp ẩn quá hoặc ít quá cũng rất dễ dẫn đến kết quả chẩn đoán thiếu độ chính xác. Nếu số Neuron trong lớp ẩn được chỉ định chính dựa trên độ phức tạp của thuộc tính đầu vào thì hiệu quả sẽ được cải thiện và tốt hơn. Kết quả nghiên cứu có thể áp dụng cho việc chẩn đoán bệnh lý khác nhau. 5. KẾT LUẬN Bài báo đề xuất một phương pháp thay đổi số Neuron trong lớp ẩn nhằm hỗ trợ trong việc chẩn đoán bệnh da liễu. Kết quả mô phỏng và kết quả luyện mạng theo thiết kế chia dữ liệu luyện mạng xác minh tính khả thi của phương pháp đề xuất. Kết quả luyện mạng theo thiết kế chia dữ liệu luyện mạng ban đầu số Neuron trong lớp ẩn ban đầu là 25, sau đó tăng lên số Neuron trong lớp ẩn là 90 cho ta một kết quả tốt. Tỷ lệ thành công cao, lên tới 99.7%, chu kì hội tụ nhanh, kết quả xác thực tốt. Kết quả nghiên cứu có thể áp dụng cho việc chẩn đoán bệnh lý với các triệu chứng/thuộc tính đặc trưng bệnh thu nhận được ở các mức cấu trúc cơ thể khác nhau. TÀI LIỆU THAM KHẢO [1]. S. Kajan, D. Pernecký, J. Goga. “Application of neural network in medical diagnostics” [2]. Deepa Rao, Sujuan Zhao. “Prediction of Breast cancer” (2012) [3]. https://gsm672.wikispaces.com/Prediction+of+Breast+cancer, last visit: 5/14/18 [4]. Q. K. Al-Shayea. “Artificial neural networks in medical diagnosis”. International Journal of Computer Science Issues, 2011, 8.2: 150-154. [5]. S. Kajan. “GUI for classification using multilayer perceptron network”, Technical Computing Prague, 2009 [6]. F. Amato, et al. “Artificial neural networks in medical diagnosis”. Journal of Applied Biomedicine, 2013, 11.2: 47-58. ISSN 1214-0287. [7]. Kornel Papik, et al. “Application of neural networks in medicine — a review”. Med Sci Monit, 1998; 4(3): 538-546 [8]. Huynh Luong Nghia, Dinh Van Quang, Nguyen Thi Thuy. “Pathological diagnosis Neuron network with inputs corresponding with structure levels of the body”. Journal of Military Science and Technology,2018, 11.17: 72-78. ISSN 1859 - 1043 [9]. UCI: “Machine Learning Repository” [online]. ABSTRACT PERFORMANCE IMPROVEMENT OF DIAGNOSTIC NEURON NETWORK FOR DERMATOLOGY BY METHOD OF CHANGE THE NUMBER OF NEURON IN A HIDDEN LAYER Currently, the application of artificial Neuron networks to support pathological diagnosis is increasingly popular, so the improvement of performance characteristics for these networks such as diagnostic accuracy, convergence speed of training process network,... which depends on the determination the number of Neurons in the hidden layer for the diagnostic network is particularly interested. To contribute to solving this problem, the method of change the number of Neuron in a hidden layer of the network will be presented in this paper. Keywords: Artificial Neuron networks; Hidden layer. Nhận bài ngày 16 tháng 8 năm 2020 Hoàn thiện ngày ngày 05 tháng 10 năm 2020 Chấp nhận đăng ngày 05 tháng 10 năm 2020 Địa chỉ: Khoa Điện tử viễn thông, Trường Đại học Điện lực, số 235 Đường Hoàng Quốc Việt, Hà Nội. * Email: thuyepu76@gmail.com.