Tóm tắt: Hiện nay, việc ứng dụng mạng Neuron nhân tạo hỗ trợ chuẩn đoán
bệnh lý đang ngày càng phổ biến nên việc cải thiện các chỉ tiêu chất lượng cho các
mạng này như độ chính xác chẩn đoán, tốc độ hội tụ của quá trình huấn luyện mạng
vốn phụ thuộc vào việc xác định số Neuron trong lớp ẩn cho mạng chẩn đoán đang
được quan tâm đặc biệt. Để góp phần giải quyết vấn đề này, trong bài báo sẽ trình
bày việc sử dụng phương pháp thay đổi số Neuron trong lớp ẩn của mạng.
7 trang |
Chia sẻ: thanhle95 | Lượt xem: 302 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Cải thiện hiệu quả mạng neuron hỗ trợ chẩn đoán bệnh da liễu bằng phương pháp thay đổi số neuron trong lớp ẩn, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Kỹ thuật Điện tử – Vật lý – Đo lường
N. T. Thủy, , H. L. Nghĩa, “Cải thiện hiệu quả mạng Neuron số Neuron trong lớp ẩn.” 144
CẢI THIỆN HIỆU QUẢ MẠNG NEURON HỖ TRỢ CHẨN ĐOÁN
BỆNH DA LIỄU BẰNG PHƯƠNG PHÁP THAY ĐỔI
SỐ NEURON TRONG LỚP ẨN
Nguyễn Thị Thủy*, Đinh Văn Quang, Đỗ Văn Thanh, Huỳnh Lương Nghĩa
Tóm tắt: Hiện nay, việc ứng dụng mạng Neuron nhân tạo hỗ trợ chuẩn đoán
bệnh lý đang ngày càng phổ biến nên việc cải thiện các chỉ tiêu chất lượng cho các
mạng này như độ chính xác chẩn đoán, tốc độ hội tụ của quá trình huấn luyện mạng
vốn phụ thuộc vào việc xác định số Neuron trong lớp ẩn cho mạng chẩn đoán đang
được quan tâm đặc biệt. Để góp phần giải quyết vấn đề này, trong bài báo sẽ trình
bày việc sử dụng phương pháp thay đổi số Neuron trong lớp ẩn của mạng.
Từ khóa: Mạng Neuron nhân tạo; Lớp ẩn.
1. ĐẶT VẤN ĐỀ
Trong rất nhiều công trình nghiên cứu ứng dụng mạng Neuron nhân tạo gần đây điển
hình như bài báo [1], đã đưa ra kết luận rằng: “Phân loại bằng cách sử dụng các mô hình
mạng Neuron nhân tạo cho thấy tỷ lệ phần trăm thành công rất tốt. Mạng Neuron nhân tạo
đa lớp truyền thẳng (MLP: multi-layer perceptron networks) được thử nghiệm cho bài toán
phân loại bệnh lý dựa trên các thông tin triệu chứng, ảnh chụp y tế và kết quả phân tích xét
nghiệm, là phù hợp để sử dụng trong chẩn đoán y học (hình 1).
Hình 1. Chẩn đoán y tế sử dụng mạng Neuron MLP[4].
Thông thường đầu vào của mạng này là các triệu chứng – thuộc tính bệnh lý được ghi
nhận bằng các phương thức khác nhau và đầu ra là kết quả chẩn đoán được khẳng định bởi
thực tế dùng để luyện (dạy) mạng. Nói chung, các mạng này đã cho kết quả có thể chấp
nhận được nhưng khi đầu vào quá lớn có thể dẫn đến giảm độ chính xác và tăng thời gian
xử lý (hội tụ chậm hơn). Để giải quyết vấn đề này, nhiều giải pháp đã được đề xuất như
chọn lựa cấu trúc tối ưu của mạng Neuron nhân tạo, giảm số lượng kích thước thuộc tính
đầu vào, chọn thuật toán luyện mạng thích hợp,
Cũng nhằm mục đích này, ý tưởng phương pháp thay đổi số Neuron trong lớp ẩn của
mạng Neuron nhân tạo hỗ trợ chẩn đoán bệnh lý xuất phát từ việc xem xét thành phần của
các thuộc tính đầu vào Mạng. Cụ thể các tham số/thuộc tính đầu vào này - vốn được thu
nhận bằng các phương pháp đo lường y sinh khác nhau - sẽ tương ứng với 5 cấp cấu trúc
của cơ thể như: cơ thể → cơ quan chức năng → mô → tế bào → phân tử sinh học, như
được phân loại trong bảng sau:
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 145
Bảng 1. Mức cấu trúc của cơ thể và các phương pháp chẩn đoán tương ứng.
Số cấp độ Mức cấu trúc Phương pháp chẩn đoán
1 Cấp cơ thể Thu thập triệu chứng ho, đau, sốt
Đo Mạch đập, nhiệt độ, huyết áp,
2 Cấp cơ quan chức năng Chẩn đoán chức năng (ECG, EEG,
EMG,)
3 Cấp mô
CT, MRI, PET SPECT, kính hiển vi
nano, phương pháp thử phân tích
4 Cấp độ tế bào: các loại tế bào
5 Cấp độ phân tử sinh học
Một cách trực giác chúng ta thấy, thuộc tính đầu vào càng nhiều, càng phức tạp thì số
Neuron trong lớp ẩn của mạng phải thay đổi để sao cho việc chẩn đoán đạt được kết quả
chính xác nhất.
Như vậy, vừa để kiểm tra tính xác đáng và hiệu quả của phương pháp nêu trên vừa để
cải thiện chất lượng của mạng chẩn đoán một số bệnh da liễu, trong nghiên cứu này sẽ áp
dụng phương pháp gán thay đổi số Neuron trong lớp ẩn đối với mạng Neuron nhân tạo hỗ
trợ chẩn đoán bệnh da liễu.
2. XÂY DỰNG MẠNG NEURON NHÂN TẠO HỖ TRỢ CHẨN ĐOÁN BỆNH DA
LIỄU VỚI ĐẦU VÀO LÀ CÁC THUỘC TÍNH BỆNH LÝ
2.1. Để thiết kế mạng Neuron trước tiên phải chọn cơ sở dữ liệu phù hợp. Trong trường
hợp đang xét ta chọn cơ sở dữ liệu của bệnh da liễu Dermatology Data Set gồm 2 ma trận:
ma trận đầu vào mỗi cột tương ứng với các thông số đặc trưng của bản ghi điện tim đồ của
một bệnh nhân (DermatologyInputs) và ma trận đầu ra mỗi cột tương ứng với loại bệnh
chuẩn đoán của một bệnh nhân (DermatologyTarget) lấy từ kho cơ sở dữ liệu trực tuyến
của Đại học Wisconsin [9], được tạo ra vào năm 1998 bởi các tác giả Nilsel Ilter từ Đại
học Gazi và Altay Guvenir từ đại học Bilkent ở Thổ Nhĩ Kỳ. Đây là một bộ dữ liệu phản
ánh đầy đủ nhất những yếu tố đặc trưng – triệu chứng của bệnh da liễu. Hơn nữa, hiện nay
ở Việt Nam chưa có những bộ dữ liệu để phục vụ cho việc chẩn đoán như vậy. Cơ sở dữ
liệu này chứa các bản ghi triệu chứng lâm sàng và mô bệnh học thu được từ 366 bệnh nhân
với 34 thông số đặc trưng (thuộc tính đầu vào) được liên kết với 6 loại bệnh lý da liễu chẩn
đoán (đầu ra).
2.2. Trước khi dùng để luyện Mạng Neuron, cơ sở dữ liệu này cần được xử lý sơ bộ. Các
bệnh lí được chẩn đoán trong bộ dữ liệu gồm có (bảng 2):
Bảng 2. Các loại bệnh da liễu được chẩn đoán.
Mã lớp Tên bệnh Số trường hợp
01 Vẩy nến 112
02 Viêm da tiết bã 61
03 Lichen planus (bệnh hắc lào) 72
04 Pityriocation rosea (phát ban – hồng ban lan tỏa ) 49
05 Viêm da mãn tính 52
06 Pityriocation rubra pilaris (bệnh sùi mào gà) 20
Kỹ thuật Điện tử – Vật lý – Đo lường
N. T. Thủy, , H. L. Nghĩa, “Cải thiện hiệu quả mạng Neuron số Neuron trong lớp ẩn.” 146
Ngoài ra, dữ liệu được chuẩn hóa bằng cách xác định giá trị phần trăm của thuộc tính
so với giá trị tuyệt đối lớn nhất của nó sao cho nằm trong khoảng [0,1] và những thuộc
tính không xác định thì bị loại bỏ. Như vậy, sau khi xử lý sơ bộ, cơ sở dữ liệu dùng để
luyện mạng gồm 2 ma trận: ma trận dermatologyInputs có kích thước là 34 x 366 ứng với
34 thuộc tính và 366 mẫu-bản ghi, và ma trận dermatologyTargets với kích thước 6 x 366
ứng với 6 loại bệnh được chẩn đoán và 366 mẫu-bản ghi.
Các thuộc tính (TT) bao gồm 2 nhóm:
Thuộc tính lâm sàng
1: Ban đỏ
2: Tróc vảy(bong tróc)
3: Phân chia vùng(đặc điểm bệnh sùi mào gà)
4: Mẩn ngứa
5: Koebner (tổn thương da trên vị trí chấn thương)
6: Sẩn đa giác
7: Sẩn nang
8: Liên quan đến niêm mạc miệng
9: Liên quan đến đầu gối và khuỷu tay
10: Liên quan đến da đầu
11: Tiền sử gia đình, (0 hoặc 1)
34: Tuổi
Thuộc tính mô bệnh học
12: Hắc tố melanin(tế bào biểu bì tạo sắc tố) không kiểm soát
13: Xâm nhập bạch cầu(tế bào ưa eosin)
14: Sự xâm nhập PNL
15: Xơ hóa của nhú hạ bì
16: Exocytosis
17: Acanthosis(tăng sản lượng bì-làm dày da)
18: Hyperkeratosis (tăng sừng)
19: Parakeratosis (sự lưu giữ hạt nhân trong sừng)
20: Clubbing of the rete ridges (rãnh rete- mô sẹo thiếu chốt rete sẽ dễ dàng bong ra)
21: Độ giãn RETE
22: Lớp biểu bì mỏng suprapapillary
23: Mụn mủ, bóng nước
24: Munro microabcess (tập hợp bạch cầu trung tính trong lớp sừng)
25: Khu trú hypergranulosis
26: Sự biến mất của lớp hạt
27: Không bào và tổn thương của lớp cơ bản
28: Spongiosis (nhiễm trùng-phù trong lớp biểu bì)
29: Saw-tooth appearance of retes(sự xuất hiện rete-răng cưa)
30: Xuất hiện nang sừng
31: Parakeratosis parifaticular (quanh nang nông)
32: Viêm nhiễm đơn nhân
33: Thâm nhiễm giống như bang
2.3. Dựa trên cơ sở dữ liệu đã được xử lý tiến hành xây dựng Mạng Neuron nhân tạo đa
lớp (MLP) hỗ trợ chẩn đoán bệnh da liễu.
Dựa trên cơ sở dữ liệu đã được xử lý tiến hành xây dựng mạng Neuron nhân tạo đa lớp
truyền thẳng (MLP) hỗ trợ chẩn đoán bệnh rối loạn nhịp tim. Một mạng MLP tổng quát là
mạng có n (n≥2) tầng (thông thường tầng đầu vào không được tính đến): trong đó gồm
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 147
một tầng đầu ra (tầng thứ n) và (n-1) tầng ẩn.
Hình 2. Mạng Neuron MLP.
Kiến trúc của một mạng MLP tổng quát có thể mô tả như sau:
Đầu vào là các vector ( , ,..., ) trong không gian p chiều, đầu ra là các vector ( ,
,..., ) trong không gian q chiều. Đối với các bài toán phân loại, p chính là kích thước
của mẫu đầu vào, q chính là số lớp cần phân loại.
Đầu ra của Neuron tầng trước là đầu vào của Neuron thuộc tầng liền sau nó. Hoạt động
của mạng MLP như sau: tại tầng đầu vào các Neuron nhận tín hiệu vào xử lý (tính tổng
trọng số, gửi tới hàm truyền) rồi cho ra kết quả (là kết quả của hàm truyền); kết quả này sẽ
được truyền tới các Neuron thuộc tầng ẩn thứ nhất; các Neuron tại đây tiếp nhận như là tín
hiệu đầu vào, xử lý và gửi kết quả đến tầng ẩn thứ 2;; quá trình tiếp tục cho đến khi các
Neuron thuộc tầng ra cho kết quả.
Xác định số Neuron tầng ẩn:
Câu hỏi chọn số lượng Neuron trong tầng ẩn của một mạng MLP thế nào là khó, nó
phụ thuộc vào bài toán cụ thể và vào kinh nghiệm của nhà thiết kế mạng. Càng nhiều nút
ẩn trong mạng thì càng nhiều đặc tính của dữ liệu huấn luyện sẽ được mạng nắm bắt,
nhưng thời gian học sẽ càng tăng nên việc xác định số Neuron trong tầng ẩn sao cho chính
xác và phù hợp là rất quan trọng.
Để bảo đảm tính khoa học và giản tiện trong việc xây dựng và khảo sát mạng, công cụ
Neural Network Toolbox trong phần mềm MATLAB được sử dụng. Như vậy, để phù hợp
với mục đích nghiên cứu đặt ra, ta chọn Mạng Neuron có cấu trúc như sau (hình 3):
Hình 3. Mạng Neuron hai lớp MLP.
Cụ thể, với 34 Neuron ở lớp đầu vào, lớp ẩn sigmoid với số lượng Neuron trong lớp ẩn
là 25 Neuron, và 6 đầu ra ứng với 6 loại bệnh được chẩn đoán.
2.4. Dữ liệu chẩn đoán đã chuẩn hóa của bệnh nhân từ ma trận DermatologyInputs và ma
trận DermatologyTargets được áp dụng để huấn luyện mạng MLP đã thiết kế. Dữ liệu này
được phân chia một cách phù hợp thành các nhóm dữ liệu đào tạo (60%), kiểm tra (20%), và
xác thực (20%). Mạng được luyện bằng phương pháp lan truyền ngược gradient liên hợp.
Kết quả thu được từ quá trình luyện mạng được trình bày trên hình 4, hình 5 và bảng 3.
Kỹ thuật Điện tử – Vật lý – Đo lường
N. T. Thủy, , H. L. Nghĩa, “Cải thiện hiệu quả mạng Neuron số Neuron trong lớp ẩn.” 148
Hình 4. Kết quả xác thực tốt nhất.
Hình 5. Chỉ số của mô hình mạng Neuron tốt nhất.
Bảng 3. Tỷ lệ thành công của mô hình phân loại bệnh da liễu.
Tỷ lệ thành công [%] 99.7
Tỷ lệ thất bại (%) 0.3
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 149
3. XÂY DỰNG MẠNG NEURON NHÂN TẠO HỖ TRỢ CHẨN ĐOÁN BỆNH DA
LIỄU VỚI SỐ NEURON TRONG LỚP ẨN CỦA MẠNG LÀ KHÁC NHAU
3.1. Với mục đích chính là xác định tầm quan trọng của việc xác định số Neuron trong lớp
ẩn bằng cách so sánh kết quả luyện mạng giữa các trường hợp có số Neuron trong lớp ẩn
khác nhau nên ta duy trì cấu trúc của mạng (số lớp, số tế bào thần kinh đầu vào và đầu ra),
nghĩa là vẫn giữ nguyên mạng như trên hình 2 chỉ thay đổi số Neuron trong lớp ẩn.
3.2. Như trên đã phân tích, trong cơ sở dữ liệu chẩn đoán đã chuẩn hóa của bệnh nhân từ
ma trận DermatologyInputs và ma trận DermatologyTargets được áp dụng để huấn luyện
mạng MLP đã thiết kế. Dữ liệu này được phân chia một cách phù hợp thành các nhóm dữ
liệu đào tạo (60%), kiểm tra (20%), và xác thực (20%). Mạng được luyện bằng phương
pháp lan truyền ngược gradient liên hợp. Ngoài ra, dữ liệu này cũng có thể chia thành các
nhóm dữ liệu đào tạo (70%), kiểm tra (15%), và xác thực(15%).
Kết quả kiểm tra đánh giá hiệu quả Mạng Neuron chẩn đoán bệnh da liễu cho trường
hợp thay đổi số Neuron Neuron trong lớp ẩn được đưa ra trong bảng 4 sau đây:
Bảng 4. Kết quả kiểm tra đánh giá hiệu quả mạng Neuron chẩn đoán bệnh da liễu cho
trường hợp thay đổi số Neuro trong lớp ẩn.
Trường
hợp
Số Neuron
trong
lớp ẩn
Kết quả đào tạo mạng
Tỷ lệ thành
công [%]
Hiệu suất xác
thực tốt nhất
Chu kỳ
hội tụ
1 Kết quả luyện mạng
theo thiết kế chia dữ
liệu luyện
mạng(60/20/20)
25 98.4 0.0057921 47
51 98.6 0.0019347 23
85 99.5 0.00098301 22
2 Kết quả luyện mạng
theo thiết kế chia dữ
liệu luyện
mạng(70/15/15)
90 99.7 0.00049447 28
350 99.5 0.00080694 22
220 99.2 0.010493 16
4. KẾT QUẢ VÀ THẢO LUẬN
Kết quả đào tạo mạng neuron chẩn đoán bệnh da liễu bằng phương pháp thay đổi số
Neuron trong lớp ẩn cho thấy:
Mô hình mạng MLP chẩn đoán bệnh da liễu có độ chính xác và độ hội tụ tương đương
với kết quả nhận được trong [1], do đó phù hợp cho sử dụng trong chuẩn đoán y học.
Kết quả luyện mạng theo thiết kế chia dữ liệu luyện mạng của trường hợp 1 đem lại hiệu
quả tương đối tốt, tuy nhiên, khi tăng số Neuron trong lớp ẩn thành 85 thì ta thu được kết
quả tốt hơn so với số Neuron trong lớp ẩn ban đầu là 25 cùng với thời gian hội tụ giảm
xuống. Điều đó cho ta thấy được việc chọn số lớp ẩn là cực kì quan trọng.
Kết quả luyện mạng theo thiết kế chia dữ liệu luyện mạng của trường hợp 2 với số
Neuron trong lớp ẩn là 90 thu được kết quả ngoài mong đợi : Tỷ lệ thành công cao, lên tới
99.7% ,chu kì hội tụ nhanh, kết quả xác thực tốt.
Từ bảng 4 cho ta thấy, với số Neuron trong lớp ẩn là 90 luyện mạng theo cách thiết kế
chia dữ liệu luyện mạng như của trường hợp 2 và với số Neuron trong lớp ẩn là 85 luyện
mạng theo cách thiết kế chia dữ liệu luyên mạng như của trường hợp 1 cho kết quả thành
công tốt nhất, thời gian chu kỳ hội tụ ở tối ưu.
Qua các trường hợp còn giúp ta nhận thấy việc xác định số Neuron trong lớp ẩn là rất
quan trọng để có một kết quả luyện mạng chính và thời gian hội tụ tối ưu. Nhiếu số
Kỹ thuật Điện tử – Vật lý – Đo lường
N. T. Thủy, , H. L. Nghĩa, “Cải thiện hiệu quả mạng Neuron số Neuron trong lớp ẩn.” 150
Neuron trong lớp ẩn quá hoặc ít quá cũng rất dễ dẫn đến kết quả chẩn đoán thiếu độ chính
xác. Nếu số Neuron trong lớp ẩn được chỉ định chính dựa trên độ phức tạp của thuộc tính
đầu vào thì hiệu quả sẽ được cải thiện và tốt hơn. Kết quả nghiên cứu có thể áp dụng cho
việc chẩn đoán bệnh lý khác nhau.
5. KẾT LUẬN
Bài báo đề xuất một phương pháp thay đổi số Neuron trong lớp ẩn nhằm hỗ trợ trong
việc chẩn đoán bệnh da liễu. Kết quả mô phỏng và kết quả luyện mạng theo thiết kế chia
dữ liệu luyện mạng xác minh tính khả thi của phương pháp đề xuất. Kết quả luyện mạng
theo thiết kế chia dữ liệu luyện mạng ban đầu số Neuron trong lớp ẩn ban đầu là 25, sau đó
tăng lên số Neuron trong lớp ẩn là 90 cho ta một kết quả tốt. Tỷ lệ thành công cao, lên tới
99.7%, chu kì hội tụ nhanh, kết quả xác thực tốt. Kết quả nghiên cứu có thể áp dụng cho
việc chẩn đoán bệnh lý với các triệu chứng/thuộc tính đặc trưng bệnh thu nhận được ở các
mức cấu trúc cơ thể khác nhau.
TÀI LIỆU THAM KHẢO
[1]. S. Kajan, D. Pernecký, J. Goga. “Application of neural network in medical diagnostics”
[2]. Deepa Rao, Sujuan Zhao. “Prediction of Breast cancer” (2012)
[3]. https://gsm672.wikispaces.com/Prediction+of+Breast+cancer, last visit: 5/14/18
[4]. Q. K. Al-Shayea. “Artificial neural networks in medical diagnosis”. International
Journal of Computer Science Issues, 2011, 8.2: 150-154.
[5]. S. Kajan. “GUI for classification using multilayer perceptron network”, Technical
Computing Prague, 2009
[6]. F. Amato, et al. “Artificial neural networks in medical diagnosis”. Journal of Applied
Biomedicine, 2013, 11.2: 47-58. ISSN 1214-0287.
[7]. Kornel Papik, et al. “Application of neural networks in medicine — a review”. Med
Sci Monit, 1998; 4(3): 538-546
[8]. Huynh Luong Nghia, Dinh Van Quang, Nguyen Thi Thuy. “Pathological diagnosis
Neuron network with inputs corresponding with structure levels of the body”. Journal
of Military Science and Technology,2018, 11.17: 72-78. ISSN 1859 - 1043
[9]. UCI: “Machine Learning Repository” [online].
ABSTRACT
PERFORMANCE IMPROVEMENT OF DIAGNOSTIC NEURON NETWORK
FOR DERMATOLOGY BY METHOD OF CHANGE THE NUMBER
OF NEURON IN A HIDDEN LAYER
Currently, the application of artificial Neuron networks to support pathological
diagnosis is increasingly popular, so the improvement of performance characteristics
for these networks such as diagnostic accuracy, convergence speed of training
process network,... which depends on the determination the number of Neurons in the
hidden layer for the diagnostic network is particularly interested. To contribute to
solving this problem, the method of change the number of Neuron in a hidden layer of
the network will be presented in this paper.
Keywords: Artificial Neuron networks; Hidden layer.
Nhận bài ngày 16 tháng 8 năm 2020
Hoàn thiện ngày ngày 05 tháng 10 năm 2020
Chấp nhận đăng ngày 05 tháng 10 năm 2020
Địa chỉ: Khoa Điện tử viễn thông, Trường Đại học Điện lực, số 235 Đường Hoàng Quốc Việt, Hà Nội.
*
Email: thuyepu76@gmail.com.