Tóm tắt
Nghiên cứu này tiếp cận theo phương pháp máy học để từ đó có thể phát hiện tự động những website
chứa hình ảnh khiêu dâm và văn bản có nội dung đồi trụy. Cụ thể, sử dụng giải thuật SVM để phân lớp
hình ảnh dựa vào phân loại màu da cải tiến và Naïve Bayes để phân lớp văn bản. Kết quả cho thấy mô
hình đề xuất có độ chính xác phân lớp cao hơn một số phương pháp đã công bố.
9 trang |
Chia sẻ: thanhle95 | Lượt xem: 543 | Lượt tải: 2
Bạn đang xem nội dung tài liệu Phân loại web đồi trụy dựa vào văn bản và hình ảnh, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
26
NGHIÊN CỨU KHOA HỌC
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
Phân loại web đồi trụy dựa vào văn bản và hình ảnh
Pornographic web classification based on text and images
Phạm Thị Hường
1
, Nguyễn Văn Thanh
2
Email: phamthihuongdtth@gmail.com
1
Trường Đại học Sao Đỏ
2
Trường THPT Châu Thành
Ngày nhận bài: 15/6/2018
Ngày nhận bài sửa sau phản biện: 23/11/2018
Ngày chấp nhận đăng: 27/12/2018
Tóm tắt
Nghiên cứu này tiếp cận theo phương pháp máy học để từ đó có thể phát hiện tự động những website
chứa hình ảnh khiêu dâm và văn bản có nội dung đồi trụy. Cụ thể, sử dụng giải thuật SVM để phân lớp
hình ảnh dựa vào phân loại màu da cải tiến và Naïve Bayes để phân lớp văn bản. Kết quả cho thấy mô
hình đề xuất có độ chính xác phân lớp cao hơn một số phương pháp đã công bố.
Từ khóa: Máy vector hỗ trợ; phân lớp văn bản; phân lớp hình ảnh; Naïve Bayes; phân loại web.
Abstract
This study approaches a machine learning method to automatically detect websites containing
pornographic images and texts. Specifically, SVM is used to image classify based on the improved skin
color classification, and Naïve Bayes is used to text classify. The results show that the proposed model
has higher classification accuracy than some published methods.
Keywords: Support vector machine; text classification; image classification; Naïve Bayes; web classification.
1. GIỚI THIỆU
Người phản biện: 1. GS.TSKH. Thân Ngọc Hoàn
2. TS. Đặng Hồng Hải
Thực tế hiện nay, số lượng thanh thiếu niên suy
đồi đạo đức cũng như phạm tội ngày càng tăng
cao. Một trong những nguyên nhân đó là do ảnh
hưởng từ những thông tin không lành mạnh tràn
lan trên internet, lượng lớn thông tin đó chưa được
phân loại hay kiểm soát để giúp người sử dụng
tránh truy cập những thông tin xấu. Nghiên cứu
về phân loại web đồi trụy ở trong nước cũng như
trên thế giới đã có những kết quả cụ thể và ứng
dụng trong thực tế: công cụ chặn website khiêu
dâm của nước ngoài như STOP P-O-R-N của
PB Software LLC, Media Detective; CyberSitter
của Solid Oak Software; iShield và ScreenShield
Enterprise của Guardware,... Trong nước có công
cụ chặn web đen Killporn của tác giả Nguyễn Hữu
Bình, VwebFilter (VWF), Depraved Web Killer
(DWK) của tác giả Vũ Lương Bằng, MiniFireWall
4.0 (MFW) của tác giả Huỳnh Ngọc Ẩn [11]. Theo
hướng tiếp cận máy học về phân loại web đồi trụy
đã có một số nghiên cứu trên thế giới. Theo [12],
tác giả sử dụng SVM để phân tích ngữ nghĩa nhằm
tìm mối quan hệ ngữ nghĩa giữa các từ khóa và
giữa các tài liệu web, sau đó mô hình hóa chúng
dạng vector nhằm phân lớp văn bản, sử dụng
phân tích ngữ nghĩa tiềm ẩn (LSA) và đặc trưng
trang web (WPFS) để trích chọn các đặc trưng ngữ
nghĩa và văn bản. Kết quả phân lớp có giá trị TP
trung bình cho hai phương pháp là 96,5%, chưa
phân lớp hình ảnh trong trang web. Theo [13], tác
giả đưa ra phương pháp phát hiện nội dung web
khiêu dâm sử dụng TF-IDF tính trọng số của một
từ hoặc nhóm từ để thống kê mức độ quan trọng
của chúng trong một văn bản tiếng Anh và tiếng
Nga. Kết quả phân loại tiếng Anh sử dụng Naïve
Bayes có độ chính xác phân lớp trung bình 92,9%,
thời gian trích chọn đặc trưng cho mỗi tài liệu tiếng
Anh khá lớn (2,7 giây). Theo [14], tác giả sử dụng
SVM với đặc trưng dựa trên thống kê về kết cấu
và màu sắc của một hình ảnh, tính score để xác
định hình ảnh có phải khiêu dâm trẻ em không,
sử dụng các visual words cùng tăng cường màu
sắc DCT để biểu diễn hình ảnh, kết quả có tỷ lệ
lỗi trong phạm vi 11-24%. Theo [15], tác giả sử
dụng trí tuệ nhóm trong nhật ký click qua công cụ
tìm kiếm dựa trên ý tưởng “Hành vi nhấp chuột
trên các trang khiêu dâm phản ánh ý định tìm kiếm
khiêu dâm của người dùng” và những người dùng
khác nhau thường sử dụng các truy vấn như nhau
LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 27
để tìm nội dung khiêu dâm trên web. Từ đó, tập
hợp số lượng các nhấp chuột của người dùng và
mối tương quan giữa các truy vấn hay URL để
đề xuất phương pháp truyền bá nhãn trên đồ thị
lưỡng phân có trọng số, điều này làm cơ sở xác
định một trang web có nội dung khiêu dâm hay
không. Tác giả sử dụng phân loại văn bản bằng cả
SVM và Naïve Bayes bổ sung đặc trưng là điểm
khiêu dâm (pornography score – PS) để làm tăng
hiệu quả tìm kiếm. Kết quả cài đặt trên ngôn ngữ
tiếng Anh và tiếng Trung có giá trị TP tương ứng là
91% và 94%. Theo [16], tác giả sử dụng SVM để
phân loại văn bản và hình ảnh trong web. Cụ thể,
sử dụng đặc trưng màu da để phát hiện hình ảnh
khiêu dâm và tần suất các thuật ngữ khiêu dâm so
với tổng số văn bản, khoảng thời gian và mức độ
của các thuật ngữ khiêu dâm. Kết quả thử nghiệm
cho độ chính xác phân loại văn bản là 95,8% và
độ chính xác phân loại hình ảnh là 84%. Ngoài ra,
độ chính xác của phân loại trang web sau khi hợp
nhất thành một bộ lọc gồm cả văn bản và hình ảnh
là 91,8%. Theo [17], tác giả đưa ra phương pháp
lọc web thông thường, dựa trên phân lớp văn bản
sử dụng URL. Phương pháp này chỉ yêu cầu các
tập huấn luyện cho lớp tốt và do đó không phải
xây dựng và duy trì tập huấn luyện lớp xấu. Tuy
nhiên, chưa phân lớp được hình ảnh, phân lớp
văn bản mới chỉ dựa trên URL mà không dựa vào
nội dung, việc không quan tâm đến huấn luyện
lớp xấu cũng là hạn chế cho phân lớp web đồi
trụy vốn cần quan tâm lớp xấu để chặn. Theo [18],
tác giả trích chọn đặc trưng là vùng da từ ảnh và
tìm mối tương quan giữa vùng đó là da hay không
phải da, sử dụng SVM để xác định xem một hình
ảnh có là ảnh khiêu dâm hay không. Kết quả thực
nghiệm cho độ chính xác 75%. Theo [19], tác giả
đề xuất mô hình phân loại dựa trên kỹ thuật học
sâu. Việc trích chọn đặc trưng và phân loại bằng
mạng nơron tích chập nhiều lớp làm cho việc tạo
các đặc trưng và bộ phân loại không phải thực
hiện thủ công. Cụ thể, nghiên cứu tập trung vào
tín hiệu thị giác là hình thức khiêu dâm nổi bật
nhất và hệ thống học sâu tự động phân tích hình
ảnh (và khung hình video) trước khi phân loại nội
dung là bình thường hay khiêu dâm. Kết quả thực
nghiệm đạt tỷ lệ phân loại trên 94%.
Tại Việt Nam, theo [3], tác giả sử dụng SVM
để phân lớp nội dung văn bản trong trang web.
Thực nghiệm được tiến hành trên bộ dữ liệu mẫu
20-newsgroups (là bộ dữ liệu dành cho các thí
nghiệm trong các ứng dụng phân lớp văn bản)
với độ chính xác trung bình 94%, chưa phân lớp
hình ảnh. Về phân lớp web chứa cả hình ảnh và
nội dung văn bản, theo [4], sử dụng thuật toán
SVM để phân lớp văn bản và hình ảnh. Cụ thể, tác
giả biểu diễn ảnh bằng đặc trưng SIFT và dùng
mô hình bag of words (BoW) để thực hiện kết tập
các đặc trưng cục bộ SIFT đó. Với phân loại văn
bản, tác giả chọn các đặc trưng để phân loại là
ngưỡng tần suất văn bản (Document Frequency
thresholding –DF). Theo cách tiếp cận này, việc
đếm số lượng văn bản có chứa từ cấm đơn giản
nhưng độ chính xác chưa cao (93,65%) và phân
lớp hình ảnh dựa vào đặc trưng SIFL có độ chính
xác 76,3255%.
Đa phần những công cụ cung cấp bởi các nhà
phát triển nước ngoài đều phải trả phí, một số
nghiên cứu phân loại web chỉ dựa trên từ khóa,
URL, chưa phân loại cả văn bản và hình ảnh, một
số hạn chế về thời gian phân lớp hay độ chính
xác, Một số công cụ trong nước nhưng chưa
được sử dụng rộng rãi và còn một số hạn chế
như: DWK, VFW chặn website dựa vào những
từ khóa thông dụng có trong nội dung trang web
hoặc chặn những URL cụ thể, điều này có thể
dẫn đến là phần mềm chặn nhầm website bởi
thực tế địa chỉ của một số website có nội dung
khiêu dâm thường thay đổi. Mặt khác, người dùng
không thể liệt kê ra hết những từ khóa và địa chỉ
website cần cấm truy cập. Nghiên cứu này tiếp
cận theo phương pháp máy học để phát hiện tự
động những website chứa hình ảnh khiêu dâm
bằng kỹ thuật SVM và website chứa văn bản có
nội dung đồi trụy bằng giải thuật Naïve Bayes. Kết
quả nghiên cứu cho thấy hiệu quả của đề xuất.
2. NỘI DUNG NGHIÊN CỨU
2.1. Bài toán phân lớp dữ liệu web
Phân lớp dữ liệu là xếp đối tượng dữ liệu vào
một trong các lớp đã xác định trước. Phân lớp
dữ liệu gồm hai bước là xây dựng mô hình và
vận hành mô hình. Cho sẵn một tập dữ liệu các
trang web được gán nhãn là web đồi trụy hay
bình thường gọi tắt là lớp xấu và lớp tốt, cần một
phương pháp huấn luyện để xây dựng một mô
hình phân lớp từ tập dữ liệu mẫu đó, sau đó dùng
mô hình này dự đoán lớp của những trang web
mới chưa biết nhãn.
2.2. Phân lớp hình ảnh trong web
2.2.1. Giải thuật SVM
Cho trước một tập huấn luyện được biểu diễn
trong không gian vector, phương pháp này tìm ra
một siêu phẳng quyết định tốt nhất có thể để chia
các điểm trong không gian này thành hai lớp riêng
biệt. Phương pháp này yêu cầu dữ liệu được diễn
tả như các vector của số thực [5].
28
NGHIÊN CỨU KHOA HỌC
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
2.2.2. Huấn luyện SVM
Huấn luyện SVM thực chất là việc giải bài toán
quy hoạch toàn phương, yêu cầu phải lưu một ma
trận có kích thước bằng bình phương số lượng
mẫu huấn luyện. Trong thực tế, điều này là không
khả thi vì thông thường số lượng mẫu huấn luyện
lớn. Có nhiều thuật toán được phát triển để giải
quyết bài toán trên. Những thuật toán này dựa
trên việc phân rã tập huấn luyện thành những
nhóm dữ liệu nhỏ hơn, nghĩa là thay vì giải bài
toán toàn phương có kích thước lớn thì đi giải
những bài toán toàn phương có kích nhỏ hơn.
Sau đó, những thuật toán này kiểm tra điều kiện
để xác định phương án tối ưu. Một trong những
thuật toán dùng để giải bài toán toàn phương là
Sequential Minimal Optimization – SMO do Platt
đưa ra năm 1999.
2.2.3. Phân đoạn màu da
Phát hiện da là một bước quan trọng đầu tiên
trong việc phát hiện ảnh, được sử dụng làm cơ
sở cho việc phát hiện hình ảnh có nội dung đồi
trụy. Mục tiêu của phát hiện màu da là xây dựng
một bộ quy tắc quyết định sẽ phân biệt màu của
một điểm ảnh (pixel) là màu da (skin color) hay là
không phải da (non-skin color) dựa trên các thành
phần màu sắc.
2.2.3.1. Mô hình phát hiện màu da trong không
gian màu YcrCb
Không gian màu YcbCr được biểu diễn bằng
ba giá trị. Thành phần Y đại diện cho cường độ
của ánh sáng. Hai thành phần Cb và Cr cho biết
cường độ của các thành phần màu xanh và đỏ so
với thành phần màu xanh lá cây. Mô hình cho bởi
công thức xác định điều kiện để một điểm ảnh có
màu là màu da khi và chỉ khi thỏa mãn điều kiện:
85 ≤ Cb ≤ 135, 135 ≤ Cr ≤ 180, Y ≥ 80 (1)
2.2.3.2. Mô hình phát hiện màu da trong không
gian màu HSV
Không gian màu HSV do A.R. Smith đề xuất năm
1978, còn gọi là không gian màu HSB, là một
không gian màu dựa trên ba số liệu: H (Hue): Sắc
thái (0=H=360). S (Saturation): Ðộ bão hòa màu
(0=S=1). B (Brightness) hay V (Value): Ðộ sáng
(0=V=1). Mô hình cho bởi công thức xác định điều
kiện để một điểm ảnh có màu là màu da khi và chỉ
khi thỏa mãn điều kiện:
0<H<50, 0.23<S<0.68, 0≤V≤1 (2)
2.2.3.3. Mô hình phát hiện màu da của tác
giả Kovac
Trong điều kiện chiếu sáng là ánh sáng ban ngày
được cho bởi công thức:
(R>95) và (G>40) và (B>20) và (max{R,G,B})
-min{R,G,B}>15 và (|R-G|>15) và (R>G) và (G>B)
(3)
Trong điều kiện chiếu sáng là ánh sáng đèn thì
cho bởi công thức:
(R>220)và(G>210)và (B>170)và (max{R,G,B}-
min{R,G,B}>15) và (|R-G|B) và (G>B)
(4)
Ðể kết hợp chung hai điều kiện chiếu sáng khác
nhau ta sử dụng phép toán OR.
2.2.3.4. Mô hình phát hiện màu da dựa vào phân
phối histogram
Là mô hình xác định màu da dựa vào phân phối
histogram của các thành phần màu trong không
gian màu RGB và quy tắc phân lớp. Trong mô
hình này sử dụng 14,985,845 skin pixels (điểm
ảnh màu da) và 304,844,751 non-skin pixels
(điểm ảnh không phải màu da) để tạo ra RGB
histogram với kích thước 32*32*32 cho điểm ảnh
da và không da (mỗi thành phần r, g, b được phân
phối vào biểu đồ màu có 32 bins). Với mỗi bin cụ
thể, ta tính log likelihood để phân lớp:
Trong đó H(rgb), h(rgb) tương ứng là số skin pixels
và non-skin pixels có trong bin rgb tương ứng của
biểu đồ màu. Với mỗi điểm ảnh rgb sẽ rơi vào 1
bin trong 32*32*32 bin của mô hình, khi một điểm
ảnh rgb được phân lớp là màu da khi thỏa mãn
công thức (4). Trong nghiên cứu này tác giả sử
dụng file mô hình màu da “skinmodel.bin”(https://
github.com/zhouxc/Adult-WebSite-Classifier)
Tuy nhiên, không có một mô hình phát hiện da
nào là chính xác 100%, các vùng ảnh chứa da
rất “trơn” (không chứa biên của ảnh) và hình
ảnh thuộc lớp “xấu” thường là những hình chứa
những vùng da có kích thước lớn, từ đó tác giả
đề xuất thuật toán cải tiến để phát hiện màu da
của ảnh.
Thuật toán cải tiến:
Input: ảnh input_Image (ảnh đen trắng)
Output: ảnh output_Image (ảnh đen trắng) chứa
màu da được xác định.
Bước 1: Phát hiện da của ảnh input_Image sử
dụng một trong 4 mô hình phát hiện da, thu được
ảnh Skin_Image.
Bước 2: Phát hiện biên của ảnh (sử dụng thuật
toán Canny) thu được ảnh Edges_Image
LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 29
Bước 3: Loại bỏ những điểm ảnh là “da” trên
Skin_Image mà thuộc ảnh Edges_Image thu
được ảnh Skin_Image1.
Bước 4: Sử dụng phép toán hình thái OPEN với
mẫu B đối với ảnh Skin_Image1 để loại bỏ những
liên kết yếu giữa các vùng có màu “da” trong ảnh
Skin_Image1.
Bước 5: Gán nhãn cho từng vùng da trong ảnh
Skin_Image1 và đồng thời loại bỏ những vùng da
nhỏ (≤100 pixels) thu được Skin_Image2.
Bước 6: Sử dụng phép toán hình thái CLOSE
với mẫu B đối với ảnh Skin_Image1 để thu được
ảnh đầu ra là output_Image.
B =
2.2.4. Phân lớp hình ảnh nude
Hình ảnh đồi trụy (nude) thường là những hình
ảnh có tỉ lệ phát hiện “màu da” lớn so với những
hình ảnh bình thường (hình ảnh thuộc lớp “tốt”),
nhân vật trong hình thường nằm vị trí trung tâm
của hình ảnh. Nhân vật trong hình nude thường
là phụ nữ để hở những bộ phận “nhạy cảm”. Mô
hình phân lớp ảnh được đề xuất như hình 1. Trong
hình 1, giá trị 0, 1 để chỉ hình ảnh được phân
tương ứng vào lớp hình ảnh “tốt” và “xấu”. Một
hình có thể phân lớp “sớm” (phân lớp mà không
cần thông qua mô hình SVM để dự đoán) xảy ra
nếu thuộc một trong bốn trường hợp sau:
(i) Phát hiện có xuất hiện hình vòng 1 trong ảnh
thì kết luận ảnh nude (ảnh “xấu”).
(ii) Số khuôn mặt phát hiện trong ảnh ≥3.
(iii) Không thỏa (i) và (ii) và có diện tích khuôn mặt
lớn nhất ≥30% diện tích của ảnh thì ảnh not nude
(ảnh “tốt”).
(iv) Không thỏa (i) và (ii) và (iii) và có SPI (tỉ lệ %
màu da) ≥40 và có tồn tại khuôn mặt thì ảnh nude.
2.2.5. Phát hiện vòng 1
Để giải quyết trường hợp (i) tác giả sử dụng
mô hình cascadebreast1981.xml sử dụng trong
OpenCV phát hiện vòng 1 với nguồn:http://
e n . p ud n . co m /dow n loads180/so ureco de /
windows/detail836282_en.html. Kết quả là vị trí
vòng 1 trong ảnh đầu vào.
2.2.6. Phát hiện khuôn mặt
Mặc dù hình ảnh thuộc lớp “xấu” thường là những
hình ảnh chứa những khuôn mặt ở những tư thế
rất khó phát hiện bởi các thuật toán phát hiện
khuôn mặt. Để phát hiện khuôn mặt trong nghiên
cứu này sử dụng mô hình phát hiện khuôn mặt của
Viola và Jones được tích hợp sẵn trong OpenCV.
Trong mô hình phát hiện khuôn mặt này thường
phát hiện tốt những khuôn mặt chính diện, do
đó việc phát hiện khuôn mặt giải quyết được các
trường hợp (ii), (iii) và (iv).
Hình 1. Mô hình phân lớp hình ảnh
30
NGHIÊN CỨU KHOA HỌC
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
Độ do entropy của biểu đồ màu histogram
Mỗi thành phần R, G, B của mỗi hình ảnh sẽ được
phân phối vào biểu đồ histogram với 32 bin. Giả
sử p1,p2,p32 là các giá trị nguyên tương ứng
với các bin trong biểu đồ màu histogram của mỗi
thành phần x (xϵ{R,G,B}) của hình ảnh. Khi đó
giá trị entropy H(x) của mỗi thành phần được tính
bằng công thức sau:
(5)
2.2.8. Huấn luyện và phân lớp hình ảnh bằng
mô hình SVM
2.2.8.1. Huấn luyện
Cơ sở dữ liệu hình ảnh thu thập tại http://
sourceforge.net/projects/imagecrawler sau đó
tiến hành gán nhãn lớp cho mỗi hình ảnh, mỗi hình
ảnh phân vào một trong hai lớp là lớp hình nude
(hình ảnh có nội dung đồi trụy) và lớp hình not
nude (hình ảnh không chứa nội dung đồi trụy).
Tập hình ảnh này gọi là tập huấn luyện. Trong
nghiên cứu này, tác giả sử dụng 6556 hình ảnh
not nude và 3905 hình ảnh nude làm cơ sở dữ liệu
huấn luyện mô hình SVM. Tiến hành trích chọn
đặc trưng của mỗi hình ảnh (trừ những hình ảnh
được phát hiện sớm là thuộc lớp nào trong 2 lớp
đã định), mỗi hình ảnh được trích chọn gồm 27
đặc trưng biểu diễn thành một vector có 28 chiều
(27 chiều ứng với 27 đặc trưng và chiều thứ 28
là nhãn lớp tương ứng). Kết thúc quá trình trích
chọn đặc trưng thu được một cơ sở dữ liệu lưu
trữ vector đặc trưng của tập dữ liệu hình ảnh huấn
luyện. Sau đó tiến hành huấn luyện mô hình SVM
(sử dụng thư viện libsvm link:
edu.tw/~cjlin/libsvm/ để cài đặt).
2.2.8.2. Phân lớp
Kết quả của quá trình huấn luyện ta thu được mô
hình SVM. Để phân lớp một hình ảnh mới (chưa
có trong tập huấn luyện), tiến hành trích chọn
vector đặc trưng của hình ảnh và áp vào mô hình
SVM đã huấn luyện để phân lớp hình ảnh.
2.3. Phân lớp văn bản
2.3.1. Phương pháp Naïve Bayes
Phân loại Naïve Bayes đơn giản là phương pháp
phân loại sử dụng tri thức các xác suất đã qua
huấn luyện. Phương pháp này thích hợp với
những lớp bài toán đòi hỏi phải dự đoán chính xác
lớp của mẫu cần kiểm tra dựa trên những thông
tin từ tập huấn luyện ban đầu [5].
2.2.7. Trích chọn đặc trưng
Tỉ lệ phần trăm màu da (kí hiệu SPI): Sự khác biệt
lớn nhất giữa hình nude và hình not nude ta nhận
thấy đó hình nude có số lượng điểm ảnh có màu
da chiếm một tỉ lệ lớn so với kích thước bức ảnh,
trong khi đó hình ảnh bình thường (not nude) đa
phần là những hình ảnh có tỉ lệ màu da nhỏ (trừ
một số trường hợp ảnh bình thường có tỉ lệ điểm
ảnh có màu da lớn như: ảnh khuôn mặt chụp cận
cảnh, ảnh phụ nữ mặc bikini, hoặc là ảnh của các
vật chất khác (không phải da người) nhưng có
màu sắc giống da người).
Tỉ lệ phần trăm vùng da lớn nhất (kí hiệu SPR0):
Tỉ phần phần trăm của vùng da lớn nhất sẽ đóng
vai trò quan trọng trong trường hợp phân biệt sự
khác nhau giữa những bức ảnh có tỉ lệ phần trăm
màu da xấp xỉ nhau.
Số lượng vùng da (kí hiệu NSR): Sau khi áp dụng
thuật toán phân khúc màu da, thực hiện loại bỏ đi
những vùng da có kích thước nhỏ (≤100 pixels),
những vùng da nhỏ thường gây nhiễu và không
có ý nghĩa trong phân lớp, do đó chỉ đếm những
vùng da có kích thước lớn.
Tỉ lệ phần trăm da của 16 vùng da: Các hình ảnh
nude đa phần những nhân vật nằm trung tâm bức
ảnh, các vùng da phát hiện thường phân bố liền
nhau và có xu hướng các vùng có màu da phân
bố theo một hướng kéo dài, trong khi đó những
hình ảnh bình thường nếu có nhiều vùng da thì
các vùng da này thường phân bố rời rạc không
liên tục nhau. Vì vậy, một hình ảnh sau khi phát
hiện màu da xong có kích thước 256*256 sẽ phân
chia thành 16 vùng (4*4 vùng) để tính tỉ lệ màu da
của 16 vùng da tương ứng của ảnh (kí hiệu SPRi
(i = 1, 2,, 16)).
Trung bình và độ lệch của các thành phần màu
R, G, B
Từ các mô hình nhận dạng màu da, chúng ta nhận
thấy rằng các điểm ảnh có màu sắc giống màu
da khi các thành phần màu trong không gian màu
tương ứng nằm trong một phạm vi nhất định. Do
đó, những hình ảnh có chứa số lượng điểm ảnh
có màu sắc giống màu da nhiều thì giá trị trung
bình của các điểm ảnh theo từng kênh màu cũng
sẽ rơi vào một ngưỡng nhất định. Độ lệch chuẩn
sẽ có giá trị trong việc phân lớp là những hình
nude thường ít có sự thay đổi màu sắc đột ngột,
do đó giá trị độ lệch chuẩn sẽ thấp và ngược lại.
LIÊ