Phân loại web đồi trụy dựa vào văn bản và hình ảnh - Tài liệu, ebook, giáo trình, hướng dẫn

Tóm tắt Nghiên cứu này tiếp cận theo phương pháp máy học để từ đó có thể phát hiện tự động những website chứa hình ảnh khiêu dâm và văn bản có nội dung đồi trụy. Cụ thể, sử dụng giải thuật SVM để phân lớp hình ảnh dựa vào phân loại màu da cải tiến và Naïve Bayes để phân lớp văn bản. Kết quả cho thấy mô hình đề xuất có độ chính xác phân lớp cao hơn một số phương pháp đã công bố.

9 trang | Chia sẻ: thanhle95 | Lượt xem: 886 | Lượt tải: 2

Bạn đang xem nội dung tài liệu Phân loại web đồi trụy dựa vào văn bản và hình ảnh, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

26 NGHIÊN CỨU KHOA HỌC Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 Phân loại web đồi trụy dựa vào văn bản và hình ảnh Pornographic web classification based on text and images Phạm Thị Hường 1 , Nguyễn Văn Thanh 2 Email: [email protected] 1 Trường Đại học Sao Đỏ 2 Trường THPT Châu Thành Ngày nhận bài: 15/6/2018 Ngày nhận bài sửa sau phản biện: 23/11/2018 Ngày chấp nhận đăng: 27/12/2018 Tóm tắt Nghiên cứu này tiếp cận theo phương pháp máy học để từ đó có thể phát hiện tự động những website chứa hình ảnh khiêu dâm và văn bản có nội dung đồi trụy. Cụ thể, sử dụng giải thuật SVM để phân lớp hình ảnh dựa vào phân loại màu da cải tiến và Naïve Bayes để phân lớp văn bản. Kết quả cho thấy mô hình đề xuất có độ chính xác phân lớp cao hơn một số phương pháp đã công bố. Từ khóa: Máy vector hỗ trợ; phân lớp văn bản; phân lớp hình ảnh; Naïve Bayes; phân loại web. Abstract This study approaches a machine learning method to automatically detect websites containing pornographic images and texts. Specifically, SVM is used to image classify based on the improved skin color classification, and Naïve Bayes is used to text classify. The results show that the proposed model has higher classification accuracy than some published methods. Keywords: Support vector machine; text classification; image classification; Naïve Bayes; web classification. 1. GIỚI THIỆU Người phản biện: 1. GS.TSKH. Thân Ngọc Hoàn 2. TS. Đặng Hồng Hải Thực tế hiện nay, số lượng thanh thiếu niên suy đồi đạo đức cũng như phạm tội ngày càng tăng cao. Một trong những nguyên nhân đó là do ảnh hưởng từ những thông tin không lành mạnh tràn lan trên internet, lượng lớn thông tin đó chưa được phân loại hay kiểm soát để giúp người sử dụng tránh truy cập những thông tin xấu. Nghiên cứu về phân loại web đồi trụy ở trong nước cũng như trên thế giới đã có những kết quả cụ thể và ứng dụng trong thực tế: công cụ chặn website khiêu dâm của nước ngoài như STOP P-O-R-N của PB Software LLC, Media Detective; CyberSitter của Solid Oak Software; iShield và ScreenShield Enterprise của Guardware,... Trong nước có công cụ chặn web đen Killporn của tác giả Nguyễn Hữu Bình, VwebFilter (VWF), Depraved Web Killer (DWK) của tác giả Vũ Lương Bằng, MiniFireWall 4.0 (MFW) của tác giả Huỳnh Ngọc Ẩn [11]. Theo hướng tiếp cận máy học về phân loại web đồi trụy đã có một số nghiên cứu trên thế giới. Theo [12], tác giả sử dụng SVM để phân tích ngữ nghĩa nhằm tìm mối quan hệ ngữ nghĩa giữa các từ khóa và giữa các tài liệu web, sau đó mô hình hóa chúng dạng vector nhằm phân lớp văn bản, sử dụng phân tích ngữ nghĩa tiềm ẩn (LSA) và đặc trưng trang web (WPFS) để trích chọn các đặc trưng ngữ nghĩa và văn bản. Kết quả phân lớp có giá trị TP trung bình cho hai phương pháp là 96,5%, chưa phân lớp hình ảnh trong trang web. Theo [13], tác giả đưa ra phương pháp phát hiện nội dung web khiêu dâm sử dụng TF-IDF tính trọng số của một từ hoặc nhóm từ để thống kê mức độ quan trọng của chúng trong một văn bản tiếng Anh và tiếng Nga. Kết quả phân loại tiếng Anh sử dụng Naïve Bayes có độ chính xác phân lớp trung bình 92,9%, thời gian trích chọn đặc trưng cho mỗi tài liệu tiếng Anh khá lớn (2,7 giây). Theo [14], tác giả sử dụng SVM với đặc trưng dựa trên thống kê về kết cấu và màu sắc của một hình ảnh, tính score để xác định hình ảnh có phải khiêu dâm trẻ em không, sử dụng các visual words cùng tăng cường màu sắc DCT để biểu diễn hình ảnh, kết quả có tỷ lệ lỗi trong phạm vi 11-24%. Theo [15], tác giả sử dụng trí tuệ nhóm trong nhật ký click qua công cụ tìm kiếm dựa trên ý tưởng “Hành vi nhấp chuột trên các trang khiêu dâm phản ánh ý định tìm kiếm khiêu dâm của người dùng” và những người dùng khác nhau thường sử dụng các truy vấn như nhau LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 27 để tìm nội dung khiêu dâm trên web. Từ đó, tập hợp số lượng các nhấp chuột của người dùng và mối tương quan giữa các truy vấn hay URL để đề xuất phương pháp truyền bá nhãn trên đồ thị lưỡng phân có trọng số, điều này làm cơ sở xác định một trang web có nội dung khiêu dâm hay không. Tác giả sử dụng phân loại văn bản bằng cả SVM và Naïve Bayes bổ sung đặc trưng là điểm khiêu dâm (pornography score – PS) để làm tăng hiệu quả tìm kiếm. Kết quả cài đặt trên ngôn ngữ tiếng Anh và tiếng Trung có giá trị TP tương ứng là 91% và 94%. Theo [16], tác giả sử dụng SVM để phân loại văn bản và hình ảnh trong web. Cụ thể, sử dụng đặc trưng màu da để phát hiện hình ảnh khiêu dâm và tần suất các thuật ngữ khiêu dâm so với tổng số văn bản, khoảng thời gian và mức độ của các thuật ngữ khiêu dâm. Kết quả thử nghiệm cho độ chính xác phân loại văn bản là 95,8% và độ chính xác phân loại hình ảnh là 84%. Ngoài ra, độ chính xác của phân loại trang web sau khi hợp nhất thành một bộ lọc gồm cả văn bản và hình ảnh là 91,8%. Theo [17], tác giả đưa ra phương pháp lọc web thông thường, dựa trên phân lớp văn bản sử dụng URL. Phương pháp này chỉ yêu cầu các tập huấn luyện cho lớp tốt và do đó không phải xây dựng và duy trì tập huấn luyện lớp xấu. Tuy nhiên, chưa phân lớp được hình ảnh, phân lớp văn bản mới chỉ dựa trên URL mà không dựa vào nội dung, việc không quan tâm đến huấn luyện lớp xấu cũng là hạn chế cho phân lớp web đồi trụy vốn cần quan tâm lớp xấu để chặn. Theo [18], tác giả trích chọn đặc trưng là vùng da từ ảnh và tìm mối tương quan giữa vùng đó là da hay không phải da, sử dụng SVM để xác định xem một hình ảnh có là ảnh khiêu dâm hay không. Kết quả thực nghiệm cho độ chính xác 75%. Theo [19], tác giả đề xuất mô hình phân loại dựa trên kỹ thuật học sâu. Việc trích chọn đặc trưng và phân loại bằng mạng nơron tích chập nhiều lớp làm cho việc tạo các đặc trưng và bộ phân loại không phải thực hiện thủ công. Cụ thể, nghiên cứu tập trung vào tín hiệu thị giác là hình thức khiêu dâm nổi bật nhất và hệ thống học sâu tự động phân tích hình ảnh (và khung hình video) trước khi phân loại nội dung là bình thường hay khiêu dâm. Kết quả thực nghiệm đạt tỷ lệ phân loại trên 94%. Tại Việt Nam, theo [3], tác giả sử dụng SVM để phân lớp nội dung văn bản trong trang web. Thực nghiệm được tiến hành trên bộ dữ liệu mẫu 20-newsgroups (là bộ dữ liệu dành cho các thí nghiệm trong các ứng dụng phân lớp văn bản) với độ chính xác trung bình 94%, chưa phân lớp hình ảnh. Về phân lớp web chứa cả hình ảnh và nội dung văn bản, theo [4], sử dụng thuật toán SVM để phân lớp văn bản và hình ảnh. Cụ thể, tác giả biểu diễn ảnh bằng đặc trưng SIFT và dùng mô hình bag of words (BoW) để thực hiện kết tập các đặc trưng cục bộ SIFT đó. Với phân loại văn bản, tác giả chọn các đặc trưng để phân loại là ngưỡng tần suất văn bản (Document Frequency thresholding –DF). Theo cách tiếp cận này, việc đếm số lượng văn bản có chứa từ cấm đơn giản nhưng độ chính xác chưa cao (93,65%) và phân lớp hình ảnh dựa vào đặc trưng SIFL có độ chính xác 76,3255%. Đa phần những công cụ cung cấp bởi các nhà phát triển nước ngoài đều phải trả phí, một số nghiên cứu phân loại web chỉ dựa trên từ khóa, URL, chưa phân loại cả văn bản và hình ảnh, một số hạn chế về thời gian phân lớp hay độ chính xác, Một số công cụ trong nước nhưng chưa được sử dụng rộng rãi và còn một số hạn chế như: DWK, VFW chặn website dựa vào những từ khóa thông dụng có trong nội dung trang web hoặc chặn những URL cụ thể, điều này có thể dẫn đến là phần mềm chặn nhầm website bởi thực tế địa chỉ của một số website có nội dung khiêu dâm thường thay đổi. Mặt khác, người dùng không thể liệt kê ra hết những từ khóa và địa chỉ website cần cấm truy cập. Nghiên cứu này tiếp cận theo phương pháp máy học để phát hiện tự động những website chứa hình ảnh khiêu dâm bằng kỹ thuật SVM và website chứa văn bản có nội dung đồi trụy bằng giải thuật Naïve Bayes. Kết quả nghiên cứu cho thấy hiệu quả của đề xuất. 2. NỘI DUNG NGHIÊN CỨU 2.1. Bài toán phân lớp dữ liệu web Phân lớp dữ liệu là xếp đối tượng dữ liệu vào một trong các lớp đã xác định trước. Phân lớp dữ liệu gồm hai bước là xây dựng mô hình và vận hành mô hình. Cho sẵn một tập dữ liệu các trang web được gán nhãn là web đồi trụy hay bình thường gọi tắt là lớp xấu và lớp tốt, cần một phương pháp huấn luyện để xây dựng một mô hình phân lớp từ tập dữ liệu mẫu đó, sau đó dùng mô hình này dự đoán lớp của những trang web mới chưa biết nhãn. 2.2. Phân lớp hình ảnh trong web 2.2.1. Giải thuật SVM Cho trước một tập huấn luyện được biểu diễn trong không gian vector, phương pháp này tìm ra một siêu phẳng quyết định tốt nhất có thể để chia các điểm trong không gian này thành hai lớp riêng biệt. Phương pháp này yêu cầu dữ liệu được diễn tả như các vector của số thực [5]. 28 NGHIÊN CỨU KHOA HỌC Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 2.2.2. Huấn luyện SVM Huấn luyện SVM thực chất là việc giải bài toán quy hoạch toàn phương, yêu cầu phải lưu một ma trận có kích thước bằng bình phương số lượng mẫu huấn luyện. Trong thực tế, điều này là không khả thi vì thông thường số lượng mẫu huấn luyện lớn. Có nhiều thuật toán được phát triển để giải quyết bài toán trên. Những thuật toán này dựa trên việc phân rã tập huấn luyện thành những nhóm dữ liệu nhỏ hơn, nghĩa là thay vì giải bài toán toàn phương có kích thước lớn thì đi giải những bài toán toàn phương có kích nhỏ hơn. Sau đó, những thuật toán này kiểm tra điều kiện để xác định phương án tối ưu. Một trong những thuật toán dùng để giải bài toán toàn phương là Sequential Minimal Optimization – SMO do Platt đưa ra năm 1999. 2.2.3. Phân đoạn màu da Phát hiện da là một bước quan trọng đầu tiên trong việc phát hiện ảnh, được sử dụng làm cơ sở cho việc phát hiện hình ảnh có nội dung đồi trụy. Mục tiêu của phát hiện màu da là xây dựng một bộ quy tắc quyết định sẽ phân biệt màu của một điểm ảnh (pixel) là màu da (skin color) hay là không phải da (non-skin color) dựa trên các thành phần màu sắc. 2.2.3.1. Mô hình phát hiện màu da trong không gian màu YcrCb Không gian màu YcbCr được biểu diễn bằng ba giá trị. Thành phần Y đại diện cho cường độ của ánh sáng. Hai thành phần Cb và Cr cho biết cường độ của các thành phần màu xanh và đỏ so với thành phần màu xanh lá cây. Mô hình cho bởi công thức xác định điều kiện để một điểm ảnh có màu là màu da khi và chỉ khi thỏa mãn điều kiện: 85 ≤ Cb ≤ 135, 135 ≤ Cr ≤ 180, Y ≥ 80 (1) 2.2.3.2. Mô hình phát hiện màu da trong không gian màu HSV Không gian màu HSV do A.R. Smith đề xuất năm 1978, còn gọi là không gian màu HSB, là một không gian màu dựa trên ba số liệu: H (Hue): Sắc thái (0=H=360). S (Saturation): Ðộ bão hòa màu (0=S=1). B (Brightness) hay V (Value): Ðộ sáng (0=V=1). Mô hình cho bởi công thức xác định điều kiện để một điểm ảnh có màu là màu da khi và chỉ khi thỏa mãn điều kiện: 0<H<50, 0.23<S<0.68, 0≤V≤1 (2) 2.2.3.3. Mô hình phát hiện màu da của tác giả Kovac Trong điều kiện chiếu sáng là ánh sáng ban ngày được cho bởi công thức: (R>95) và (G>40) và (B>20) và (max{R,G,B}) -min{R,G,B}>15 và (|R-G|>15) và (R>G) và (G>B) (3) Trong điều kiện chiếu sáng là ánh sáng đèn thì cho bởi công thức: (R>220)và(G>210)và (B>170)và (max{R,G,B}- min{R,G,B}>15) và (|R-G|B) và (G>B) (4) Ðể kết hợp chung hai điều kiện chiếu sáng khác nhau ta sử dụng phép toán OR. 2.2.3.4. Mô hình phát hiện màu da dựa vào phân phối histogram Là mô hình xác định màu da dựa vào phân phối histogram của các thành phần màu trong không gian màu RGB và quy tắc phân lớp. Trong mô hình này sử dụng 14,985,845 skin pixels (điểm ảnh màu da) và 304,844,751 non-skin pixels (điểm ảnh không phải màu da) để tạo ra RGB histogram với kích thước 32*32*32 cho điểm ảnh da và không da (mỗi thành phần r, g, b được phân phối vào biểu đồ màu có 32 bins). Với mỗi bin cụ thể, ta tính log likelihood để phân lớp: Trong đó H(rgb), h(rgb) tương ứng là số skin pixels và non-skin pixels có trong bin rgb tương ứng của biểu đồ màu. Với mỗi điểm ảnh rgb sẽ rơi vào 1 bin trong 32*32*32 bin của mô hình, khi một điểm ảnh rgb được phân lớp là màu da khi thỏa mãn công thức (4). Trong nghiên cứu này tác giả sử dụng file mô hình màu da “skinmodel.bin”(https:// github.com/zhouxc/Adult-WebSite-Classifier) Tuy nhiên, không có một mô hình phát hiện da nào là chính xác 100%, các vùng ảnh chứa da rất “trơn” (không chứa biên của ảnh) và hình ảnh thuộc lớp “xấu” thường là những hình chứa những vùng da có kích thước lớn, từ đó tác giả đề xuất thuật toán cải tiến để phát hiện màu da của ảnh. Thuật toán cải tiến: Input: ảnh input_Image (ảnh đen trắng) Output: ảnh output_Image (ảnh đen trắng) chứa màu da được xác định. Bước 1: Phát hiện da của ảnh input_Image sử dụng một trong 4 mô hình phát hiện da, thu được ảnh Skin_Image. Bước 2: Phát hiện biên của ảnh (sử dụng thuật toán Canny) thu được ảnh Edges_Image LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 29 Bước 3: Loại bỏ những điểm ảnh là “da” trên Skin_Image mà thuộc ảnh Edges_Image thu được ảnh Skin_Image1. Bước 4: Sử dụng phép toán hình thái OPEN với mẫu B đối với ảnh Skin_Image1 để loại bỏ những liên kết yếu giữa các vùng có màu “da” trong ảnh Skin_Image1. Bước 5: Gán nhãn cho từng vùng da trong ảnh Skin_Image1 và đồng thời loại bỏ những vùng da nhỏ (≤100 pixels) thu được Skin_Image2. Bước 6: Sử dụng phép toán hình thái CLOSE với mẫu B đối với ảnh Skin_Image1 để thu được ảnh đầu ra là output_Image. B = 2.2.4. Phân lớp hình ảnh nude Hình ảnh đồi trụy (nude) thường là những hình ảnh có tỉ lệ phát hiện “màu da” lớn so với những hình ảnh bình thường (hình ảnh thuộc lớp “tốt”), nhân vật trong hình thường nằm vị trí trung tâm của hình ảnh. Nhân vật trong hình nude thường là phụ nữ để hở những bộ phận “nhạy cảm”. Mô hình phân lớp ảnh được đề xuất như hình 1. Trong hình 1, giá trị 0, 1 để chỉ hình ảnh được phân tương ứng vào lớp hình ảnh “tốt” và “xấu”. Một hình có thể phân lớp “sớm” (phân lớp mà không cần thông qua mô hình SVM để dự đoán) xảy ra nếu thuộc một trong bốn trường hợp sau: (i) Phát hiện có xuất hiện hình vòng 1 trong ảnh thì kết luận ảnh nude (ảnh “xấu”). (ii) Số khuôn mặt phát hiện trong ảnh ≥3. (iii) Không thỏa (i) và (ii) và có diện tích khuôn mặt lớn nhất ≥30% diện tích của ảnh thì ảnh not nude (ảnh “tốt”). (iv) Không thỏa (i) và (ii) và (iii) và có SPI (tỉ lệ % màu da) ≥40 và có tồn tại khuôn mặt thì ảnh nude. 2.2.5. Phát hiện vòng 1 Để giải quyết trường hợp (i) tác giả sử dụng mô hình cascadebreast1981.xml sử dụng trong OpenCV phát hiện vòng 1 với nguồn:http:// e n . p ud n . co m /dow n loads180/so ureco de / windows/detail836282_en.html. Kết quả là vị trí vòng 1 trong ảnh đầu vào. 2.2.6. Phát hiện khuôn mặt Mặc dù hình ảnh thuộc lớp “xấu” thường là những hình ảnh chứa những khuôn mặt ở những tư thế rất khó phát hiện bởi các thuật toán phát hiện khuôn mặt. Để phát hiện khuôn mặt trong nghiên cứu này sử dụng mô hình phát hiện khuôn mặt của Viola và Jones được tích hợp sẵn trong OpenCV. Trong mô hình phát hiện khuôn mặt này thường phát hiện tốt những khuôn mặt chính diện, do đó việc phát hiện khuôn mặt giải quyết được các trường hợp (ii), (iii) và (iv). Hình 1. Mô hình phân lớp hình ảnh 30 NGHIÊN CỨU KHOA HỌC Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 Độ do entropy của biểu đồ màu histogram Mỗi thành phần R, G, B của mỗi hình ảnh sẽ được phân phối vào biểu đồ histogram với 32 bin. Giả sử p1,p2,p32 là các giá trị nguyên tương ứng với các bin trong biểu đồ màu histogram của mỗi thành phần x (xϵ{R,G,B}) của hình ảnh. Khi đó giá trị entropy H(x) của mỗi thành phần được tính bằng công thức sau: (5) 2.2.8. Huấn luyện và phân lớp hình ảnh bằng mô hình SVM 2.2.8.1. Huấn luyện Cơ sở dữ liệu hình ảnh thu thập tại http:// sourceforge.net/projects/imagecrawler sau đó tiến hành gán nhãn lớp cho mỗi hình ảnh, mỗi hình ảnh phân vào một trong hai lớp là lớp hình nude (hình ảnh có nội dung đồi trụy) và lớp hình not nude (hình ảnh không chứa nội dung đồi trụy). Tập hình ảnh này gọi là tập huấn luyện. Trong nghiên cứu này, tác giả sử dụng 6556 hình ảnh not nude và 3905 hình ảnh nude làm cơ sở dữ liệu huấn luyện mô hình SVM. Tiến hành trích chọn đặc trưng của mỗi hình ảnh (trừ những hình ảnh được phát hiện sớm là thuộc lớp nào trong 2 lớp đã định), mỗi hình ảnh được trích chọn gồm 27 đặc trưng biểu diễn thành một vector có 28 chiều (27 chiều ứng với 27 đặc trưng và chiều thứ 28 là nhãn lớp tương ứng). Kết thúc quá trình trích chọn đặc trưng thu được một cơ sở dữ liệu lưu trữ vector đặc trưng của tập dữ liệu hình ảnh huấn luyện. Sau đó tiến hành huấn luyện mô hình SVM (sử dụng thư viện libsvm link: edu.tw/~cjlin/libsvm/ để cài đặt). 2.2.8.2. Phân lớp Kết quả của quá trình huấn luyện ta thu được mô hình SVM. Để phân lớp một hình ảnh mới (chưa có trong tập huấn luyện), tiến hành trích chọn vector đặc trưng của hình ảnh và áp vào mô hình SVM đã huấn luyện để phân lớp hình ảnh. 2.3. Phân lớp văn bản 2.3.1. Phương pháp Naïve Bayes Phân loại Naïve Bayes đơn giản là phương pháp phân loại sử dụng tri thức các xác suất đã qua huấn luyện. Phương pháp này thích hợp với những lớp bài toán đòi hỏi phải dự đoán chính xác lớp của mẫu cần kiểm tra dựa trên những thông tin từ tập huấn luyện ban đầu [5]. 2.2.7. Trích chọn đặc trưng Tỉ lệ phần trăm màu da (kí hiệu SPI): Sự khác biệt lớn nhất giữa hình nude và hình not nude ta nhận thấy đó hình nude có số lượng điểm ảnh có màu da chiếm một tỉ lệ lớn so với kích thước bức ảnh, trong khi đó hình ảnh bình thường (not nude) đa phần là những hình ảnh có tỉ lệ màu da nhỏ (trừ một số trường hợp ảnh bình thường có tỉ lệ điểm ảnh có màu da lớn như: ảnh khuôn mặt chụp cận cảnh, ảnh phụ nữ mặc bikini, hoặc là ảnh của các vật chất khác (không phải da người) nhưng có màu sắc giống da người). Tỉ lệ phần trăm vùng da lớn nhất (kí hiệu SPR0): Tỉ phần phần trăm của vùng da lớn nhất sẽ đóng vai trò quan trọng trong trường hợp phân biệt sự khác nhau giữa những bức ảnh có tỉ lệ phần trăm màu da xấp xỉ nhau. Số lượng vùng da (kí hiệu NSR): Sau khi áp dụng thuật toán phân khúc màu da, thực hiện loại bỏ đi những vùng da có kích thước nhỏ (≤100 pixels), những vùng da nhỏ thường gây nhiễu và không có ý nghĩa trong phân lớp, do đó chỉ đếm những vùng da có kích thước lớn. Tỉ lệ phần trăm da của 16 vùng da: Các hình ảnh nude đa phần những nhân vật nằm trung tâm bức ảnh, các vùng da phát hiện thường phân bố liền nhau và có xu hướng các vùng có màu da phân bố theo một hướng kéo dài, trong khi đó những hình ảnh bình thường nếu có nhiều vùng da thì các vùng da này thường phân bố rời rạc không liên tục nhau. Vì vậy, một hình ảnh sau khi phát hiện màu da xong có kích thước 256*256 sẽ phân chia thành 16 vùng (4*4 vùng) để tính tỉ lệ màu da của 16 vùng da tương ứng của ảnh (kí hiệu SPRi (i = 1, 2,, 16)). Trung bình và độ lệch của các thành phần màu R, G, B Từ các mô hình nhận dạng màu da, chúng ta nhận thấy rằng các điểm ảnh có màu sắc giống màu da khi các thành phần màu trong không gian màu tương ứng nằm trong một phạm vi nhất định. Do đó, những hình ảnh có chứa số lượng điểm ảnh có màu sắc giống màu da nhiều thì giá trị trung bình của các điểm ảnh theo từng kênh màu cũng sẽ rơi vào một ngưỡng nhất định. Độ lệch chuẩn sẽ có giá trị trong việc phân lớp là những hình nude thường ít có sự thay đổi màu sắc đột ngột, do đó giá trị độ lệch chuẩn sẽ thấp và ngược lại. LIÊ