Bài giảng môn học nhận dạng và xử lý ảnh - Tài liệu, ebook, giáo trình, hướng dẫn

16 trang | Chia sẻ: maiphuongtl | Lượt xem: 3230 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Bài giảng môn học nhận dạng và xử lý ảnh, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

BÀI 1 TỔNG QUAN VỀ XỬ LÝ ẢNH 1. Giới thiệu chung Nhận dạng và xử lý ảnh là một trong những lĩnh vực có nhiều ứng dụng trong thực tiễn như: hệ thông tin địa lý (GIS – Geographic Information System), quân sự, y học. Cụ thể, xử lý ảnh số có rất nhiều ứng dụng như: Làm nổi các ảnh trong y học. Khôi phục lại ảnh do tác động của khí quyển trong thiên văn học. Chuyển tải, nén ảnh khi truyền đi xa hoặc lưu trữ. 2. Các giai đoạn của quá trình xử lý ảnh - Nhận dạng và Xử lý ảnh bao gồm 2 giai đoạn chính: Giai đoạn biến đổi ảnh (Image Transformation) hay làm đẹp ảnh (Image Enhancement): trong giai đoạn này, ảnh của đối tượng trong tự nhiên được thu lại thành ảnh số (số hóa để lưu trữ và xử lý trong máy tính). Sau đó ảnh được biến đổi để nâng cao chất lượng ảnh nhằm thu được nhiều thông tin hơn, có thể quan sát bằng mắt. Giai đoạn nhận dạng mẫu (Patten Recognition): hệ thống sẽ xử lý để đưa ra các đặc trưng của ảnh hay các đối tượng trong ảnh. Sau đó hệ thống sẽ đánh giá nội dung ảnh hoặc nhận biết các mẫu trong ảnh. 3. Một số khái niêm liên quan 3.1. Phần tử ảnh - Ảnh trong tự nhiên là những tín hiệu liên tục về không gian và giá trị độ sáng. Để có thể lưu trữ và biểu diễn ảnh bằng máy tính, con người phải tiến hành biến đổi các tín hiệu liên tục đó thành một số hữu hạn các tín hiệu rời rạc thông quá quá trình lượng tử hóa và lấy mẫu thành phần giá trị độ sáng. - Một phần tử ảnh (Picture Element) là một giá trị biểu diễn cho mức xám hay cường độ ảnh tại một vị trí sau khi đã biến đổi ảnh thành một số hữu hạn các tín hiệu rời rạc. 3.2. Mức xám - Là kết quả của sự biến đổi tương ứng giá trị độ sáng của một điểm ảnh với một giá trị số nguyên dương. Tùy thuộc vào số giá trị biểu diễn mức xám mà mỗi điểm ảnh sẽ được biểu diễn trên 1, 4, 8, 24 hay 32 bit. Số lượng bit biểu diễn mức xám càng lớn thì chất lượng ảnh càng cao nhưng sẽ tốn dung lượng bộ nhớ nhiều hơn để lưu trữ và cần một hệ thống mạnh hơn để xử lý. 3.3. Ảnh - Là một tập hợp hữu hạn các điểm ảnh kề nhau. Ảnh thường được biểu diễn bằng một ma trận hai chiều, mỗi phần tử của ma trận tương ứng với một điểm ảnh. - Ảnh nhị phân (đen trắng): là ảnh có giá trị mức xám của các điểm ảnh được biểu diễn bằng 1 bit (giá trị 0 hoặc 1). Ví dụ về biểu diễn ảnh nhị phân: 0 1 1 0 1 1 1 0 0 0 1 1 0 1 1 1 - Ảnh xám: giá trị mức xám của các điểm ảnh được biểu diễn bằng 8 bit (giá trị từ 0 đến 255). Ví dụ về biểu diễn ảnh xám: 0 5 12 0 15 94 21 0 0 0 156 9 0 11 245 12 - Ảnh màu: thông thường, ảnh màu được tạo nên từ 3 ảnh xám đối với màu nền đỏ (RED), xanh lá cây (GREEN), xanh lam (BLUE). Tất cả các màu trong tự nhiêu đều có thể được tổng hợp từ 3 thành phần màu trên theo các tỷ lệ khác nhau. Ví dụ về biểu diễn ảnh màu: Ma trận biểu diễn mức xám của thành phần RED: 0 7 11 0 115 94 20 0 0 0 15 16 0 11 225 12 Ma trận biểu diễn mức xám của thành phần GREEN: 0 1 121 0 14 9 210 0 0 0 115 16 0 11 22 2 Ma trận biểu diễn mức xám của thành phần BLUE: 0 17 21 0 135 93 50 0 0 0 15 67 0 11 25 19 4. Một số định dạng ảnh hiện nay 4.1. Ảnh BMP (Bitmap) - Là ảnh được mô tả bởi một ma trận các giá trị số xác định màu và bảng màu của các điểm ảnh tương ứng khi hiển thị. Ưu điểm của ảnh Bitmap là tốc độ vẽ và tốc độ xử lý nhanh. Nhược điểm của nó là kích thước rất lớn. 4.2. Ảnh JPEG (Joint Photographic Experts Group) - Đây là một định dạng ảnh được hỗ trợ bởi nhiều trình duyệt web. Ảnh JPEG được phát triển để nén dung lượng và lưu trữ ảnh chụp, và được sử dụng tốt nhất cho đồ họa có nhiều màu sắc, ví dụ như là ảnh chụp được scan. File Ảnh JPEG là ảnh Bitmap đã được nén lại. 4.3. Ảnh GIF (Graphics Interchange Format) - Ảnh GIF được phát triển dành cho những ảnh có tính chất thay đổi. Nó được sử dụng tốt nhất cho đồ họa có ít màu, ví dụ như là ảnh hoạt hình hoặc là những bức vẽ với nhiều đường thẳng. File ảnh GIF là những ảnh Bitmap được nén lại. - Có hai sự khác nhau cơ bản giữa ảnh GIF và ảnh JPEG: + Ảnh GIF nén lại theo cách giữ nguyên toàn bộ dữ liệu ảnh trong khi ảnh JPEG nén lại nhưng làm mất một số dữ liệu trong ảnh. + Ảnh GIF bị giới hạn bởi số màu nhiều nhất là 256 trong khi ảnh JPEG không giới hạn số màu mà chúng sử dụng. 4.4. Ảnh WMF (Windows Metafiles) - Là một tập hợp các lệnh GDI dùng để mô tả ảnh và nội dung ảnh. Có hai ưu điểm khi sử dụng ảnh WMF: kích thước file WMF nhỏ và ít phụ thuộc vào thiết bị hiển thị hơn so với ảnh Bitmap. BÀI 2 XỬ LÝ ẢNH NHỊ PHÂN 1. Lý thuyết về ảnh nhị phân 1.1. Khái niệm - Một ảnh được xem là ảnh nhị phân (ảnh đen trắng) nếu các điểm ảnh của nó chỉ nhận giá trị là 0 hoặc 1 (tương ứng với màu đen hoặc trắng). Do mỗi giá trị điểm ảnh được biểu diễn bằng 1 bit nên kích thước file ảnh rất nhỏ. - Ta ký hiệu: J là tập các điểm ảnh có giá trị bằng 1 J┴ là tập hợp các điểm ảnh có giá trị 0 (điểm nền). 1.2. Kỹ thuật phân ngưỡng - Dùng để chuyển đổi ảnh đa cấp xám sang ảnh nhị phân - Với một giá trị θ cho trước, giá trị của điểm ảnh sẽ được gán bằng 1 nếu mức xám của nó >= θ, gán bằng 0 nếu mức xám < θ. - Kỹ thuật này làm cho tính chất màu liên tục của ảnh bị gián đoạn nhưng có hiệu quả trong việc thể hiện các loại ảnh có đường nét như văn bản, vân tay… - Cài đặt: + Dữ liệu vào: ma trận I kích thước mxn biểu diễn mức xám của các điểm ảnh. Giá trị ngưỡng θ. + Dữ liệu ra: ma trận I đã được biến đổi mức xám. + Mô tả thuật toán: for x=1 to m for y=1 to n if I(x,y)>=θ then I(x,y)=1 else I(x,y)=0 - Ví dụ: Ảnh gốc θ=9 Ảnh đầu ra 0 8 5 0 0 0 9 2 30 1 0 1 8 12 40 0 1 1 1.3. Kỹ thuật Dithering - Sử dụng một ma trận cùng kích thước cho trước để biến đổi ảnh. - Nếu giá trị mức xám của điểm ảnh gốc lớn hơn giá trị của phần tử tương ứng trong ma trận Dithering thì mức xám đầu ra sẽ được gán bằng 1 và ngược lại. - Cài đặt: + Dữ liệu vào: ma trận I kích thước [mxn] biểu diễn mức xám của các điểm ảnh. Ma trận Dithering kích thước [mxn]. + Dữ liệu ra: ma trận I đã được biến đổi mức xám. + Mô tả thuật toán: for x=1 to m for y=1 to n if I(x,y)> Dithering(x,y) then I(x,y)=1 else I(x,y)=0 - Ví dụ Ảnh gốc Ma trận D Ảnh đầu ra 1 7 9 0 8 5 1 0 1 6 12 45 9 2 30 0 1 1 14 18 13 8 12 40 1 1 0 2. Điểm kề - tập điểm liên thông – đối tượng ảnh 2.1. Điểm kề Cho trước một điểm ảnh I(x,y), khi đó: - Các điểm ảnh I(x-1,y), I(x+1,y), I(x,y-1), I(x,y+1) được gọi là các điểm kề 4 của I(x,y). - Các điểm ảnh I(x-1,y-1), I(x+1,y-1), I(x-1,y+1), I(x+1,y+1) và các điểm kề 4 được gọi là các điểm kề 8 của I(x,y). - Tương ứng với các điểm kề 8, ta có mặt nạ 8 hướng xác định các điểm kề 8 đó: 3 2 1 4 P 0 5 6 7 3 2 0 1 4 5 6 7 Tương ứng với các hướng như sau: 2.2. Tập điểm liên thông - Hai điểm ảnh P1 và P2 € J được gọi là liên thông 4(hoặc 8) trong J nếu tồn tại tập các điểm {(x0,y0), (x1,y1), …, (xn,yn)} sao cho: + P1 = (x0,y0) + P2 = (xn,yn) + V(xk,yk) và (xk+1,yk+1) € J thì (xk+1,yk+1) là kề 4(hoặc 8) của (xk,yk) với k= [0..n-1] (tập các điểm {(x0,y0), (x1,y1), …, (xn,yn)} được gọi là đường đi). - Một tập điểm được gọi là liên thông nếu với hai điểm bất kỳ trong tập hợp đó đều liên thông (4 hoặc 8). 2.3. Đối tượng ảnh - Là một tập hợp các điểm ảnh liên thông. - Quan hệ K liên thông trong J là một quan hệ có tính chất phản xạ, đối xứng, bắc cầu, vì vậy, nó là một quan hệ tương đương 2.4. Điểm biên Điểm ảnh P trong ảnh nhị phân được gọi là điểm biên nếu có tồn tại ít nhất một điểm kề 4 có mức xám khác với P. Tập các điểm biên của một đối tượng sẽ tạo thành biên của đối tượng ảnh đó. 2.5. Chu tuyến Chu tuyến của một đối tượng ảnh là tập hợp các điểm biên: {P1, P2, … Pn} của đối tượng ảnh đó sao cho hai điểm Pi và Pi+1 là các điểm kề 8 của nhau (i=1..n-1) và P1 là kề 8 của Pn. Ký hiệu chu tuyến là C= Hình vẽ: chu tuyến của một đối tượng ảnh * Chu tuyến đối ngẫu: Hai chu tuyến C= và CT = được gọi là đối ngẫu của nhau khi và chỉ khi mọi i (i=1..n) đều tồn tại duy nhất j (j=1..m) sao cho: - Pi và Qj là các điểm kề 4 của nhau - Mức xám của Pi khác Qj * Chu tuyến ngoài: Chu tuyến C= được gọi là chu tuyến ngoài nến số điểm biên của C nhỏ hơn chu tuyến đối ngẫu CT * Chu tuyến trong: Chu tuyến C= được gọi là chu tuyến ngoài nến số điểm biên của C lớn hơn chu tuyến đối ngẫu CT Hình vẽ: chu tuyến trong – chu tuyến ngoài 3. Một số kỹ thuật dò biên trong ảnh nhị phân 3.1. Dò biên hình thức hóa - Nếu các ký hiệu (b,g) là một cặp điểm với b là điểm ảnh và g là điểm nền. - Dãy các cặp điểm (b1,g1), (b2,g2), …, (bn,gn) là các điểm kề 8 của nhau và (b1,g1) ≡ (bn,gn), - Gọi T là thuật toán tìm biên, áp dụng thuật toán T cho cặp điểm (bi,gi) ta sẽ tìm được cặp điểm tiếp theo: (bi+1,gi+1) = T(bi,gi) - Khi đó áp dụng thuật toán T, quá trình dò biên được thực hiện theo thứ tự từ trên xuống dưới và từ trái sang phải cho toàn bộ ảnh. 3.2. Thuật toán dò biên Freeman Xuất phát từ một điểm ảnh P, quá trình dò biên sẽ đi theo các hướng: 0, 2, 4, 6 trong mặt nạ 8 hướng. Nếu gặp điểm ảnh thì sang trái, điểm nền thì sang phải. Quá trình trên được lặp lại cho đến khi quay lại đúng vị trí xuất phát P. Khái niệm sang trái, sang phải phụ thuộc vào hướng đến của điểm đang xét để thay đổi hướng đi của điểm đó đến điểm tiếp theo như trong bảng dưới đây. Điểm ảnh – sang trái Điểm nền – sang phải Hướng đến Hướng đi đến điểm tiếp theo Hướng đến Hướng đi đến điểm tiếp theo 0 2 0 6 2 4 2 0 4 6 4 2 6 0 6 4 Thuật toán Freeman bị hạn chế ở khả năng phải xét đến những điểm không cần quan tâm trong quá trình dò biên. Ví dụ dưới đây sẽ thể hiện điều đó. Ảnh nhị phân có kích thước 8x8 với điểm biên xuất phát P có tọa độ (2,4) Những điểm không cần quan tâm: (0,3), (4,7), (7,3), (4,0) 3.3. Thuật toán Freeman cải tiến Xuất phát từ một điểm ảnh P, quá trình dò biên sẽ đi theo các hướng: 0, 2, 4, 6 trong mặt nạ 8 hướng. Nếu gặp điểm ảnh thì sang trái, điểm nền thì quay ngược trở lại. Quá trình trên được lặp lại cho đến khi quay lại đúng vị trí xuất phát P. Khái niệm sang trái, quay lại phụ thuộc vào hướng đến của điểm đang xét để thay đổi hướng đi của điểm đó đến điểm tiếp theo như trong bảng dưới đây. Điểm ảnh – sang trái Điểm nền – lùi lại Hướng đến Hướng đi đến điểm tiếp theo Hướng đến Hướng đi đến điểm tiếp theo 0 2 0 4 2 4 2 6 4 6 4 0 6 0 6 2 Giải thuật cải tiến sẽ khắc phục được hạn chế của giải thuật Freeman. Ví dụ dưới đây sẽ thể hiện điều đó: Ảnh nhị phân có kích thước 8x8 với điểm biên xuất phát P có tọa độ (2,4) BÀI 3 CÁC PHÉP TOÁN HÌNH THÁI TRÊN ẢNH NHỊ PHÂN 1. Phép toán hình thái (Morphology) - Hình thái là thuật ngữ chỉ cấu trúc của một đối tượng ảnh trong đó có phạm vi và mối quan hệ giữa các phần của đối tượng. - Với ảnh nhị phân IMxN, điểm ảnh tại vị trí (x,y) là I(x,y) được xác định: = 0 nếu đó là điểm nền = 1 nếu đó là điểm ảnh Gọi A là tập hợp các điểm ảnh, ta ký hiệu: A={(xi,yi) | I(xi,yi) = 1} Ac là tập hợp các điểm nền: Ví dụ: 0 0 1 1 0 1 0 0 1 0 0 1 0 0 0 A = {(0,2), (0,3), (1,0), (1,3), (2,1)} 2. Các khái niệm cơ bản * Phép dịch: Cho một vector x và tập hợp các điểm A, phép dịch A + x được xác định bởi: * Các phép toán tập hợp Minkowski: Cho A, B là các tập hợp điểm: Phép cộng Minkowski: Phép trừ Minkowski: 3. Phép giãn ảnh và co ảnh Từ hai phép toán Minkowski, ta có phép toán hình thái cơ bản là phép giãn ảnh và co ảnh : Phép giãn ảnh (Dilation) Phép co ảnh (Erosion) Trong đó: * Một số tính chất: Giao hoán: Không giao hoán : Kết hợp: Dịch chuyển bất biến: * Ví dụ minh họa: (a) Giãn ảnh D(A,B) (b) Co ảnh E(A,B) A và B có thể được xem là các đối tượng ảnh và B được gọi là phần tử cấu trúc. Thông thường, phép giãn ảnh làm tăng kích thước đối tượng ảnh trong khi phép co ảnh làm giảm kích thước. Điều này tùy thuộc vào việc chọn phần tử cấu trúc. Có hai phần tử cấu trúc phổ biến thường được dùng là tập hợp kề-4 và tập hợp kề-8 trong hệ tọa độ Đềcác: (a) N4 (b) N8 Ý nghĩa: - Phép giãn ảnh biến đổi giá trị của các điểm nền kề-4 (hoặc kề-8) với điểm ảnh thành các điểm ảnh, do vậy, nó làm tăng kích thước các điểm ảnh. - Phép co ảnh biến đổi giá trị của các điểm ảnh kề-4 (hoặc kề-8) với điểm nền thành các điểm nền, do vậy, nó làm giảm kích thước các điểm ảnh. Ví dụ: (a) B = N4 (b) B= N8 Các điểm ảnh gốc là các điểm màu xám, các điểm thêm vào là các điểm có màu đen. 4. Phép mở và đóng ảnh Chúng ta có thể kết hợp phép giãn ảnh và co ảnh để tạo nên hai toán tử quan trọng hơn: Mở ảnh: Đóng ảnh: * Một số tính chất: - Đối ngẫu: - Dịch chuyển: Ý nghĩa: - Phép mở ảnh sẽ mở rộng những khoảng trống giữa các phần tiếp xúc trong đối tượng ảnh, làm cho ảnh bớt gai hơn. - Phép đóng ảnh sẽ làm mất đi những khoàng trống nhỏ trong ảnh, làm mất đi nhiễu trong ảnh. 5. Một số kết quả Các toán tử cấu trúc thường được áp dụng: (a) (b) (c) a) Ảnh A b) Giãn ảnh với 2B c) Co ảnh với 2B d) Mở ảnh với 2B e) Đóng ảnh với 2B f) it-and-Miss với B1 và B2 Ví dụ với các toán tử hình thái 6. Phép toán HitAndMiss Cho một ảnh A và hai phần tử cấu trúc B1 và B2, ta có: với B1 và B2 là giới hạn và rời rạc nhau (B1 B2 = ) (phép toán này còn được gọi là xác định viền mẫu, mẫu B1 cho đối tượng ảnh và mẫu B2 cho nền ảnh) * Đường viền các điểm kề 4: * Đường viền các điểm kề 8: Một cách biển diễn khác: Biểu diễn phần tử cấu trúc dưới dạng ma trận (gồm B1 và B2) * Cách thực hiện: dịch chuyển điểm gốc của phần tử cấu trúc lần lượt trên các điểm ảnh theo thứ tự từ trên xuống dưới, từ trái qua phải, nếu các điểm nền và điểm ảnh của phần tử cấu trúc khớp với trên ảnh thì ta giữ lại điểm ảnh đó, nếu không ta đặt thành điểm nền. 4 phần tử cấu trúc được sử dụng để tìm góc của ảnh trong phép toán HitAndMiss (thực chất là một phần tử quay theo 4 hướng khác nhau) Sau khi tìm được góc theo các phần tử cấu trúc trên, ta kết hợp chúng lại để được kết quả là các góc lồi của ảnh. Sử dụng phép toán HitAndMiss để tìm góc lồi của một ảnh 7. Xương ảnh Khái niệm: Xương ảnh là tập hợp các đường độ dày là 1, đi qua phần giữa của đối tượng ảnh và bảo toàn được tính chất hình học của đối tượng ảnh. Tuy nhiên, không dễ dàng để nhận ra xương ảnh: Ví dụ: (a) (b) Trong ví dụ (a), ta không thể tìm được đường thẳng có độ dày 1 đi qua giữa đối tượng mà phản ánh được tính chất đơn giản của đối tượng. Trong ví dụ (b), ta không thể bỏ đi một điểm trong đối tượng kề 8 mà giữ được tính chất hình học của đối tượng. Công thức cơ bản: - Các tập hợp con của xương ảnh Sk(A): với K là giá trị lớn nhất của k trước khi Sk(A) trở thành rỗng (ta có ) Xương ảnh là hợp của các tập con xương ảnh: Như vậy, đối tượng ảnh ban đầu có thể được tái tạo lại từ các tập con xương ảnh, phần tử cấu trúc B và giá trị K: Tuy nhiên, công thức này không phải lúc nào cũng bảo toàn được tính chất hình học của ảnh. * Phép toán làm gầy ảnh: Công thức: Tùy thuộc vào cách chọn B1, B2 mà ta có các thuật toán làm gầy ảnh khác nhau. Một cách biểu diễn khác: Phần tử cấu trúc được dùng để tìm xương ảnh (điểm gốc ở tâm của phần tử cấu trúc). Tại mỗi bước lặp, ảnh sẽ được làm gầy bởi phần tử cấu trúc bên trái, sau đó đến phần tử cấu trúc bên phải, tiếp theo với phép quay 90o hai phần tử cấu trúc trên. Quá trình được lặp đi lặp lại cho đến khi phép toán làm gầy không dẫn đến sự thay đổi nào nữa. Xương ảnh được tìm bằng phép toán làm gầy với hai phần tử cấu trúc ở trên Ví dụ về một số xương ảnh: à à à à 8. Tái tạo – lấp đầy ảnh