Bài giảng chương 5: Bảng băm (hashing table) - Tài liệu, ebook, giáo trình, hướng dẫn

Giả sử ta có 100 số nguyên có giá trị bất kỳ nằm trong khoảng từ 0. . 999 Nếu sử dụng mảng a gồm 1000 phần tử để lưu trữ các số nguyên này sao cho a[i]=i thì số lần tìm kiếm số nguyên bất kỳ trong 100 số này là1 lần Tuy nhiên, chỉ có1/10 bộ nhớ được sử dụng, dẫn đến lãng phí bộ nhớ Phép biến đổi khóa là phương pháp tham khảo trực tiếp các phần tử trong một bảng (bảng băm) thông qua việc biến đổi số học trên những khoá để có được địa chỉ tương ứng của những phần tử ở trong bảng

25 trang | Chia sẻ: haohao89 | Lượt xem: 3068 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Bài giảng chương 5: Bảng băm (hashing table), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

1BẢNG BĂM (Hashing Table) Chương 5 2Khái niệm z Giả sử ta có 100 số nguyên có giá trị bất kỳ nằm trong khoảng từ 0 . . 999 z Nếu sử dụng mảng a gồm 1000 phần tử để lưu trữ các số nguyên này sao cho a[i] = i thì số lần tìm kiếm số nguyên bất kỳ trong 100 số này là 1 lần z Tuy nhiên, chỉ có 1/10 bộ nhớ được sử dụng, dẫn đến lãng phí bộ nhớ z Phép biến đổi khóa là phương pháp tham khảo trực tiếp các phần tử trong một bảng (bảng băm) thông qua việc biến đổi số học trên những khoá để có được địa chỉ tương ứng của những phần tử ở trong bảng 3Khái niệm z Phép biến đổi khoá là một phương pháp giải quyết tốt về thời gian và vùng nhớ z Tổ chức dữ liệu được dùng cho phép biến đổi khoá là cấu trúc bảng (bảng băm) z Để thực hiện phép biến đổi khoá ta cần hai bước: 1. Bước 1: Tính toán việc biến đổi số học (hàm H() nào đó) để biến đổi khoá cần tìm thành địa chỉ trong bảng. Trong bước này, có thể có hai hay nhiều khoá khác nhau thông qua hàm H() sẽ cho cùng một địa chỉ trong bảng 4Khái niệm 2. Bước 2: Là quá trình giải quyết sự đụng độ cho những khoá khác nhau có cùng một địa chỉ trong bảng z Vấn đề trước tiên là phải chọn hàm biến đổi khoá (hàm băm) để biến đổi các khóa thành các địa chỉ trong bảng z Yêu cầu của hàm băm là phải đơn giản, dễ tính, phải là hàm phân bố đều tập khoá k trên tập địa chỉ để việc đụng độ ít xảy ra z Có một số phương pháp để xây dựng hàm băm như phương pháp chia, nhân, phân đoạn. Tuy nhiên, phương pháp chia modulo thường được sử dụng 5Xây dựng hàm băm z Phương pháp chia modulo: – Gọi M là kích thước bảng băm (thường chọn M là số nguyên tố để ít có bội số - xem trang 8), K là khóa và H(k) là hàm băm, thì: H(k) = k % M – Hàm băm sẽ biến đổi các khoá (là số nguyên, chữ cái hay chuỗi) thành các số nguyên tương ứng trong đoạn [0 ... M - 1] – Nếu khoá là số nguyên thì hàm băm H(k) là: H(k) = k % M 6Xây dựng hàm băm – Nếu khoá là chữ cái từ A đến Z thì giá trị của k sẽ là giá trị của các chữ cái được mã hoá từ 0 đến 25: Ký tự Nhị phân Thập phân A 00000 0 B 00001 1 c 00010 2 ... Z 11001 25 7Xây dựng hàm băm – Nếu khoá là chuỗi ký tự thì giá trị k sẽ là giá trị của sự kết hợp các chữ cái trong chuỗi. Ví dụ, kích thước bảng băm là 101 và cần phải tính địa chỉ của một khóa 4 ký tự là AKEY. Nếu mỗi chữ cái được mã hóa bằng số nhị phân 5 bit như trên thì A K E Y k = 00000 01010 00100 11000 = 10 * 322 + 4 * 321 + 24 * 320 = 10392 Do đó, chỉ số của khóa AKEY trong bảng là: 10392 % 101 = 90 8Xây dựng hàm băm z Tại sao kích thước M của bảng phải là số nguyên tố? z Để trả lời câu hỏi này, giả sử ta chọn M bằng 32 không phải là số nguyên tố, và khóa là chuỗi AKEY như trên, thì: k = 10 * 322 + 4 * 321 + 24 * 320 chỉ phụ thuộc vào ký tự cuối cùng Y. Nghĩa là sẽ có nhiều khóa khác nhau có cùng chỉ số trong bảng nếu các khóa này có cùng ký tự cuối là Y 9Xây dựng hàm băm z Trong trường hợp các khoá dài thì phải tính hàm băm sao cho không bị tràn số. Khi này có thể sử dụng công thức Horner để tính giá trị của hàm băm k = (((an x + an-1 )x + an-2)x + ...+ a0) Trong đó, x là cơ số (ví dụ, 5 bit sẽ có cơ số là 32) và M là kích thước của bảng. Trong ví dụ trên, có thể viết lại bằng công thức Horner là: k = (10 * 32 + 4) * 32 + 24 10 Xây dựng hàm băm z Giải thuật Horner để tính hàm băm như sau: h = key[0]; for(int i = 1; i < keysize; i++) h = ((h * 32) + key[i]) % M; Trong đó, h (= H(k)) là giá trị băm (chỉ số trong bảng băm), key[i] là giá trị của ký tự thứ i của khóa và keysize là chiều dài của khóa. Ví dụ, khóa VERYLONGKEY và M =101 thì khóa này sẽ có chỉ số là 72 11 Xử lý đụng độ z Sự đụng độ là hiện tượng các khóa khác nhau, nhưng qua hàm băm chúng có cùng địa chỉ trên bảng băm. Vấn đề đặt ra là phải lưu trữ chúng như thế nào trong bảng z Xét ba phương pháp: Thử tuyến tính, móc nối ngoài và móc nối trong: 1. Phương pháp thử tuyến tính (linear probing): – Trong phương pháp này khi có sự đụng độ xảy ra thì tìm kiếm vị trí trống từ kế sau phần tử bị đụng độ cho đến cuối bảng thì quay về đầu bảng 12 Xử lý đụng độ – Khai báo: const int M = 11; struct Node { int key; }; Node table[M]; int n; // số phần tử hiện có – Khởi tạo: Giả sử khóa là các số dương, khi khởi tạo ta cho trường key của các phần tử trong bảng một giá trị không thuộc tập khóa, chẳng hạn là –1 và gán số phần tử hiện có trong bảng bằng 0 13 Xử lý đụng độ void init(){ for(int i = 0; i < M; i++)table[i].key = -1;n = 0;} – Thêm một khóa vào bảng: Hàm insert() thêm một phần tử có khóa k vào bảng. Giá trị trả về của hàm là vị trí của phần tử mới thêm hoặc –1 nếu bảng bị đầy (xem ví dụ) 14 Xử lý đụng độ – Ví dụ, với M = 11 và các khóa như sau: Khóa k: 16 28 25 6 27 19 41 35 H(k): 5 6 3 6 5 8 8 2 – Như vậy, nếu gọi i là chỉ số trong bảng. Giá trị của hàm băm lại lần j trong phương pháp này là: i0 = H(k)ij = (i0 + j) % M (với j = 1, 2, . . , M - 1) 15 Xử lý đụng độ – Tìm một khóa trong bảng băm: Hàm search() tìm một khóa trong bảng băm. Trả về vị trí của khóa này nếu tìm thấy hoặc trả về –1 nếu không tìm thấy (xem ví dụ) – Nhược điểm của phương pháp này là xảy ra hiện tượng hội tụ xung quanh các địa chỉ không bị đụng độ, làm cho các khóa được băm với địa chỉ này không thể được thêm vào, dẫn đến tốc độ xử lý chậm vì phải tìm vị trí trống còn lại khi bảng gần đầy – Để khắc phục nhược điểm này, người ta sử dụng công thức tính địa chỉ là i0 = H(k)ij = (i0 + j2) % M (j > 0) 16 Xử lý đụng độ – Phương pháp trên được gọi là phương pháp thử bậc hai (quadratic probing 2. Phương pháp móc nối ngoài: – Trong phương pháp này thì mỗi vị trí trong bảng băm trỏ đến đầu danh sách liên kết của các phần tử có cùng địa chỉ trong bảng – Ví dụ, với M = 7 và các khoá như sau: Khóa k: 30 15 17 11 8 8 16 3 11 18 H(k): 2 1 3 4 1 1 2 3 4 4 17 Xử lý đụng độ 18 Xử lý đụng độ – Khai báo: const int M = 7;struct Node{ int key;Node *next;};Node *heads[M]; – Khởi tạo: Cho mảng heads chứa các phần tử mà vùng liên kết next của nó trỏ đến đầu danh sách liên kết. Lúc đầu, các vùng liên kết này trỏ đến NULL 19 Xử lý đụng độ void init() {for(int i = 0; i next = NULL;} } – Thêm một khóa vào bảng: Hàm insert() thêm phần tử có khóa k vào DSLK của bảng băm. Mỗi DSLK là một dãy các phần tử đã có thứ tự (tăng dần). Mục đích là để tìm kiếm nhanh. Nếu có nhiều khóa giống nhau thì phần tử mới thêm được chèn vào đầu DSLK (xem ví dụ) 20 Xử lý đụng độ – Tìm một khóa trong bảng: Hàm search() tìm một khóa trong bảng băm. Nếu tìm thấy, nó trả về vị trí của DSLK chứa khoá đó trong mảng heads. Ngược lại, trả về trị là –1 (xem ví dụ) – Ưu điểm của phương pháp này là xử lý đụng độ đơn giản và hiệu quả; kích thước bảng băm không cần lớn hơn các khóa được thêm vào bảng và cuối cùng là thao tác xóa một phần tử trong bảng cũng dễ dàng. Nhược điểm là cần thêm vùng nhớ cho phần liên kết của mỗi phần tử 21 Xử lý đụng độ 3. Phương pháp móc nối trong: – Để tiết kiệm vùng nhớ, một phương pháp khác là không sử dụng danh sách liên kết bên ngoài bảng băm – Bảng băm được tổ chức bởi một mảng các phần tử. Mỗi phần tử có hai vùng: Một vùng chứa khóa và một vùng chứa chỉ số (vị trí) của phần tử kế tiếp khi có sự đụng độ xảy ra – Giả sử tập khóa là dương nên ta có thể cho hai trường đó đều có giá trị là –1. Khi có sự đụng độ xảy ra, tìm vị trí trống đầu tiên trong bảng theo hướng từ cuối bảng về đầu bảng 22 Xử lý đụng độ – Ví dụ, với M = 7 và các khoá như sau: Khóa k: 30 15 17 11 8 16H(k): 2 1 3 4 1 2 23 Xử lý đụng độ –Khai báo: #include const int M = 7;struct Node{ int key;int next;};Node table[M]; int n; // chỉ số phần tử trống đầu tiên// tính từ cuối bảng 24 Xử lý đụng độ – Khởi tạo: Gán giá trị các trường key bởi một giá trị không thuộc tập khóa và các trường next bởi một giá trị không thuộc tập chỉ số của bảng. Giả sử cho các trường này được gán giá trị là –1 void init() { for(int i = 0; i < M; i++)table[i].key =table[i].next = -1;n = M - 1;} 25 Xử lý đụng độ – Thêm một khóa vào bảng băm: Hàm insert() thêm một phần tử có khóa k vào bảng. Giá trị trả về của hàm là vị trí của phần tử mới thêm vào hoặc –1 nếu bảng bị đầy. Lưu ý là nếu lần theo dây xích liên kết thì các khóa bị đụng độ sẽ không có thứ tự (xem ví dụ) – Tìm một khóa trong bảng băm: Hàm search() tìm một khóa trong bảng băm. Nếu tìm thấy, nó trả về vị trí của khóa đó. Ngược lại, trả về trị là –1 (xem ví dụ)