Xử lí truy vấn trong cơ sở dữ liệu hướng đối tượng phân tán sử dụng bộ lọc Bloom

Tóm tắt. Mục tiêu của việc xử lí truy vấn cơ sở dữ liệu phân tán là tìm một chiến lược thực thi các truy vấn một cách hợp lí nhằm tối thiểu hóa giá trị hàm chi phí. Chi phí được tính toán ở đây là chi phí theo thao tác xuất/nhập, chi phí CPU và chi phí giao tiếp, trong đó chi phí giao tiếp thông thường là chi phí lớn nhất. Xử lí truy vấn trong các hệ Cơ sở dữ liệu hướng đối tượng sẽ nảy sinh nhiều vấn đề phức tạp hơn do các đặc tính của hướng đối tượng, đó là tính đóng gói, kế thừa, phân cấp lớp. Bài báo này trình bày một thuật toán sử dụng bộ lọc Bloom với mục tiêu giảm chi phí giao tiếp trong quá trình thực hiện truy vấn cơ sở dữ liệu hướng đối tượng phân tán.

8 trang | Chia sẻ: thanhle95 | Lượt xem: 68 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Xử lí truy vấn trong cơ sở dữ liệu hướng đối tượng phân tán sử dụng bộ lọc Bloom, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

JOURNAL OF SCIENCE OF HNUE DOI: 10.18173/2354-1075.2015-0067 Educational Sci., 2015, Vol. 60, No. 7A, pp. 196-203 This paper is available online at XỬ LÍ TRUY VẤN TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG PHÂN TÁN SỬ DỤNG BỘ LỌC BLOOM Mai Thúy Nga1, Đoàn Văn Ban2, Nguyễn Mạnh Hùng3 1Khoa Toán Tin, Trường Đại học Thăng Long, 2Viện Công nghệ Thông tin 3Học viện Kỹ thuật Quân sự Tóm tắt. Mục tiêu của việc xử lí truy vấn cơ sở dữ liệu phân tán là tìm một chiến lược thực thi các truy vấn một cách hợp lí nhằm tối thiểu hóa giá trị hàm chi phí. Chi phí được tính toán ở đây là chi phí theo thao tác xuất/nhập, chi phí CPU và chi phí giao tiếp, trong đó chi phí giao tiếp thông thường là chi phí lớn nhất. Xử lí truy vấn trong các hệ Cơ sở dữ liệu hướng đối tượng sẽ nảy sinh nhiều vấn đề phức tạp hơn do các đặc tính của hướng đối tượng, đó là tính đóng gói, kế thừa, phân cấp lớp. Bài báo này trình bày một thuật toán sử dụng bộ lọc Bloom với mục tiêu giảm chi phí giao tiếp trong quá trình thực hiện truy vấn cơ sở dữ liệu hướng đối tượng phân tán. Từ khóa: Cơ sở dữ liệu hướng đối tượng, cơ sở dữ liệu phân tán, xử lí truy vấn, bộ lọc Bloom.. 1. Mở đầu Nhiều kết quả nghiên cứu [1, 2, 3] chỉ ra rằng cơ sở dữ liệu hướng đối tượng (CSDL HĐT) có thể được áp dụng với quy mô lớn và trong nhiều lĩnh vực ứng dụng phức tạp. Mô hình CSDL hướng đối tượng được tạo ra cũng nhằm để tích hợp trực tiếp với các ngôn ngữ lập trình hướng đối tượng, ngôn ngữ mà ngày nay được sử dụng trong phần lớn các ứng dụng. Hiện nay đã tồn tại một số hệ quản trị CSDL hướng đối tượng như GEMSTONE, Versant, ObjectStore, Orion, OpenOODB, IRIS,. . . Đặc điểm cơ bản của CSDL hướng đối tượng là sự đóng gói các thuộc tính của đối tượng và các thao tác lên đối tượng này. CSDL HĐT được phát triển trong môi trường mạng tạo thành mô hình cơ sở dữ liệu hướng đối tượng phân tán (CSDL HĐT PT). Trong CSDL HĐT PT, dữ liệu được phân bố trên một số trạm của mạng máy tính, các ứng dụng sẽ phải truy cập, xử lí dữ liệu tại các trạm khác nhau. Với các đặc trưng cơ bản của công nghệ hướng đối tượng như tính đóng gói, kế thừa, phân cấp lớp, vấn đề xử lí truy vấn trong CSDL HĐT PT phức tạp hơn nhiều so với các hệ thống cơ sở dữ liệu quan hệ. Một số kết quả nghiên cứu về xử lí truy vấn trong CSDL HĐT PT như trong [4, 5]. Để tối ưu hoá truy vấn phân tán thì phải hạn chế chi phí truyền tải dữ liệu giữa các trạm vì chi phí này thông thường là chi phí khá lớn. Có nhiều thuật toán lọc để hạn chế dữ liệu truyền trong đó có cơ chế lọc của bộ lọc Bloom [6]. Sử dụng bộ lọc Bloom để xử lí truy vấn phân tán trong các hệ thống cơ sở dữ liệu quan hệ đã được đề cập trong các bài báo [7, 8]. Trong báo cáo này chúng tôi thảo luận về việc sử dụng bộ lọc Bloom để xử lí truy vấn có biểu thức đường dẫn trong CSDL HĐT PT nhằm mục đích giảm thiểu các chi phí truyền dữ liệu phân tán. Ngày nhận bài: 15/7/2015. Ngày nhận đăng: 10/11/2015. Liên hệ: Mai Thúy Nga, e-mail: ngamt@thanglong.edu.vn 196 Xử lí truy vấn trong cơ sở dữ liệu hướng đối tượng phân tán sử dụng bộ lọc Bloom 2. Nội dung nghiên cứu 2.1. Cơ sở dữ liệu hướng đối tượng phân tán và biểu thức đường dẫn 2.1.1. Cơ sở dữ liệu hướng đối tượng phân tán Khái niệm cơ bản nhất trong CSDL HĐT là đối tượng (object). Đối tượng biểu diễn một thực thể có thực trong hệ thống đang được mô hình hóa. Khác với đối tượng trong ngôn ngữ lập trình hướng đối tượng chỉ tồn tại trong thời gian chương trình hoạt động, các đối tượng trong CSDL HĐT mang tính bền vững, được bảo toàn và được chia sẻ với nhiều chương trình, nhiều ứng dụng khác nhau. Mỗi đối tượng có một định danh duy nhất được tạo ra bởi hệ thống. Các đối tượng là thể hiện của lớp, hay một lớp là khuôn mẫu để tạo ra các đối tượng. Phân cấp lớp được định nghĩa để chỉ ra mối quan hệ giữa các lớp khác nhau. Lớp là cấu trúc đóng gói các thuộc tính mô tả các đặc trưng, tính chất của đối tượng và các phương thức (hàm) mô tả các hành vi ứng xử của các đối tượng. Các thuộc tính trong một lớp được chia thành hai loại: đơn giản và phức hợp. Thuộc tính đơn giản là thuộc tính có miền giá trị là các kiểu nguyên thủy như int, long, float, double, boolean, char, string . . . Thuộc tính phức hợp là thuộc tính có miền giá trị không phải là các kiểu nguyên thủy, mà là tham chiếu tới các đối tượng khác thông qua các định danh của chúng. Các phương thức trong một lớp cũng được chia thành hai loại: đơn giản và phức hợp. Phương thức đơn giản là phương thức khi thực hiện không gọi các phương thức khác. Phương thức phức hợp là phương thức khi thực hiện gọi phương thức khác trong cùng lớp đó hoặc các phương thức của lớp khác. CSDL HĐT phát triển trong môi trường mạng hình thành hệ CSDL hướng đối tượng phân tán. Phần lớn các hệ quản trị CSDLHĐT PT đều theo kiến trúc client/server. Với các đặc trưng của mô hình đối tượng, kiến trúc các hệ quản trị CSDL HĐT PT thường phức tạp hơn, các vấn đề phức tạp cần xem xét đó là [3]: - Các đối tượng đóng gói dữ liệu và phương thức, vậy cần xác định đơn vị truyền giao giữa client và server. Đơn vị này có thể là một trang, một đối tượng hoặc một nhóm các đối tượng. Đối tượng không phải dữ liệu thụ động, và cần xét đến các vị trí, nơi các phương thức của đối tượng được thực thi. - Trong các hệ client/server quan hệ, client chỉ đơn giản gửi các truy vấn đến các server, server thực hiện chúng rồi trả kết quả về cho client. Điều này được gọi là chuyển gửi chức năng để xử lí. Trong các hệ client/server đối tượng, đây không phải là cách tốt nhất bởi vì quá trình duyệt qua các cấu trúc đối tượng phức hợp của chương trình ứng dụng có thể chỉ ra rằng dữ liệu phải được chuyển qua bên client. Vì dữ liệu được nhiều client dùng chung, quản lí bộ đệm lưu trữ (cache) bên client để đảm bảo nhất quán dữ liệu là vấn đề quan trọng. - Đối tượng có thể thuộc loại phức hợp, nhiều thành phần, có khả năng phải gửi trước các đối tượng thành phần mỗi khi có một đối tượng yêu cầu. Các hệ client/server thông thường không phải gửi trước dữ liệu, nhưng có thể các hệ client/server đối tượng sẽ phải chọn giải pháp gửi trước dữ liệu. Nhóm quản trị CSDL đối tượng (Object Database Management Group – ODMG) đề xuất một chuẩn CSDL đối tượng, phiên bản mới nhất là ODMG 3.0 [9]. ODMG 3.0 định nghĩa các khái niệm, các nghi thức giao tiếp chung giữa các hệ CSDL và cung cấp các đặc tả cơ bản nhằm hỗ trợ cho các hệ quản trị CSDL khả năng chia sẻ dữ liệu, tính khả chuyển (portable) và các thao tác truy vấn cơ bản. Chuẩn này gồm 3 thành phần: ngôn ngữ định nghĩa đối tượng ODL (Object Definition Language), ngôn ngữ truy vấn dữ liệu OQL (Object Query Language) và các liên kết với các ngôn ngữ lập trình hướng đối tượng. 197 Mai Thúy Nga, Đoàn Văn Ban, Nguyễn Mạnh Hùng 2.1.2. Truy vấn có biểu thức đường dẫn Các truy vấn trong CSDL hướng đối tượng được biểu diễn bởi ngôn ngữ OQL, OQL là ngôn ngữ mở rộng và kế thừa từ ngôn ngữ SQL, ngôn ngữ truy vấn chuẩn của CSDL quan hệ. Thiết kế của OQL ở dạng hàm, kết quả của truy vấn có kiểu, điều này cho phép kết quả truy vấn này lại là đầu vào cho một truy vấn khác, vì vậy có thể biểu diễn các truy vấn phức tạp. Khi thực hiện truy vấn trong CSDL hướng đối tượng, nếu các lớp có các thuộc tính phức hợp sẽ dẫn dắt truy vấn tới các đối tượng lồng nhau theo một biểu thức đường dẫn. Ví dụ lược đồ cơ sở dữ liệu gồm bốn lớp: CanBoNghienCuu (Cán bộ nghiên cứu), CoQuan (Cơ quan), DiaChi (Địa chỉ), ThanhPho (thành phố). Lớp CanBoNghienCuu có thuộc tính coQuan là một tập đối tượng của lớp CoQuan, lớp CoQuan có thuộc tính diaChi là một đối tượng của lớp DiaChi, lớp DiaChi có thuộc tính thanhPho là một đối tượng của lớp ThanhPho. Giả sử truy vấn ở đây là liệt kê họ tên các cán bộ nghiên cứu trong thành phố Hà Nội và có thể viết dưới dạng: select c.hoTen from CanBoNghienCuu as c where c.coQuan.diaChi.thanhPho.ten = ”Hà Nội” Hình 1. Minh hoạ biểu thức đường dẫn c.coQuan.diaChi.thanhPho.ten là một biểu thức đường dẫn hay còn gọi là nối ẩn. Mỗi đối tượng của lớp có một định danh duy nhất được hệ thống khởi tạo, các nối ẩn được thực hiện thông qua các định danh này. Biểu thức đường dẫn được minh họa như hình 1. Biểu thức đường dẫn có thể là trị đơn nếu mỗi thành phần của nó đều là trị đơn, ngược lại nếu có ít nhất một thành phần là trị tập thì toàn bộ biểu thức là trị tập. Tối ưu hoá biểu thức đường dẫn cũng là một mục tiêu trong xử lí truy vấn. 2.2. Bộ lọc Bloom 2.2.1. Cấu trúc bộ lọc Bloom Bộ lọc Bloom được giới thiệu trong [6], là một cấu trúc dữ liệu xác suất để kiểm tra xem một phần tử có nằm trong một tập hợp hay không. Cấu trúc của một bộ lọc Bloom bao gồm: - Một dãy gồm n bit, được khởi tạo tất cả các giá trị là 0. - Một tập các hàm băm h1, h2, hk . Mỗi hàm băm sẽ ánh xạ các giá trị khóa vào một giá trị trong khoảng từ 1 đến n, tương ứng bit của bộ lọc. - Một tập S gồm m giá trị khóa. Với mỗi giá trị khóa k trong S: băm nó với các hàm băm, hàm băm thứ i có giá trị hi(k), thiết lập bit thứ hi(k) của bộ lọc Bloom thành giá trị 1. Chức năng của bộ lọc Bloom là xác định một phần tử x có thuộc tập S hay không. Nó được dùng là bước tiền xử lí của quá trình tìm kiếm. Nếu sau khi lọc qua bộ lọc Bloom trả về kết quả 198 Xử lí truy vấn trong cơ sở dữ liệu hướng đối tượng phân tán sử dụng bộ lọc Bloom “không” thì không cần thực hiện việc tìm kiếm nữa, nếu trả về kết quả “có thể có” thì thực hiện tìm kiếm. Để xác định một phần tử x bất kì có thuộc tập S hay không, chúng ta cũng tính toán k giá trị là h1(x), ..., hk(x) từ x qua k hàm băm. Nếu k bit trong vector n-bit tại các vị trí tương ứng là h1(x), h2(x), . . . , hk(x) đều có giá trị là 1 thì x “có thể” có trong tập S với một xác suất nào đó, còn nếu chỉ cần ít nhất 1 bit có giá trị là 0 thì khẳng định là x không thuộc tập S. Chúng ta chỉ có thể khẳng định là x “có thể” thuộc tập S là bởi vì trong vector bit, 1 bit có thể được gán giá trị là 1 nhiều lần bởi nhiều phần tử trong S khi khởi tạo bộ lọc. Chỉ cần một bit 0 chúng ta có thể khẳng định x không thuộc S bởi vì nếu x thuộc S thì tất cả k bit tương ứng sẽ được gán là 1 khi khởi tạo bộ lọc với phần tử x đó. Ví dụ: - Bộ lọc Bloom gồm 9 bit, ban đầu gán giá trị tất cả các bit bằng 0. - Sử dụng hai hàm băm: Hàm thứ nhất h1(k) lấy các giá trị tại các vị trí lẻ (tính từ trái sang) của k khi biểu diễn sang hệ nhị phân, chuyển về giá trị thập phân rồi chia dư cho 9. Hàm h2(k) tương tự nhưng lấy giá trị tại các vị trí chẵn. - S = {23, 147, 352} - Quá trình xây dựng bộ lọc Bloom được minh hoạ như Bảng 1. - Nếu x = 15, biểu diễn x nhị phân là 1111, h1(x) = h2(x) = 3. Tại bit số 3 của bộ lọc Bloom giá trị là 0 nên x chắc chắn không thuộc S. Bảng 1. Minh hoạ xây dựng bộ lọc Bloom Bước Biểu diễn nhịphân của k h1(k) h2(k) Bộ lọc Bloom Khởi tạo 000000000 k = 23 10111 7 1 010000010 k = 147 10010011 0 (9 mod 9) 5 110001010 k = 352 101100000 6 (24 mod 9) 4 110011110 2.2.2. Phân tích sai số Với một bộ lọc có thể xảy ra hai lỗi sau: - Lỗi dương tính sai (false positive): Kiểm tra qua bộ lọc là có nhưng tìm kiếm thực thì lại không có. - Lỗi âm tính sai (false negative): Kiểm tra qua bộ lọc là không có nhưng tìm kiếm thực thì lại có. Với bộ lọc Bloom sẽ không có khả năng xảy ra lỗi false negative mà chỉ có thể gặp phải lỗi false positive với xác suất rất nhỏ. Xác suất gặp phải lỗi false positive phụ thuộc vào mật độ các bit có giá trị 1 và số các hàm băm. Xác suất để một bit ngẫu nhiên của mảng n bit được gán giá trị 1 bởi hàm băm là 1 n , xác xuất để bit đó không được gán giá trị 1 là (1− 1 n ). Xác suất để bit đó không được gán giá trị 1 bởi bất kì hàm băm nào là (1 − 1 n )k trong đó k là số các hàm băm. Với m giá trị khóa xác suất để bit đó vẫn có giá trị 0 là (1− 1 n )mk, và xác suất để bit đó được thiết lập thành 1 là 1− (1− 1 n )mk. 199 Mai Thúy Nga, Đoàn Văn Ban, Nguyễn Mạnh Hùng Xét quá trình kiểm tra một phần tử có nằm trong một tập hợp hay không. Thuật toán kiểm tra k vị trí trong mảng xem chúng có bằng 1 hay không, xác suất tất cả chúng đều bằng 1 là (1 − [1 − 1 n ]mk)k ≈ (1 − e− kmn )k với n rất lớn. Xác suất này không phụ thuộc vào phần tử được kiểm tra nên được gọi là xác suất false positive. Xác xuất false positive có thể giảm xuống nếu chọn giá trị n, k, và m thích hợp. Giá trị n cần phải khá lớn so vớim, xác xuất này còn có thể giảm nếu tăng số hàm băm. Trong trường hợp tốt nhất, giá trị k tối ưu là k = n m ln 2, khi đó xác suất false positive được cực tiểu hóa theo k và sẽ là p = 2−k = 2− nin2 m ⇒ n = − minp (in2)2 . Nghĩa là để xác suất false positive là hằng số cố định, kích thước của mảng là tuyến tính với số phần tử của tập hợp. 2.3. Sử dụng bộ lọc Bloom trong xử lí truy vấn có biểu thức đường dẫn 2.3.1. Mô tả thuật toán Chúng ta sẽ mô tả thuật toán sử dụng bộ lọc bloom để xử lí truy vấn có biểu thức đường dẫn giữa hai lớp. Giả sử lớp Ci có một thuộc tính ak là một đối tượng của lớp Cj , lớp Ci đặt tại trạm S, lớp Cj đặt tại trạm R. Dễ nhận thấy rằng kích thước một đối tượng của lớp Cj nhỏ hơn kích thước một đối tượng lớp Ci. Giả sử có truy vấn chứa biểu thức đường dẫn từ lớp Ci sang lớp Cj . Gọi chi phí truyền một đơn vị dữ liệu từ trạm S đến trạm R là cost(S,R), giả sử chi phí truyền này có tính đối xứng, nghĩa là cost(S,R) = cost(R,S). Ý tưởng ở đây là thay vì truyền toàn bộ các đối tượng của Cj từ S đến R đề kết hợp với Ci (hoặc ngược lại), chúng ta sẽ lọc một số đối tượng của Cj mà cần thiết cho việc kết nối với Ci. Như vậy khối lượng dữ liệu được truyền đi sẽ giảm đáng kể và đồng nghĩa với chi phí truyền dữ liệu sẽ giảm. Cơ chế lọc sẽ được thực hiện bởi bộ lọc Bloom. Có ba trường hợp xảy ra: Truy vấn xảy ra tại trạm S (là trạm chứa Ci), truy vấn xảy ra tại trạm R (là trạm chứa Cj), truy vấn xảy ra tại một trạm khác cả S và R. Chúng ta sẽ xét lần lượt từng trường hợp. Trường hợp 1: Truy vấn tại trạm S - Xây dựng bộ lọc Bloom cho tất cả các đối tượng thuộc lớp Ci theo giá trị thuộc tính ak, gọi là BF (Ci). - Gửi BF (Ci) đến R (trạm chứa Cj), BF (Ci) được sử dụng để lọc các đối tượng của Cj . - Gửi các đối tượng của Cj mà thỏa mãn điều kiện lọc ở trên đến S. - Thực hiện việc truy vấn từ các đối tượng của Ci và Cj tại S. Algorithm1 Case1(Ci, Cj , R, S) BF (Ci) = createBloomFilter(Ci , ak); send(BF (Ci), S,R); C ′j = filter(Cj , BF (Ci)); send(C ′j , R, S); result = join(Ci, Cj); return result; Trường hợp 2: Truy vấn tại trạm R - Xây dựng bộ lọc Bloom cho tất cả các đối tượng thuộc lớp Cj theo giá trị thuộc tính định danh, gọi là BF (Cj). 200 Xử lí truy vấn trong cơ sở dữ liệu hướng đối tượng phân tán sử dụng bộ lọc Bloom - Gửi BF (Cj) đến S (trạm chứa Ci), BF (Cj) được sử dụng để lọc các đối tượng của Ci. - Gửi các đối tượng của Ci mà thỏa mãn điều kiện lọc ở trên đến R. - Thực hiện việc truy vấn từ các đối tượng của Ci và Cj tại R. Algorithm2 Case2(Ci, Cj , R, S) BF (Cj) = createBloomFilter(Ci , oid(Cj )); send(BF (Cj), R, S); C ′i = filter(Ci, BF (Ci)); send(C ′i , S,R); result = join(C ′i , Cj); return result; Trường hợp 3: Truy vấn tại trạm không chứa cả Ci và Cj , giả sử là trạm P (P 6= S,P 6= R) - So sánh chi phí để truyền một đơn vị dữ liệu trong 3 trường hợp: + (a) cost(S,R) + cost(R,P ) + (b) cost(R,S) + cost(S,P ) + (c) cost(S,P ) + cost(R,P ) - Nếu chi phí nhỏ nhất là trường hợp (a), thực hiện các bước như trường hợp 1, sau đó truyền kết quả tử S đến P . - Nếu chi phí nhỏ nhất là trường hợp (b), thực hiện các bước như trường hợp 2, sau đó truyền kết quả tử R đến P . - Nếu chi phí nhỏ nhất là trường hợp (c). + Nếu cost(S,P )⇐ cost(R,P ) Xây dựng bộ lọc Bloom cho tất cả các đối tượng thuộc lớp Ci theo giá trị thuộc tính ak, gọi là BF (Ci). Gửi BF (Ci) đến P, rồi từ P gửi tiếp BF (Ci) đến R. BF (Ci) được sử dụng để lọc các đối tượng của Cj . Gửi các đối tượng của Cj mà thỏa mãn điều kiện lọc ở trên từ R đến P , rồi từ P đến S. Thực hiện việc truy vấn từ các đối tượng của Ci và Cj tại S. Truyền kết quả từ S về P . + Nếu cost(S,P ) > cost(R,P ). Xây dựng bộ lọc Bloom cho tất cả các đối tượng thuộc lớp Cj theo giá trị thuộc tính định danh, gọi là BF (Cj). Gửi BF (Cj) đến P, rồi từ P gửi tiếp BF (Cj) đến S. BF (Cj) được sử dụng để lọc các đối tượng của Ci. Gửi các đối tượng của Ci mà thỏa mãn điều kiện lọc ở trên từ S đến P , rồi từ P đến R. Thực hiện việc truy vấn từ các đối tượng của Ci và Cj tại R. Truyền kết quả từ R về P . Algorithm3 Case3(Ci, Cj , R, S, P ) cost1 = cost(S,R) + cost(R,P ) cost2 = cost(R,S) + cost(S,P ) cost3 = cost(S,P ) + cost(R,P ) cost = min(cost1, cost2, cost3) if (min == cost1) { result = case1(Ci, Cj , R, S); 201 Mai Thúy Nga, Đoàn Văn Ban, Nguyễn Mạnh Hùng send(result, S,P ) } if (min == cost2) { result = case2(Ci, Cj , R, S); send(result, R,P ) } if (min == cost3) if (cost(S,P )⇒ cost(R,P )) { BF (Ci) = createBloomFilter(Ci , ak); send(BF (Ci), S, P ); send(BF (Ci), P,R); C ′j = filter(Cj , BF (Ci)); send(C ′j , R, P ); send(C ′j , P, S); result = join(Ci, C ′j); } else { BF (Cj) = createBloomFilter(Cj , oid(Cj)); send(BF (Cj), R, P ); send(BF (Ci), P, S); C ′i = filter(Ci, BF (Cj)); send(C ′i , S, P ); send(C ′i , P,R); result = join(C ′i , Cj, R); send(result, R,P ); } 2.3.2. Thảo luận về các tham số Trong phần 3.2 chúng ta đã phân tích sai số và có công thức n = − mlnp (ln2)2 . Khi chọn p là một sai số cố định có giá trị đủ bé thì kích thước bộ lọc Bloom n tuyến tính với số lượng các giá trị khóa, trong trường hợp này là số lượng đối tượng của lớp cần xây dựng bộ lọc Bloom (Ci hoặc Cj). Bộ lọc Bloom có thể xây dựng một lần cho mỗi lớp và sử dụng nhiều lần khi có nhiều kết nối với các lớp khác nhau. Khi chi phí giao tiếp đường truyền càng lớn thì thuật toán càng hiệu quả vì giảm một cách đáng kể chi phí truyền dữ liệu. Chi phí giảm này chính là tích của chi phí truyền một đơn vị dữ liệu và tổng kích thước tất cả các đối tượng mà bị loại ra (khi thử với bộ lọc Bloom). 3. Kết luận Bộ lọc Bloom là một cơ chế để kiểm tra sự có mặt của một phần tử trong một tập hợp, với bộ lọc Bloom thay vì gửi toàn bộ dữ liệu chúng ta chỉ gửi đại diện của nó đến nơi cần kiểm tra. Bài báo đề xuất một phương pháp sử dụng bộ lọc Bloom để xử lí truy vấn có biểu thức đường dẫn giữa hai lớp. Với truy vấn xảy ra tại các vị trí khác nhau, chúng tôi đã cố gắng lựa chọn một cách truyền dữ liệu mà chi phí truyền thấp nhất. 202 Xử lí truy vấn trong cơ sở dữ liệu hướng đối tượng phân tán sử dụng bộ lọc Bloom Bài báo mới dừng lại ở việc xét truy vấn đường dẫn giữa hai lớp, một cơ sở để mở rộng cho truy vấn với biểu thức đường dẫn qua nhiều lớp. Với biểu thức đường dẫn qua nhiều lớp chúng ta sẽ phải quan tâm đến việc duyệt biểu thức đường dẫn, cách duyệt đơn giản nhất là duyệt tuần tự. Hơn nữa để tối ưu hóa truy vấn phải tìm cách tối ưu hóa cục bộ tại mỗi trạm. Kết hợp tối ưu hóa cục bộ tại mỗi trạm và tối ưu hóa việc truyền dữ liệu là hướng nghiên cứu tiếp theo của chúng tôi. TÀI LIỆU THAM KHẢO [1] Oscar Nierstrasz and Dennis Tsichritzis, 1986. An object-oriented environment for OIS applications. In Proceedings of the 11th international conference on Very Large Data Bases, Vol. 11, pp.335-345. [2] David L. Spooner, 1986. An object-oriented data management system for mechanical CAD. In Proceedings on the 1986 international workshop on Object-oriented database systems (OODS ’86), pp. 233-234. [3] Ozsu M. T. and Valduriez P., 2011. Principles of Distributed Database Systems. Third Edition, Springer, New York. [4] G. Graefe and D. Maier, 1988. Query optimization in object-oriented database systems: A prospectus. In Lecture notes in computer science on Advances in object-oriented database systems, K. R. Dittrich (Ed.). Springer-Verlag New York, pp. 358-363. [5] Hyeokman Kim, Sukho Lee, 1994. Tree query optimization in distributed object-oriented databases. EUROMICRO 94. System Architecture and Integration. Proceedings of the 20th EUROMICRO Conference, pp. 45-52. [6] Bloom, B. H., 1970. Space/time trade-o