Đề tài Tối ưu hóa backup dữ liệu trong mạng ngang hàng có cấu trúc

Khóa luận sẽtrình bày một giải pháp tối ưu hóa cơchếbackup dữliệu trong mạng ngang hàng có cấu trúc. Giải pháp tập trung giải quyết vấn đềdung lượng bị tăng lên quá nhiều do việc backup và khảnăng phục hồi dữliệu khi có một nút rời mạng. Tiêu chí đánh giá sẽlà tỉlệgiữa dung lượng của dữliệu sau khi mạng thực thi nhiều lần backup so với dung lượng ban đầu của mạng và khảnăng phục hồi của dữ liệu trên mạng. Giải pháp này đã được thửnghiệm trên chương trình mô phỏng với môi trường mạng ảo. Kết quảcho thấy, giải pháp tối ưu đã đem lại hiệu quảvới việc tỉ lệdung lượng của dữliệu trên mạng sau khi thực thi backup so với dung lượng của dữ liệu ban đầu không quá lớn và việc phục hồi của dữliệu khi có nút rời mạng tốt hơn. Theo đó, hiệu năng của mạng và ứng dụng cũng được nâng lên.

pdf42 trang | Chia sẻ: nhungnt | Lượt xem: 1928 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Đề tài Tối ưu hóa backup dữ liệu trong mạng ngang hàng có cấu trúc, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Văn Chung TỐI ƯU HÓA BACKUP DỮ LIỆU TRONG MẠNG NGANG HÀNG CÓ CẤU TRÚC KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ Thông tin Cán bộ hướng dẫn: ThS. Nguyễn Đình Nghĩa Đồng hướng dẫn : ThS. Đào Minh Thư HÀ NỘI - 2010 LỜI CẢM ƠN Em xin chân thành cảm ơn các thầy cô giáo trong trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã tận tình giúp đỡ và truyền đạt kiến thức cho em trong suốt 4 năm học qua để em có đủ kiến thức hoàn thành khóa luận này. Đặc biệt, em xin gửi lời cảm ơn sâu sắc tới thầy Nguyễn Hoài Sơn, Nguyễn Đình Nghĩa và cô Đào Minh Thư – người đã nhiệt tình giúp đỡ, định hướng cũng như động viên em trong quá trình nghiên cứu và hoàn thành khóa luận. Em xin cảm ơn sự nhiệt tình chia sẻ kinh nghiệm, đóng góp ý kiến của nhóm nghiên cứu do thầy Nguyễn Hoài Sơn hướng dẫn, của các anh chị cao học. Mặc dù đã rất cố gắng hoàn thành khóa luận này, xong khóa luận sẽ khó tránh khỏi những thiếu sót, kính mong quý thầy cô tận tình chỉ bảo giúp em. Một lần nữa em xin cảm ơn tất cả mọi người. Hà Nội, tháng 5 năm 2010 Sinh viên Trần Văn Chung Tóm tắt Khóa luận sẽ trình bày một giải pháp tối ưu hóa cơ chế backup dữ liệu trong mạng ngang hàng có cấu trúc. Giải pháp tập trung giải quyết vấn đề dung lượng bị tăng lên quá nhiều do việc backup và khả năng phục hồi dữ liệu khi có một nút rời mạng. Tiêu chí đánh giá sẽ là tỉ lệ giữa dung lượng của dữ liệu sau khi mạng thực thi nhiều lần backup so với dung lượng ban đầu của mạng và khả năng phục hồi của dữ liệu trên mạng. Giải pháp này đã được thử nghiệm trên chương trình mô phỏng với môi trường mạng ảo. Kết quả cho thấy, giải pháp tối ưu đã đem lại hiệu quả với việc tỉ lệ dung lượng của dữ liệu trên mạng sau khi thực thi backup so với dung lượng của dữ liệu ban đầu không quá lớn và việc phục hồi của dữ liệu khi có nút rời mạng tốt hơn. Theo đó, hiệu năng của mạng và ứng dụng cũng được nâng lên. Mục lục Mở đầu.............................................................................................................................1 Chương 1. Tổng quan ......................................................................................................3 1.1 Tổng quan về việc backup dữ liệu .....................................................................3 1.1.1 Giải thuật phân tán thông tin IDA.................................................................4 1.2 Mạng ngang hàng...............................................................................................6 1.2.1 Định nghĩa.....................................................................................................6 1.2.2 Ưu điểm và nhược điểm của mạng ngang hàng............................................7 1.2.3 Mạng ngang hàng không có cấu trúc ............................................................9 1.2.4 Mạng ngang hàng có cấu trúc (Structured)...................................................9 1.2.5 Chord...........................................................................................................11 1.3 Backup dữ liệu trong mạng ngang hàng ..........................................................15 1.3.1 Sự cần thiết của việc backup dữ liệu trong mạng ngang hàng....................15 1.3.2 Một số giải pháp backup dữ liệu trong mạng ngang hàng..........................15 Chương 2 Tối ưu hóa backup dữ liệu trên mạng ngang hàng có cấu trúc....................17 2.1 Vấn đề cần giải quyết.......................................................................................17 2.2 Ý tưởng ............................................................................................................18 2.3 Giải pháp ..........................................................................................................18 2.3.1 Backup dữ liệu ............................................................................................19 2.3.2 Khôi phục dữ liệu........................................................................................20 2.4 Đánh giá giải pháp ...........................................................................................23 Chương 3 Mô phỏng và đánh giá ..................................................................................24 3.1 Chương trình mô phỏng...................................................................................24 3.1.1 Dữ liệu.........................................................................................................24 3.1.2 Các đối tượng..............................................................................................25 3.1.3 Thực thi .......................................................................................................27 3.2 Kết quả và đánh giá..........................................................................................30 3.2.1 Khả năng tồn tại của dữ liệu .......................................................................30 3.2.2 Sự ra vào của các nút trong mạng...............................................................31 3.2.3 Bảo mật .......................................................................................................32 Chương 4. Kết luận........................................................................................................33 4.1 Kết luận ............................................................................................................33 4.2 Hướng phát triển tiếp theo của đề tài ...............................................................33 Tài liệu tham khảo .........................................................................................................35 Phụ lục A .......................................................................................................................36 Danh mục hình ảnh Hình 1: Giải thuật phân tán thông tin IDA .....................................................................5 Hình 2 : Mô hình mạng ngang hàng ...............................................................................6 Hình 3 : Mô hình máy khách , máy chủ...........................................................................7 Hình 4 : Cơ chế của bảng băm phân tán DHT..............................................................10 Hình 5 :Mạng ngang hàng Chord .................................................................................11 Hình 6 : Mạng Chord có 3 nút ......................................................................................13 Hình 7 : Lưu trữ khóa trên mạng Chord .......................................................................14 Hình 8 : Cơ chế backup dữ liệu – phân chia các mảnh backup ra toàn mạng .............19 Hình 9 : Tỉ lệ dữ liệu có thể phục hồi............................................................................31 Hình 10 : Độ ra vào của các nút churn ảnh hưởng đến tỉ lệ dữ liệu có thể phục hồi...32  1 Mở đầu Việc backup dữ liệu là điều cần có trong mỗi một hệ thống , đặc biệt là các hệ thống lưu trữ,các hệ thống này có hệ thống mạng.Ngày nay khi Internet càng ngày càng phát triển , sự trao đổi thông tin càng nhiều , việc lưu trữ dữ liệu lại càng trở nên cần thiết.Do đó khóa luận này hướng tới nghiên cứu sâu hơn về cơ chế backup dữ liệu trong một hệ thống lưu trữ , một hệ thống mạng. Trong những năm gần đây, công nghệ ngang hàng (peer-to-peer - P2P) hay mạng ngang hàng đã trở nên phổ biến trong các nghiên cứu về lĩnh vực Internet. So với các mô hình mạng khác, mạng ngang hàng có nhiều ưu điểm như khả năng mở rộng, không tồn tại điểm chết, khả năng của hệ thống tỉ lệ với số lượng máy tham gia,.. Tất cả những đặc điểm trên đã tạo lên công nghệ P2P và các ứng dụng ngang hàng liên quan. Nhiều ứng dụng lớn đã và đang được xây dựng trên mạng ngang hàng như FreeNet, Napster, Gnutella, BitTorrent, eMule...Trong các loại mạng ngang hàng , mạng ngang hang có cấu trúc hiện nay được sử dụng một cách phổ biến bởi những ưu điểm của nó. Mạng ngang hàng có cấu trúc sử dụng giải thuật DHT (Distributed Hash Table – bảng băm phân tán) tạo nên một mạng phủ (overlay) trên mạng liên kết vật lý. Giải thuật này định nghĩa liên kết giữa các nút mạng trong mạng phủ theo một cấu trúc cụ thể, đồng thời xác định chặt chẽ mỗi nút mạng sẽ chịu trách nhiệm đối với một phần dữ liệu chia sẻ trong mạng. Mỗi nút đều được kết nối với một tập các nút khác gọi là tập nút láng giềng. Chord là một giao thức của mạng ngang hàng có cấu trúc với không gian địa chỉ một chiều dạng vòng. Mạng ngang hàng cấu trúc Chord thể hiện nhiều ưu điểm như khả năng mở rộng, cân bằng tải, định tuyến,... Giống như những giao thức trên mạng có cấu trúc khác, mỗi nút trong Chord xây dựng một bảng định tuyến giúp cho việc tìm kiếm thông tin giảm từ O(N) với N là số lượng tối đa nút trong mạng, xuống còn O(log2N). Trong mạng ngang hàng có cấu trúc nói chung và Chord nói riêng, việc backup dữ liệu được thực hiện thông qua giải pháp sao lưu dữ liệu đơn giản là sử dụng các bản sao của dữ liệu cần backup và các bản sao này được lưu tại các nút gần nút chứa dữ liệu cần backup.Cơ chế này chưa có khả năng khôi phục lại các mảnh backup bị mất đi do quá trình tham gia và rời đi của các nút trên mạng.  2 Khóa luận này sẽ đề xuất một phương pháp mới để giải quyết hai vấn đề nêu trên xảy ra với mạng ngang hàng có cấu trúc nói chung và cấu trúc Chord nói riêng. Bằng việc sử dụng thuật toán mã hóa IDAs(Information Dispersal Algorithms) dữ liệu ban đầu sẽ được mã hóa và phân chia thằng m mảnh và chỉ cần n mảnh sẽ có khả năng khôi phục lại dữ liệu ban đầu. Sau đó m mảnh này sẽ được phân chia trên mạng một cách hợp lí . Với giải pháp này , chúng ta có thêm một cơ chế để khôi phục lại những mảnh backup của dữ liệu khi các nút chứa chúng rời khỏi mạng, và hơn nữa dữ liệu ban đầu đã được mã hóa cho nên dữ liệu đã có tính bảo mật. Để đánh giá hiệu quả của giải pháp đề xuất, khóa luận xây dựng một chương trình mô phỏng giả lập mạng Internet và đo thời gian trễ truyền thông báo giữa các nút trong mạng Chord. Các kết quả thử nghiệm chứng minh cho khả năng của giải pháp đề xuất trong việc giảm sự tăng dung lượng của dữ liệu cần backup trên mạng và sử dụng tài nguyên mạng hợp lí hơn. Khóa luận được chia thành bốn chương: Chương 1: Giới thiệu tổng quan về backup dữ liệu và tổng quan về mạng ngang hàng. Chương 2: Đề xuất giải pháp tối ưu hóa việc backup dữ liệu trong mạng ngang hàng có cấu trúc , ưu nhược điểm của giải pháp Chương 3: Xây dựng chương trình mô phỏng, các bước thực thi chương trình và những đánh giá từ kết quả đạt được. Chương 4: Kết luận, những vấn đề nảy sinh và hướng đi tiếp theo.  3 Chương 1. Tổng quan Mạng ngang hàng (mạng đồng đẳng, peer-to-peer, P2P) hay công nghệ ngang hàng đã trở thành thuật ngữ phổ biến trong công nghệ thông tin nói chung và trong lĩnh vực Internet nói riêng. Các ứng dụng trên mạng ngang hàng xuất hiện ngày càng nhiều, thu hút đông đảo người dùng máy tính. Rất nhiều công ty, ứng dụng với công nghệ ngang hàng đã trở lên nổi tiếng, được đông đảo cư dân mạng sử dụng như: Usenet, Freenet, Napster, Gnutella, BitTorrent… Trong điều kiện Internet ngày càng phát triển, lượng thông tin truyền tải và chia sẻ ngàng càng lớn, mô hình client server bộc lộ nhiều hạn chế về băng thông và sức mạnh tính toán , mạng ngang hàng với nhiều ưu điểm nổi bật có thêm nhiều cơ hội mới để phát triển. Do trong mạng ngang hàng thì sự tham gia và rời đi của các nút là một đặc điểm của dẫn đến sự mất mát dữ liệu khi Backup dữ liệu là một việc cần có trong tất cả các hệ thống lưu trữ thông tin, đặc biệt là trong mạng ngang hàng,.Backup dữ liệu nhằm lưu lại các dữ liệu tại một thời điểm , khi mà hệ thống xảy ra sự cố gây mất mát dữ liệu thì những dữ liệu mất mát này sẽ được phục hồi bằng cách sử dụng các dữ liệu do việc backup trước đó sinh ra. Dữ liệu của hệ thống sẽ được phục hồi về thời điểm trước khi việc backup được thực hiện. Chương này, khóa luận sẽ giới thiệu về việc backup dữ liệu và mạng ngang hàng,. 1.1 Tổng quan về việc backup dữ liệu Định nghĩa Backup dữ liệu hay quá trình backup dữ liệu là quá trình tạo ra các bản sao của dữ liệu , những bản sao được bổ sung này có thể được sử dụng để khôi phục lại bản gốc sau khi dữ liệu bị mất .Những bản sao dữ liệu bổ sung được gọi là những backup. Các backup này được sử dụng với hai mục đích chính. Đầu tiên là phục hồi lại sau khi dữ liệu bị hỏng hóc.Thứ hai là phục hồi một số nhỏ các file sau khi chúng bị xóa hay là bị hỏng. Việc mất mát dữ liệu là rất phổ biến , sáu mươi sáu phần trăm số người sử dụng Internet bị mất mát dữ liệu.  4 Các backup này sau khi được sinh ra sẽ được gửi tới một nơi nào đó hoặc thiết bị nào đó để được lưu trữ . Các thiết bị này có thể là ổ cứng của máy tính của chính mình, đĩa CDROM, DVD hoặc là các thiết bị , hệ thống lưu trữ khác. Trước khi các backup được gửi đến nơi lưu trữ , các backup này đều được xử lí.Nhiều kỹ thuật khác nhau đã được phát triển để tối ưu hóa quá trình backup.Các thao tác xử lí này cung cấp nhiều lợi ích bao gồm cải thiện tốc độ backup , tốc độ phục hồi,bảo mật dữ liệu … Một số kỹ thuật : • Nén (Compression). • Sao lại(Duplication). • Mã hóa(Encryption). • …. Một trong số cách mã hóa là sử dụng giải thuật IDAs(Information Dispersal Algorithms). 1.1.1 Giải thuật phân tán thông tin IDA  5 Hình 1: Giải thuật phân tán thông tin IDA Giả thuật phân tán thông tin IDA có tác dụng mã hóa dữ liệu đầu vào , sao đó chia dữ liệu ra thành m mảnh và chỉ cần n mảnh là có thể phục hồi lại dữ liệu ban đầu . Như trên hình 1 , dữ liệu được mã hóa chia thành m =8 mảnh , để phục hồi dữ liệu ban đầu thì chỉ cần n = 4 mảnh bất kì.Dữ liệu ban đầu có độ lớn là L thì dữ liệu sau khi được mã hóa sẽ có tổng độ lớn là (m/n)*L . Giải thuật này được sử dụng nhầm nâng cao tính bảo mật của dữ liệu , tăng khả năng phục hồi của dữ liệu. Đã được sử dụng trong các hệ thống lưu trữ phân tán (dsNet). Dữ liệu được mã hóa rồi chia thành các mảnh dữ liệu không xác định , thông qua kết nối Internet phân bố tới các địa điểm lưu trữ trong hệ thống lưu trữ phân tán . Các địa điểm này có thể là các máy chủ lưu trữ được kết nối với nhau tạo thành một mạng ngang hàng. Dữ liệu đầu vào Mã hóa 1 0  2  3  4  5  6  7  0  2  3  4  Giải mã Dữ liệu đầu vào Quá trình mã hóa phân chia dữ liệu Quá trình giải mã phục hồi dữ liệu  6 Với phương pháp này , dữ liệu có độ bảo mật cao do các bản backup được lưu trữ trong mạng là những dữ liệu không có định dạng , muốn phục hồi lại dữ liệu ban đầu thì cần có một số mảnh dữ liệu khác nhau nhất định , sau đó sử dụng bộ giải mã mới có thể khôi phục lại dữ liệu ban . Nhưng vì cần phải tìm đủ một số mảnh dữ liệu nhất định và phải trải qua một quá trình giải mã cho nên thời gian để tìm kiếm lấy dữ liệu và khôi phục dữ liệu sẽ mất nhiều hơn. 1.2 Mạng ngang hàng 1.2.1 Định nghĩa Hình 2 : Mô hình mạng ngang hàng Mạng ngang hàng , là một mạng máy tính trong đó hoạt động của mạng chủ yếu dựa vào khả năng tính toán và băng thông của các máy tham gia chứ không tập trung vào một số nhỏ các máy chủ trung tâm như các mạng thông thường. Mạng ngang hàng thường được sử dụng để kết nối các máy thông qua một lượng kết nối dạng ad hoc. Mạng ngang hàng có nhiều ứng dụng. Ứng dụng thường xuyên gặp nhất là chia sẻ tệp tin, tất cả các dạng như âm thanh, hình ảnh, dữ liệu,... hoặc để truyền dữ liệu thời gian thực như điện thoại VoIP.                    7 Hình 3 : Mô hình máy khách , máy chủ Mô hình mạng ngang hàng (Hình 2) đúng nghĩa không có khái niệm máy chủ và máy khách, nói cách khác, tất cả các máy tham gia đều bình đẳng và được gọi là peer, là một nút mạng đóng vai trò đồng thời là máy khách và máy chủ đối với các máy khác trong mạng. Một ví dụ điển hình là dịch vụ truyền dữ liệu. Các nút trong mạng ngang hàng sẽ liên lạc với nhau, lấy dữ liệu từ nút khác về, đồng thời chia sẻ dữ liệu đó cho những nút có nhu cầu. Với mô hình khách chủ (Hình 3), máy khách gửi yêu cầu, thực hiện việc nhận dữ liệu một chiều từ phía máy chủ. Đây chính là điểm khác biệt cơ bản nhất của mô hình ngang hàng so với các mô hình truyền thống. Cấu trúc mạng ngang hàng là biểu hiện của một trong những khái niệm quan trọng nhất của Internet, mô tả trong "RFC 1, Host Software" xuất bản ngày 7 tháng 4 năm 1969. Gần hơn, khái niệm này đã được sự công nhận rộng rãi trong các cấu trúc chia sẻ nội dung mà không có máy chủ trung tâm. Khái niệm ngang hàng ngày nay được tiến hóa vào nhiều mục đích sử dụng khác nhau, không chỉ để trao đổi tệp mà còn khái quát hóa thành trao đổi thông tin giữa người với người, đặc biệt trong những tình huống hợp tác giữa một nhóm người trong cộng đồng. 1.2.2 Ưu điểm và nhược điểm của mạng ngang hàng Ưu điểm Ưu điểm của mạng ngang hàng thể hiện ở việc áp dụng vào từng ứng dụng cụ thể mà cấu trúc mạng khách chủ không có được. Nói cách khác, ưu điểm của mạng ngang hàng chính là khắc phục những nhược điểm của mô hình mạng cũ.  8 Mục đích quan trọng của mạng đồng đằng là trong mạng tất cả các máy tham gia đều đóng góp tài nguyên, bao gồm băng thông, lưu trữ, và khả năng tính toán. Do đó khi càng có nhiều máy tham gia mạng thì khả năng tổng thể của hệ thống mạng càng lớn. Ngược lại, trong cấu trúc máy chủ-máy khách, nếu số lượng máy chủ là cố định, thì khi số lượng máy khách tăng lên khả năng chuyển dữ liệu cho mỗi máy khách sẽ giảm xuống , và máy chủ sẽ phải chịu lượng truy cập nhiều hơn , gây quá tải cho máy chủ. Tính chất phân tán và bình đẳng của mạng ngang hàng cũng giúp cho mạng hoạt động tốt khi một số máy gặp sự cố . Đối với cấu trúc tập trung, chỉ cần máy chủ gặp sự cố thì cả hệ thống sẽ ngưng trệ. Ngoài ra, do mô hình mạng ngang hàng đơn giản nên dễ cài đặt, tổ chức và quản trị, chi phí thiết bị thấp. Mô hình khách chủ đòi hỏi một server đủ mạnh với giá thành cao, thường thì server này ít sự cố, nhưng nếu có sẽ gây thiệt hại lớn về thông tin và cả chi phí để tái thiết lập lại hệ thống. Hiện nay, máy tính cá nhân đủ mạnh để có thể làm nhiều hơn công việc của một client, vì thế tham gia vào mạng ngang hàng với nhiều tiềm năng là khả thi. Đối với mạng Napster, thuật ngữ ngang hàng nói lên tính chất quan trọng của giao thức giao tiếp ngang hàng, còn thực ra thành công của Napster phải nhờ vào sự liên kết chặt chẽ giữa các máy tham gia với máy chủ trung tâm lưu trữ danh sách nội dung tệp trên các máy tham gia. Nhờ vậy việc tìm kiếm trở nên nhanh và hiệu quả hơn, tuy nhiên, đây cũng chính là điểm yếu dẫn đến các rắc rối pháp lý mà kết cục là sự sụp đổ của Napster. Nhược điểm Mặc dù có rất nhiều ưu điểm, nhưng mạng ngang hàng cũng bộc lộ khá nhiều nhược điểm. Các nút tham gia với tính phân tán, trách nhiệm và vai trò là như nhau trong mạng, ít tuân theo quy luật hay giàng buộc nào. Đáng kể như: − Các nút đột ngột rời khỏi mạng sẽ làm sai bảng định tuyến trong một thời gian nhất định, làm cho việc truy vấn thiếu chính xác. − Dữ liệu mà nút đó phụ trách cũng có thể bị mất theo. − Sự bảo mật dữ liệu là kém do dữ liệu phân tán. Các nhược điểm trên đang dần được san lấp bằng nhiều phương pháp. Đáng chú ý là đặt ra các luật lệ, nội quy ràng buộc các bên tham gia với quyền  9 lợi và trách nhiệm nhất định sẽ giúp cho mạng ổn định và an toàn hơn. Số lượng thành viên tham gia mạng ngang hàng ngày càng nhiều giúp cho tài nguyên mạng trở lên phong phú, hiệu suất mạng cũng tăng tỉ lệ với số lượng nút tham gia. Ngoài ra, các cơ chế nhân bản giúp cho xác suất mất dữ liệu khi các nút rời đi trở lên vô cùng nhỏ. 1.2.3 Mạng ngang hàng không có cấu trúc Một mạng đồng đẳng không cấu trúc khi các liên kết giữa các nút mạng trong mạng phủ được thiết lậ