Mười cân nhắc dành cho giải pháp Big Data trên đám mây - Tài liệu, ebook, giáo trình, hướng dẫn

Tác giả nhấn mạnh 10 yếu tố mà một công ty nên xem xét khi bắt đầu một dự án Big Data, thậm chí một trong số đó được coi là một thử nghiệm. Giải pháp dựa trên nền đám mây được chú trọng vì nó giải quyết được nhiều yếu tố kỹ thuật phức tạp trong bước đầu triển khai thực hiện Big Data.

15 trang | Chia sẻ: lylyngoc | Lượt xem: 1410 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Mười cân nhắc dành cho giải pháp Big Data trên đám mây, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Mười cân nhắc dành cho giải pháp Big Data trên đám mây Khởi động một môi trường tiêu thụ Big Data dễ dàng hơn trong nền đám mây Tác giả nhấn mạnh 10 yếu tố mà một công ty nên xem xét khi bắt đầu một dự án Big Data, thậm chí một trong số đó được coi là một thử nghiệm. Giải pháp dựa trên nền đám mây được chú trọng vì nó giải quyết được nhiều yếu tố kỹ thuật phức tạp trong bước đầu triển khai thực hiện Big Data. Big Data là một khái niệm trong lĩnh vực CNTT đã và đang phát triển rất nhanh và mạnh. Như trong nhiều lĩnh vực CNTT, công nghệ mới này lần đầu tiên được sử dụng bởi các doanh nghiệp lớn và sau đó được chấp nhận sử dụng bởi các doanh nghiệp vừa và nhỏ. Big Data dường như là một tiến trình giống hệt ra đời sau. Khi Big Data phát triển trong thế giới thực, nó được áp dụng cho các thành phần dữ liệu không phải là lớn lắm. Các bộ dữ liệu thường là nhỏ bởi đa phần là do các chuẩn mực được thực hiện bằng các công cụ khai phá Big Data theo những cách đặc biệt dành riêng cho cấu trúc Big Data. Thậm chí, chúng ta đều đồng ý rằng trong tương lai, dữ liệu sẽ ngày càng nhiều hơn chứ không có chuyện ít hơn; thêm nhiều nguồn dữ liệu sẽ gửi dữ liệu vào các doanh nghiệp và tốc độ của dòng dữ liệu sẽ chỉ tăng lên. Đây là sân chơi tương lai của Big Data. Một câu hỏi đặt ra về sân chơi đó là nơi mà nó sẽ tồn tại — trên tiền đề hoặc trong nền đám mây — và nhằm vào các mục đích mà bạn cần phải cân nhắc để lựa chọn dịch vụ. Xác định một giải pháp Big Data đám mây Giống như hầu hết các giải pháp với đám mây, việc xác định chính xác đám mây là gì có thể hơi khó khăn. Có nhiều đặc trưng khác nhau của đám mây tồn tại trong không gian Big Data và chưa có một định nghĩa thống nhất chung nào (mặc dù có một số tốt hơn so với những cái khác). Đầu tiên, hãy bắt đầu với một trò chơi đố chữ nho nhỏ. Trạng thái của Big Data đạt được khi khối lượng, chủng loại và tốc độ của dữ liệu vào trở nên quá nhiều đối với cơ sở dữ liệu quan hệ hiện hành để xử lý và sử dụng trong thời gian thực. Việc triển khai các công nghệ trong Big Data là sự nỗ lực để xử lý điều kiện đó và cung cấp những cách thức mới để sử dụng hiệu quả các dữ liệu đó — điều đó có nghĩa là phần cứng và cách thức mới tổ chức dữ liệu cho việc lưu trữ và đọc cấp tốc. Đây là bản chất của Big Data. Đó cũng là lý do tồn tại của Apache Hadoop, MapReduce, và các dự án, sản phẩm tương tự. Môi trường Big Data dựa trên nền đám mây cần có khả năng tham khảo dữ liệu bên ngoài, chẳng hạn như hệ thống hoạch định nguồn lực doanh nghiệp và các cơ sở dữ liệu tiền đề khác, mà luôn định kỳ cập nhật dữ liệu mới. (Bên ngoài ở đây có nghĩa là bên ngoài môi trường ảo Sandbox của Big Data.) Vấn đề cần quan tâm là "lưu trữ" dữ liệu. Tiếp theo, bạn cần biết cách để phân tích và đưa việc phân tích này đến nơi nó sẽ tác động đến quá trình kinh doanh. Một dịch vụ Big Data cần có khả năng nhìn vào một nguồn dữ liệu đa dạng từ bên ngoài cho đến nguồn dữ liệu chính, có khả năng bao gồm dữ liệu mới trong trung tâm dữ liệu, chứa các thành phần dữ liệu mới chưa từng nghĩ đến, và cung cấp một phương pháp để phân tích và báo cáo dựa trên tổng thể. Nhu cầu về tính nâng cao, tính linh hoạt và khả năng mở rộng sẽ tự hỗ trợ tốt đối với một môi trường Big Data dựa trên nền đám mây. Khởi bước vào Big Data trên đám mây Những cân nhắc này bao gồm các tiêu chí đánh giá cơ bản cho việc khởi bước vào Big Data. Bắt đầu, trải nghiệm và học hỏi trong suốt quá trình, nhưng khi bạn càng xác định trước được nhiều những gì bạn cần từ Big Data thì bạn càng có nhiều thời gian để tập trung vào trải nghiệm và bạn sẽ càng nhanh chóng đạt được kỹ năng thiết lập tăng tốc. 1. Lập chỉ mục chung theo thời gian thực cho các dữ liệu máy bất kỳ Đây là cốt lõi của dữ liệu lớn như hầu hết mọi người nghĩ về nó; nó thường được đánh đồng với các dự án nguồn mở Hadoop (xem Tài nguyên). Đừng nhầm lẫn giữa lập bảng chú dẫn trong Hadoop với một bảng chú dẫn trong cơ sở dữ liệu quan hệ: Một chỉ số Hadoop là một chỉ số tập tin. Bằng cách này, Hadoop có thể tiêu thụ nhiều loại dữ liệu khác nhau. Hiện tại, các công ty có thể bị tràn ngập nguồn cấp dữ liệu từ tần số RFID (Radio Frequency Identification - nhận dạng bằng sóng vô tuyến) lưu động, nhấp chuột trang web, và các dữ liệu khác có thể được cấu trúc nếu dân CNTT dành thời gian để làm cho nó thành dữ liệu cấu trúc và đặt nó trong một cơ sở dữ liệu quan hệ. Đó có thể là giá trị đầu tư nếu bạn biết cách dữ liệu sẽ được sử dụng và cách nó sẽ được truy vấn và truy cập trong tương lai. Không cần phải biết tiềm năng sử dụng trong tương lai của dữ liệu mà Hadoop cung cấp ra. Bằng cách lấy dữ liệu ngay lúc nó vừa đi vào, Big Data sẽ qua mặt bước xác định dữ liệu cho đến sau này, khi việc phân tích được tiến hành. Hadoop phân phối dữ liệu qua nhiều máy chủ và theo dõi những địa điểm mà không hạn chế sử dụng trong tương lai. 2. Hình thức tìm kiếm tự do và phân tích dữ liệu dòng lịch sử và thời gian thực Lưu trữ dữ liệu chỉ là một phần của con đường đến mục tiêu. Các thông tin cần phải tương đối dễ dàng để gọi về. Cách nhanh nhất để làm điều đó là cung cấp khả năng tìm kiếm nhanh chóng (như trong việc thi hành, không phải thời gian đáp ứng). Tìm kiếm một bộ công cụ cho phép tìm kiếm văn bản của dữ liệu phi cấu trúc. Apache Lucene (xem Tài nguyên) là một công cụ phổ biến mà cung cấp chỉ mục văn bản và tìm kiếm trong một môi trường dữ liệu lớn. Việc có một phản hồi đúng trên màn hình làm người ta hài lòng, cảm giác giống như rằng tất cả mọi thứ đang được lưu trữ đúng cách và có thể truy cập được. Các bước quản trị của việc này là để lập chỉ mục nội dung của dữ liệu được lưu trữ trong các nút phân bổ. Truy vấn tìm kiếm sau đó truy cập các chỉ mục trên các nút phân bổ song song để cung cấp một phản hồi nhanh hơn. 3. Tự động khám phá tri thức từ dữ liệu Đây là một trong những lý do kinh doanh sắp tới của Big Data. Cũng như việc chuyển tất cả các dữ liệu bán cấu trúc thành một cơ sở dữ liệu quan hệ có thể không hiệu quả, việc thực hiện tìm kiếm thủ công và báo cáo thủ công cũng không hiệu quả gì cho công việc phân tích. Khai phá dữ liệu và công cụ phân tích dự báo được nhanh chóng chuyển đổi để có khả năng sử dụng Big Data như một nguồn dữ liệu phục vụ cho phân tích và trở thành một cơ sở dữ liệu dành cho việc giám sát liên tục sự thay đổi. Tất cả các công cụ khai phá dữ liệu điều tuân theo quy trình này. Một số xác định mục đích của việc phân tích, xem xét các dữ liệu, và sau đó phát triển mô hình thống kê cung cấp các hiểu biết thấu đáo hoặc đưa ra các dự đoán. Các mô hình thống kê đó cần phải được triển khai trong môi trường Big Data để thực hiện đánh giá liên tục. Phần này nên được tự động hóa. 4. Giám sát dữ liệu của bạn và cung cấp các cảnh báo theo thời gian thực Tìm kiếm một công cụ để giám sát các dữ liệu trong Big Data. Công cụ này tồn tại để tạo ra các truy vấn được xử lý liên tục, tìm kiếm các tiêu chí cần có. Tôi không thể liệt kê tất cả những ứng dụng có thể giám sát dữ liệu đi vào Hadoop theo thời gian thực. Giả định rằng hầu hết các dữ liệu ràng buộc là không có cấu trúc và không dành cho một cơ sở dữ liệu quan hệ nào, giám sát theo thời gian thực có lẽ là cách mà một phần tử dữ liệu được kiểm tra chặt chẽ nhất. Ví dụ, bạn có thể thiết lập một cảnh báo khi các chip RFID trong một mặt hàng thực phẩm đông lạnh được lưu trữ trong một khu vực không phải đông lạnh. Đó là cảnh báo có thể đi trực tiếp vào thiết bị di động được sử dụng trong các kho, ngăn ngừa hư hỏng thực phẩm. Những chuyển động của khách hàng trong một cửa hàng cũng có thể được theo dõi và các quảng cáo sẽ được nhằm vào chính xác vị trí mà khách hàng đang đứng trước một mặt hàng cụ thể, sẽ được phát trên màn hình tại vị trí chiến lược. (Điều này còn xa vời và có thể hơi giống "Big Brother" một chút, nhưng rất khả thi.) 5. Cung cấp năng lực phân tích và báo cáo ad hoc Giống như trong khai khoáng dữ liệu tự động và khám phá tri thức, các nhà phân tích cũng cần truy cập để lấy và tóm tắt thông tin từ Big Data trong môi trường đám mây. Bảng danh sách các nhà cung cấp mà công cụ của họ phục vụ cho việc báo cáo từ Big Data, dường như mỗi ngày lại dài ra thêm. Một số công cụ sử dụng Apache Hive, và HQL (Hive Query Language - ngôn ngữ truy vấn Hive; xem Tài nguyên). Các câu lệnh của HQL cũng tương tự như các câu lệnh của SQL (Structured Query Language - Ngôn ngữ truy vấn có cấu trúc) và nhiều công cụ mà cung cấp các kiểu báo cáo quen thuộc từ Big Data cũng sử dụng HQL và giao diện Hive để chạy truy vấn xuyên suốt MapReduce. Apache Pig là một dự án mã nguồn mở khác dành cho việc báo cáo và thao tác trên Big Data. Cú pháp của nó không giống với SQL cho lắm nhưng lại rất giống với một ngôn ngữ kịch bản (scripting). Nó cũng vận hành xuyên suốt quá trình xử lí MapReduce để tiện cho việc xử lí song song. Các nhà cung cấp Big Data đám mây nên chấp nhận cả hai dạng câu lệnh HQL và Pig đến từ các yêu cầu bên ngoài. Bằng cách đó, kho lưu trữ Big Data có thể được truy vấn bởi những người sử dụng công cụ theo cách chọn lựa của riêng họ, thậm chí sử dụng cả những công cụ mà trước đó chưa hề được tạo ra. 6. Cung cấp khả năng xây dựng nhanh chóng các khung nhìn và bảng giám sát tùy chỉnh Giống như sự phát triển các dự án thu thập tin tức kinh doanh truyền thống, khi mọi người có thể thực hiện truy vấn trên Big Data và xuất ra các báo cáo, họ muốn tự động hóa chức năng đó và tạo ra một bảng giám sát với các hình ảnh đẹp mắt để tiện việc xem đi xem lại nhiều lần. Trừ khi người dùng tự viết ra các câu lệnh Hive và chỉ sử dụng cấu trúc Hive, nhưng hầu hết các công cụ đều có một số khả năng để tạo ra các khung hiển thị dưới dạng bảng giám sát từ những câu lệnh truy vấn của chúng. Vẫn còn hơi sớm để triển khai Big Data cho việc trích dẫn ra các ví dụ về bảng giám sát. Có một dự báo, mà dựa trên lịch sử trong ngành thu thập tin tức kinh doanh, cho rằng, các bảng giám sát sẽ trở thành một phương tiện diễn đạt nội bộ rất quan trọng dành cho các Big Data tóm lược. Và theo dòng lịch sử của Business Intelligence, việc có được các bảng giám sát Big Data tốt sẽ rất quan trọng cho việc lấy và duy trì các hỗ trợ thi hành. 7. Quy mô có hiệu quả đối với bất kỳ khối lượng dữ liệu sử dụng phần cứng thương mại Khi sử dụng một dịch vụ dữ liệu lớn đám mây, đây là một quan điểm lý thuyết hơn là thực tiễn. Nó còn tùy vào quyết định của nhà cung cấp dịch vụ để có được, sự cung cấp, và triển khai phần cứng vào đúng chỗ mà dữ liệu thường trú. Việc lựa chọn phần cứng không thành vấn đề. Thật biết ơn khi các hóa đơn thanh toán Big Data chỉ đến từ việc thiết kế để sử dụng phần cứng thương mại. Có các nút liên kết chắc chắn trong nền kiến trúc nơi mà một máy chủ "chất lượng cao" làm việc tốt. Tuy nhiên, phần lớn các nút (những nút lưu trữ dữ liệu) trong một kiến trúc dữ liệu lớn có thể nằm ở chỗ phần cứng "kém chất lượng hơn". 8. Cung cấp sự kiểm soát truy cập và an ninh dựa trên vai trò phân chia Khi dữ liệu phi cấu trúc tồn tại trong một thế giới dữ liệu quan hệ, sự phức tạp của việc truy xuất dữ liệu có thể cản trở mọi người trong việc lấy ra dữ liệu. Các công cụ báo cáo thông thường sẽ không giúp ích. Việc chuyển đổi thành Big Data là một bước tích cực hướng về việc làm cho sự phức tạp trở nên dễ dàng hơn để truy xuất. Nhưng không may, các thiết lập an ninh giống như vậy thường không chuyển đổi các hệ thống quan hệ hiện hữu thành dạng Big Data. Có được một sự an ninh tốt sẽ trở nên quan trọng hơn nữa khi mà Big Data ngày càng được sử dụng nhiều hơn. Ban đầu, việc an ninh có thể thoải mái bởi vì không ai biết làm gì với Big Data (tôi đang bị mỉa mai đấy!). Khi các công ty phát triển thêm nhiều trình phân tích sử dụng dữ liệu trong Big Data. Các thành quả cần được bảo vệ, cụ thể là các báo cáo và các bảng giám sát, cũng tương tự cho cách làm thế nào để bảo vệ các hệ thống quan hệ. Khởi đầu với Big Data đám mây, cần chú ý đến nhu cầu áp dụng an ninh vào một số mục đích nào đó, cụ thể là cho môi trường giám sát và báo cáo. Để khởi đầu, tuy nhiên, tôi khuyên là hãy để các trình phân tích chạy tự do. Đó là cách tốt nhất để phát triển nên sự hiểu biết mới. 9. Hỗ trợ multi-tenancy (đa thuê mướn) và triển khai linh hoạt Việc sử dụng điện toán đám mây đã mang lại khái niệm về multi-tenancy — rõ ràng, không phải là một xem xét trên tiền đề môi trường Big Data. Nhiều người lo lắng về việc đặt dữ liệu quan trọng trong một môi trường đám mây. Điều quan trọng là các đám mây cung cấp cho việc triển khai với chi phí thấp và nhanh chóng cần thiết để bắt đầu dự án Big Data. Đúng vậy, vì nhà cung cấp điện toán đám mây sẽ đặt các dữ liệu trong một kiến trúc mà tài nguyên phần cứng được chia sẻ, chi phí thì thấp hơn đáng kể. Tất cả mọi thứ đều như nhau , điều này thật tốt khi chỉ có dữ liệu của bạn trên chính máy chủ của bạn với một người nào đó quản lý toàn bộ việc cài đặt. Tuy vậy, đó không phải là một mô hình kinh doanh hiệu quả khi nhu cầu Big Data đôi lúc bị gián đoạn. Kết quả là tốn chi phí hơn vì các công ty sẽ phải chi trả cho nhiều thời giờ vô ích, đặc biệt là trong các dự án đầu, khi các nhà phân tích vẫn còn đang khám phá, vận dụng, và học hỏi về Big Data. 10. Tích hợp và mở rộng thông qua các tài liệu hướng dẫn API Có nhiều cách hiểu bài viết này có thể là một số ít dự án Big Data xa vời với cách viết các giao diện phần mềm của riêng chúng dành cho Big Data. Cũng nên để ý, mặc dù, điều đó có thể và đang được thực hiện mỗi ngày. Big Data được thiết kế để truy cập bởi các ứng dụng tùy chỉnh. Các phương pháp tiếp cận phổ biến là sử dụng giao diện lập trình ứng dụng (APIs) RESTful (Representational State Transfer - Bộ truyền trạng thái đại diện). Những thứ này đều có sẵn cho tất cả các ứng dụng trong môi trường Big Data — để quản lý kiểm soát, lưu trữ dữ liệu và báo cáo số liệu. Bởi vì tất cả các thành phần cơ bản của Big Data là mã nguồn mở, các API này đều được chỉ dẫn bài bản và hiện diện công khai để sử dụng. Hy vọng rằng, các nhà cung cấp Big Data đám mây sẽ cho phép truy cập vào tất cả các API hiện hành và tương lai, đặt dưới chế độ bảo mật thích hợp. Bắt đầu với Big Data trên đám mây Với 10 điều cân nhắc then chốt ở trên, hãy chọn lựa nhà cung cấp Big Data phù hợp với bạn. Cái gì? Cần thông tin gì? Thực tế, một dự án Big Data khởi đầu bằng việc thực hiện hết mọi thứ mà tôi vừa mô tả trong chế độ hàng loạt, bỏ đi khía cạnh thời gian thực cho sau này. Khi nói về chế độ hàng loạt, ý của tôi là khi các công cụ và các quá trình xử lý được nghiên cứu, môi trường Big Data không cần phải chạy liên tục nữa. Tôi đề nghị tìm kiếm một nhà cung cấp mà cho phép việc bắt đầu và dừng các thể hiện của máy chủ khi cần để giảm thiểu chi phí. Cài đặt tiền đề môi trường Big Data của riêng bạn, đòi hỏi phải có kĩ năng về công nghệ Java™ và các kĩ năng cơ bản về Linux® cũng như UNIX®. Khi đã nắm vững điều này, hãy hỏi nhà cung cấp nền điện toán đám mây trong tương lai rằng, khối lượng công việc quản lý cần thực hiện là bao nhiêu hoặc mức độ tiếp nhận dịch vụ khi chuyển giao. Một nơi để ghé thăm và học hỏi cách cài đặt, thử nghiệm, và duy trì một môi trường Big Data là BigDataUniversity.com (xem Tài nguyên). Đăng kí tại đó miễn phí. Các video nhiều giờ được sắp xếp bởi nhiều đường dẫn và thậm chí site còn đề tặng các chứng chỉ cho việc hoàn thành nhiều theo dõi. Như bài viết này đã nói, quyển sách điện tử Hadoop for Dummies sẵn sàng để tải về miễn phí. Cùng với việc học hỏi, là việc cung cấp một ví dụ về môi trường Big Data của một trong các nhà cung cấp. Nhiều hướng dẫn học hỏi tại BigDataUniversity.com bao gồm cách cài đặt và sử dụng Big Data trong IBM SmartCloud và trên Amazon Web Services. Những dịch vụ đám mây này (và nhiều cái khác) loại bỏ được nhiều sự phức tạp trong việc cài đặt và trưng dụng môi trường của bạn. Xem video hướng dẫn tại BigDataUniversity.com để vượt qua các thách thức mà thường cản trở những cái khác trong việc cài đặt và thử nghiệm Big Data cho lần đầu tiên sử dụng. Thật may mắn, các dịch vụ điện toán đám mây đã tháo bỏ nhiều vấn đề bảo trì trong một môi trường Big Data ra khỏi danh sách tác vụ. Chúng dĩ nhiên sẽ đảm nhiệm việc trông coi phần cứng và các nhu cầu của phòng máy chủ. Bạn sẽ phải duy trì dữ liệu, thêm vào các máy chủ và các kho lưu trữ dữ liệu thay thế khi cần phát triển thêm nữa. Big Data là một trải nghiệm nghiên cứu và phát triển cho tất cả mọi người. Các công cụ mới và đa dạng liên tục xuất hiện trên thị trường. Các nhà cung cấp đang tồn tại trong một môi trường Business Intelligence đang cung cấp các bộ liên kết để sử dụng công cụ của họ với các bộ hỗ trợ Big Data. Việc sử dụng một môi trường Big Data đám mây sẽ làm cho việc khởi đầu trở nên dễ dàng nhiều hơn nữa. Mang lợi thế của cơ chế khởi động đơn giản bằng việc sử dụng một dịch vụ điện toán đám mây đến với Big Data trong một dự án nhỏ ban đầu. Đừng ngại khó mà hãy học hỏi. Làm sáng tỏ các giá trị sau đó, hãy tự tin chuyển qua các dự án lớn hơn trong một tương lai không xa.