Tác giả nhấn mạnh 10 yếu tố mà một công ty nên xem xét khi bắt đầu một dự án
Big Data, thậm chí một trong số đó được coi là một thử nghiệm. Giải pháp dựa trên
nền đám mây được chú trọng vì nó giải quyết được nhiều yếu tố kỹ thuật phức tạp
trong bước đầu triển khai thực hiện Big Data.
15 trang |
Chia sẻ: lylyngoc | Lượt xem: 1515 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Mười cân nhắc dành cho giải pháp Big Data trên đám mây, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Mười cân nhắc dành cho giải
pháp Big Data trên đám mây
Khởi động một môi trường tiêu thụ Big Data dễ dàng hơn trong nền đám mây
Tác giả nhấn mạnh 10 yếu tố mà một công ty nên xem xét khi bắt đầu một dự án
Big Data, thậm chí một trong số đó được coi là một thử nghiệm. Giải pháp dựa trên
nền đám mây được chú trọng vì nó giải quyết được nhiều yếu tố kỹ thuật phức tạp
trong bước đầu triển khai thực hiện Big Data.
Big Data là một khái niệm trong lĩnh vực CNTT đã và đang phát triển rất nhanh và
mạnh. Như trong nhiều lĩnh vực CNTT, công nghệ mới này lần đầu tiên được sử
dụng bởi các doanh nghiệp lớn và sau đó được chấp nhận sử dụng bởi các doanh
nghiệp vừa và nhỏ. Big Data dường như là một tiến trình giống hệt ra đời sau.
Khi Big Data phát triển trong thế giới thực, nó được áp dụng cho các thành phần
dữ liệu không phải là lớn lắm. Các bộ dữ liệu thường là nhỏ bởi đa phần là do các
chuẩn mực được thực hiện bằng các công cụ khai phá Big Data theo những cách
đặc biệt dành riêng cho cấu trúc Big Data.
Thậm chí, chúng ta đều đồng ý rằng trong tương lai, dữ liệu sẽ ngày càng nhiều
hơn chứ không có chuyện ít hơn; thêm nhiều nguồn dữ liệu sẽ gửi dữ liệu vào các
doanh nghiệp và tốc độ của dòng dữ liệu sẽ chỉ tăng lên. Đây là sân chơi tương lai
của Big Data. Một câu hỏi đặt ra về sân chơi đó là nơi mà nó sẽ tồn tại — trên tiền
đề hoặc trong nền đám mây — và nhằm vào các mục đích mà bạn cần phải cân
nhắc để lựa chọn dịch vụ.
Xác định một giải pháp Big Data đám mây
Giống như hầu hết các giải pháp với đám mây, việc xác định chính xác đám mây là
gì có thể hơi khó khăn. Có nhiều đặc trưng khác nhau của đám mây tồn tại trong
không gian Big Data và chưa có một định nghĩa thống nhất chung nào (mặc dù có
một số tốt hơn so với những cái khác).
Đầu tiên, hãy bắt đầu với một trò chơi đố chữ nho nhỏ. Trạng thái của Big Data đạt
được khi khối lượng, chủng loại và tốc độ của dữ liệu vào trở nên quá nhiều đối
với cơ sở dữ liệu quan hệ hiện hành để xử lý và sử dụng trong thời gian thực. Việc
triển khai các công nghệ trong Big Data là sự nỗ lực để xử lý điều kiện đó và cung
cấp những cách thức mới để sử dụng hiệu quả các dữ liệu đó — điều đó có nghĩa là
phần cứng và cách thức mới tổ chức dữ liệu cho việc lưu trữ và đọc cấp tốc. Đây là
bản chất của Big Data.
Đó cũng là lý do tồn tại của Apache Hadoop, MapReduce, và các dự án, sản phẩm
tương tự. Môi trường Big Data dựa trên nền đám mây cần có khả năng tham khảo
dữ liệu bên ngoài, chẳng hạn như hệ thống hoạch định nguồn lực doanh nghiệp và
các cơ sở dữ liệu tiền đề khác, mà luôn định kỳ cập nhật dữ liệu mới. (Bên ngoài ở
đây có nghĩa là bên ngoài môi trường ảo Sandbox của Big Data.)
Vấn đề cần quan tâm là "lưu trữ" dữ liệu. Tiếp theo, bạn cần biết cách để phân tích
và đưa việc phân tích này đến nơi nó sẽ tác động đến quá trình kinh doanh.
Một dịch vụ Big Data cần có khả năng nhìn vào một nguồn dữ liệu đa dạng từ bên
ngoài cho đến nguồn dữ liệu chính, có khả năng bao gồm dữ liệu mới trong trung
tâm dữ liệu, chứa các thành phần dữ liệu mới chưa từng nghĩ đến, và cung cấp một
phương pháp để phân tích và báo cáo dựa trên tổng thể. Nhu cầu về tính nâng cao,
tính linh hoạt và khả năng mở rộng sẽ tự hỗ trợ tốt đối với một môi trường Big
Data dựa trên nền đám mây.
Khởi bước vào Big Data trên đám mây
Những cân nhắc này bao gồm các tiêu chí đánh giá cơ bản cho việc khởi bước vào
Big Data. Bắt đầu, trải nghiệm và học hỏi trong suốt quá trình, nhưng khi bạn càng
xác định trước được nhiều những gì bạn cần từ Big Data thì bạn càng có nhiều thời
gian để tập trung vào trải nghiệm và bạn sẽ càng nhanh chóng đạt được kỹ năng
thiết lập tăng tốc.
1. Lập chỉ mục chung theo thời gian thực cho các dữ liệu máy bất kỳ
Đây là cốt lõi của dữ liệu lớn như hầu hết mọi người nghĩ về nó; nó thường được
đánh đồng với các dự án nguồn mở Hadoop (xem Tài nguyên). Đừng nhầm lẫn
giữa lập bảng chú dẫn trong Hadoop với một bảng chú dẫn trong cơ sở dữ liệu
quan hệ: Một chỉ số Hadoop là một chỉ số tập tin. Bằng cách này, Hadoop có thể
tiêu thụ nhiều loại dữ liệu khác nhau.
Hiện tại, các công ty có thể bị tràn ngập nguồn cấp dữ liệu từ tần số RFID (Radio
Frequency Identification - nhận dạng bằng sóng vô tuyến) lưu động, nhấp chuột
trang web, và các dữ liệu khác có thể được cấu trúc nếu dân CNTT dành thời gian
để làm cho nó thành dữ liệu cấu trúc và đặt nó trong một cơ sở dữ liệu quan hệ. Đó
có thể là giá trị đầu tư nếu bạn biết cách dữ liệu sẽ được sử dụng và cách nó sẽ
được truy vấn và truy cập trong tương lai.
Không cần phải biết tiềm năng sử dụng trong tương lai của dữ liệu mà Hadoop
cung cấp ra. Bằng cách lấy dữ liệu ngay lúc nó vừa đi vào, Big Data sẽ qua mặt
bước xác định dữ liệu cho đến sau này, khi việc phân tích được tiến hành. Hadoop
phân phối dữ liệu qua nhiều máy chủ và theo dõi những địa điểm mà không hạn
chế sử dụng trong tương lai.
2. Hình thức tìm kiếm tự do và phân tích dữ liệu dòng lịch sử và thời gian
thực
Lưu trữ dữ liệu chỉ là một phần của con đường đến mục tiêu. Các thông tin cần
phải tương đối dễ dàng để gọi về. Cách nhanh nhất để làm điều đó là cung cấp khả
năng tìm kiếm nhanh chóng (như trong việc thi hành, không phải thời gian đáp
ứng). Tìm kiếm một bộ công cụ cho phép tìm kiếm văn bản của dữ liệu phi cấu
trúc. Apache Lucene (xem Tài nguyên) là một công cụ phổ biến mà cung cấp chỉ
mục văn bản và tìm kiếm trong một môi trường dữ liệu lớn.
Việc có một phản hồi đúng trên màn hình làm người ta hài lòng, cảm giác giống
như rằng tất cả mọi thứ đang được lưu trữ đúng cách và có thể truy cập được. Các
bước quản trị của việc này là để lập chỉ mục nội dung của dữ liệu được lưu trữ
trong các nút phân bổ. Truy vấn tìm kiếm sau đó truy cập các chỉ mục trên các nút
phân bổ song song để cung cấp một phản hồi nhanh hơn.
3. Tự động khám phá tri thức từ dữ liệu
Đây là một trong những lý do kinh doanh sắp tới của Big Data. Cũng như việc
chuyển tất cả các dữ liệu bán cấu trúc thành một cơ sở dữ liệu quan hệ có thể
không hiệu quả, việc thực hiện tìm kiếm thủ công và báo cáo thủ công cũng không
hiệu quả gì cho công việc phân tích.
Khai phá dữ liệu và công cụ phân tích dự báo được nhanh chóng chuyển đổi để có
khả năng sử dụng Big Data như một nguồn dữ liệu phục vụ cho phân tích và trở
thành một cơ sở dữ liệu dành cho việc giám sát liên tục sự thay đổi. Tất cả các
công cụ khai phá dữ liệu điều tuân theo quy trình này. Một số xác định mục đích
của việc phân tích, xem xét các dữ liệu, và sau đó phát triển mô hình thống kê cung
cấp các hiểu biết thấu đáo hoặc đưa ra các dự đoán. Các mô hình thống kê đó cần
phải được triển khai trong môi trường Big Data để thực hiện đánh giá liên tục.
Phần này nên được tự động hóa.
4. Giám sát dữ liệu của bạn và cung cấp các cảnh báo theo thời gian thực
Tìm kiếm một công cụ để giám sát các dữ liệu trong Big Data. Công cụ này tồn tại
để tạo ra các truy vấn được xử lý liên tục, tìm kiếm các tiêu chí cần có.
Tôi không thể liệt kê tất cả những ứng dụng có thể giám sát dữ liệu đi vào Hadoop
theo thời gian thực. Giả định rằng hầu hết các dữ liệu ràng buộc là không có cấu
trúc và không dành cho một cơ sở dữ liệu quan hệ nào, giám sát theo thời gian thực
có lẽ là cách mà một phần tử dữ liệu được kiểm tra chặt chẽ nhất.
Ví dụ, bạn có thể thiết lập một cảnh báo khi các chip RFID trong một mặt hàng
thực phẩm đông lạnh được lưu trữ trong một khu vực không phải đông lạnh. Đó là
cảnh báo có thể đi trực tiếp vào thiết bị di động được sử dụng trong các kho, ngăn
ngừa hư hỏng thực phẩm.
Những chuyển động của khách hàng trong một cửa hàng cũng có thể được theo dõi
và các quảng cáo sẽ được nhằm vào chính xác vị trí mà khách hàng đang đứng
trước một mặt hàng cụ thể, sẽ được phát trên màn hình tại vị trí chiến lược. (Điều
này còn xa vời và có thể hơi giống "Big Brother" một chút, nhưng rất khả thi.)
5. Cung cấp năng lực phân tích và báo cáo ad hoc
Giống như trong khai khoáng dữ liệu tự động và khám phá tri thức, các nhà phân
tích cũng cần truy cập để lấy và tóm tắt thông tin từ Big Data trong môi trường
đám mây. Bảng danh sách các nhà cung cấp mà công cụ của họ phục vụ cho việc
báo cáo từ Big Data, dường như mỗi ngày lại dài ra thêm.
Một số công cụ sử dụng Apache Hive, và HQL (Hive Query Language - ngôn ngữ
truy vấn Hive; xem Tài nguyên). Các câu lệnh của HQL cũng tương tự như các câu
lệnh của SQL (Structured Query Language - Ngôn ngữ truy vấn có cấu trúc) và
nhiều công cụ mà cung cấp các kiểu báo cáo quen thuộc từ Big Data cũng sử dụng
HQL và giao diện Hive để chạy truy vấn xuyên suốt MapReduce.
Apache Pig là một dự án mã nguồn mở khác dành cho việc báo cáo và thao tác trên
Big Data. Cú pháp của nó không giống với SQL cho lắm nhưng lại rất giống với
một ngôn ngữ kịch bản (scripting). Nó cũng vận hành xuyên suốt quá trình xử lí
MapReduce để tiện cho việc xử lí song song.
Các nhà cung cấp Big Data đám mây nên chấp nhận cả hai dạng câu lệnh HQL và
Pig đến từ các yêu cầu bên ngoài. Bằng cách đó, kho lưu trữ Big Data có thể được
truy vấn bởi những người sử dụng công cụ theo cách chọn lựa của riêng họ, thậm
chí sử dụng cả những công cụ mà trước đó chưa hề được tạo ra.
6. Cung cấp khả năng xây dựng nhanh chóng các khung nhìn và bảng giám
sát tùy chỉnh
Giống như sự phát triển các dự án thu thập tin tức kinh doanh truyền thống, khi
mọi người có thể thực hiện truy vấn trên Big Data và xuất ra các báo cáo, họ muốn
tự động hóa chức năng đó và tạo ra một bảng giám sát với các hình ảnh đẹp mắt để
tiện việc xem đi xem lại nhiều lần.
Trừ khi người dùng tự viết ra các câu lệnh Hive và chỉ sử dụng cấu trúc Hive,
nhưng hầu hết các công cụ đều có một số khả năng để tạo ra các khung hiển thị
dưới dạng bảng giám sát từ những câu lệnh truy vấn của chúng. Vẫn còn hơi sớm
để triển khai Big Data cho việc trích dẫn ra các ví dụ về bảng giám sát. Có một dự
báo, mà dựa trên lịch sử trong ngành thu thập tin tức kinh doanh, cho rằng, các
bảng giám sát sẽ trở thành một phương tiện diễn đạt nội bộ rất quan trọng dành cho
các Big Data tóm lược. Và theo dòng lịch sử của Business Intelligence, việc có
được các bảng giám sát Big Data tốt sẽ rất quan trọng cho việc lấy và duy trì các
hỗ trợ thi hành.
7. Quy mô có hiệu quả đối với bất kỳ khối lượng dữ liệu sử dụng phần cứng
thương mại
Khi sử dụng một dịch vụ dữ liệu lớn đám mây, đây là một quan điểm lý thuyết hơn
là thực tiễn. Nó còn tùy vào quyết định của nhà cung cấp dịch vụ để có được, sự
cung cấp, và triển khai phần cứng vào đúng chỗ mà dữ liệu thường trú. Việc lựa
chọn phần cứng không thành vấn đề.
Thật biết ơn khi các hóa đơn thanh toán Big Data chỉ đến từ việc thiết kế để sử
dụng phần cứng thương mại. Có các nút liên kết chắc chắn trong nền kiến trúc nơi
mà một máy chủ "chất lượng cao" làm việc tốt. Tuy nhiên, phần lớn các nút
(những nút lưu trữ dữ liệu) trong một kiến trúc dữ liệu lớn có thể nằm ở chỗ phần
cứng "kém chất lượng hơn".
8. Cung cấp sự kiểm soát truy cập và an ninh dựa trên vai trò phân chia
Khi dữ liệu phi cấu trúc tồn tại trong một thế giới dữ liệu quan hệ, sự phức tạp của
việc truy xuất dữ liệu có thể cản trở mọi người trong việc lấy ra dữ liệu. Các công
cụ báo cáo thông thường sẽ không giúp ích. Việc chuyển đổi thành Big Data là một
bước tích cực hướng về việc làm cho sự phức tạp trở nên dễ dàng hơn để truy xuất.
Nhưng không may, các thiết lập an ninh giống như vậy thường không chuyển đổi
các hệ thống quan hệ hiện hữu thành dạng Big Data.
Có được một sự an ninh tốt sẽ trở nên quan trọng hơn nữa khi mà Big Data ngày
càng được sử dụng nhiều hơn. Ban đầu, việc an ninh có thể thoải mái bởi vì không
ai biết làm gì với Big Data (tôi đang bị mỉa mai đấy!). Khi các công ty phát triển
thêm nhiều trình phân tích sử dụng dữ liệu trong Big Data. Các thành quả cần được
bảo vệ, cụ thể là các báo cáo và các bảng giám sát, cũng tương tự cho cách làm thế
nào để bảo vệ các hệ thống quan hệ.
Khởi đầu với Big Data đám mây, cần chú ý đến nhu cầu áp dụng an ninh vào một
số mục đích nào đó, cụ thể là cho môi trường giám sát và báo cáo. Để khởi đầu, tuy
nhiên, tôi khuyên là hãy để các trình phân tích chạy tự do. Đó là cách tốt nhất để
phát triển nên sự hiểu biết mới.
9. Hỗ trợ multi-tenancy (đa thuê mướn) và triển khai linh hoạt
Việc sử dụng điện toán đám mây đã mang lại khái niệm về multi-tenancy — rõ
ràng, không phải là một xem xét trên tiền đề môi trường Big Data.
Nhiều người lo lắng về việc đặt dữ liệu quan trọng trong một môi trường đám mây.
Điều quan trọng là các đám mây cung cấp cho việc triển khai với chi phí thấp và
nhanh chóng cần thiết để bắt đầu dự án Big Data. Đúng vậy, vì nhà cung cấp điện
toán đám mây sẽ đặt các dữ liệu trong một kiến trúc mà tài nguyên phần cứng được
chia sẻ, chi phí thì thấp hơn đáng kể.
Tất cả mọi thứ đều như nhau , điều này thật tốt khi chỉ có dữ liệu của bạn trên
chính máy chủ của bạn với một người nào đó quản lý toàn bộ việc cài đặt. Tuy vậy,
đó không phải là một mô hình kinh doanh hiệu quả khi nhu cầu Big Data đôi lúc bị
gián đoạn. Kết quả là tốn chi phí hơn vì các công ty sẽ phải chi trả cho nhiều thời
giờ vô ích, đặc biệt là trong các dự án đầu, khi các nhà phân tích vẫn còn đang
khám phá, vận dụng, và học hỏi về Big Data.
10. Tích hợp và mở rộng thông qua các tài liệu hướng dẫn API
Có nhiều cách hiểu bài viết này có thể là một số ít dự án Big Data xa vời với cách
viết các giao diện phần mềm của riêng chúng dành cho Big Data. Cũng nên để ý,
mặc dù, điều đó có thể và đang được thực hiện mỗi ngày.
Big Data được thiết kế để truy cập bởi các ứng dụng tùy chỉnh. Các phương pháp
tiếp cận phổ biến là sử dụng giao diện lập trình ứng dụng (APIs) RESTful
(Representational State Transfer - Bộ truyền trạng thái đại diện). Những thứ này
đều có sẵn cho tất cả các ứng dụng trong môi trường Big Data — để quản lý kiểm
soát, lưu trữ dữ liệu và báo cáo số liệu. Bởi vì tất cả các thành phần cơ bản của Big
Data là mã nguồn mở, các API này đều được chỉ dẫn bài bản và hiện diện công
khai để sử dụng. Hy vọng rằng, các nhà cung cấp Big Data đám mây sẽ cho phép
truy cập vào tất cả các API hiện hành và tương lai, đặt dưới chế độ bảo mật thích
hợp.
Bắt đầu với Big Data trên đám mây
Với 10 điều cân nhắc then chốt ở trên, hãy chọn lựa nhà cung cấp Big Data phù
hợp với bạn. Cái gì? Cần thông tin gì?
Thực tế, một dự án Big Data khởi đầu bằng việc thực hiện hết mọi thứ mà tôi vừa
mô tả trong chế độ hàng loạt, bỏ đi khía cạnh thời gian thực cho sau này. Khi nói
về chế độ hàng loạt, ý của tôi là khi các công cụ và các quá trình xử lý được
nghiên cứu, môi trường Big Data không cần phải chạy liên tục nữa. Tôi đề nghị tìm
kiếm một nhà cung cấp mà cho phép việc bắt đầu và dừng các thể hiện của máy
chủ khi cần để giảm thiểu chi phí.
Cài đặt tiền đề môi trường Big Data của riêng bạn, đòi hỏi phải có kĩ năng về công
nghệ Java™ và các kĩ năng cơ bản về Linux® cũng như UNIX®. Khi đã nắm vững
điều này, hãy hỏi nhà cung cấp nền điện toán đám mây trong tương lai rằng, khối
lượng công việc quản lý cần thực hiện là bao nhiêu hoặc mức độ tiếp nhận dịch vụ
khi chuyển giao.
Một nơi để ghé thăm và học hỏi cách cài đặt, thử nghiệm, và duy trì một môi
trường Big Data là BigDataUniversity.com (xem Tài nguyên). Đăng kí tại đó miễn
phí. Các video nhiều giờ được sắp xếp bởi nhiều đường dẫn và thậm chí site còn đề
tặng các chứng chỉ cho việc hoàn thành nhiều theo dõi. Như bài viết này đã nói,
quyển sách điện tử Hadoop for Dummies sẵn sàng để tải về miễn phí.
Cùng với việc học hỏi, là việc cung cấp một ví dụ về môi trường Big Data của một
trong các nhà cung cấp. Nhiều hướng dẫn học hỏi tại BigDataUniversity.com bao
gồm cách cài đặt và sử dụng Big Data trong IBM SmartCloud và trên Amazon
Web Services. Những dịch vụ đám mây này (và nhiều cái khác) loại bỏ được nhiều
sự phức tạp trong việc cài đặt và trưng dụng môi trường của bạn. Xem video
hướng dẫn tại BigDataUniversity.com để vượt qua các thách thức mà thường cản
trở những cái khác trong việc cài đặt và thử nghiệm Big Data cho lần đầu tiên sử
dụng.
Thật may mắn, các dịch vụ điện toán đám mây đã tháo bỏ nhiều vấn đề bảo trì
trong một môi trường Big Data ra khỏi danh sách tác vụ. Chúng dĩ nhiên sẽ đảm
nhiệm việc trông coi phần cứng và các nhu cầu của phòng máy chủ. Bạn sẽ phải
duy trì dữ liệu, thêm vào các máy chủ và các kho lưu trữ dữ liệu thay thế khi cần
phát triển thêm nữa.
Big Data là một trải nghiệm nghiên cứu và phát triển cho tất cả mọi người. Các
công cụ mới và đa dạng liên tục xuất hiện trên thị trường. Các nhà cung cấp đang
tồn tại trong một môi trường Business Intelligence đang cung cấp các bộ liên kết
để sử dụng công cụ của họ với các bộ hỗ trợ Big Data.
Việc sử dụng một môi trường Big Data đám mây sẽ làm cho việc khởi đầu trở nên
dễ dàng nhiều hơn nữa. Mang lợi thế của cơ chế khởi động đơn giản bằng việc sử
dụng một dịch vụ điện toán đám mây đến với Big Data trong một dự án nhỏ ban
đầu. Đừng ngại khó mà hãy học hỏi. Làm sáng tỏ các giá trị sau đó, hãy tự tin
chuyển qua các dự án lớn hơn trong một tương lai không xa.