Các doanh nghiệp và khách hàng toàn cầu ngày càng thay đổi. Nó không chỉ còn là
dữ liệu khách hàng. Mục đích của một nền tảng phân tích Big Data và Business
Intelligence tích hợp là khai thác sâu hơn các câu hỏi vì sao, ở đâu, cái gì và như
thế nào về khách hàng, sản phẩ m và công ty. Bài này sẽ thảo luận về việc tích hợp
Business Intelligence và phân tích Big Data.
13 trang |
Chia sẻ: lylyngoc | Lượt xem: 1891 | Lượt tải: 2
Bạn đang xem nội dung tài liệu Phân tích Business Intelligence dựa trên Big Data, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Phân tích Business
Intelligence dựa trên Big Data
Các doanh nghiệp và khách hàng toàn cầu ngày càng thay đổi. Nó không chỉ còn là
dữ liệu khách hàng. Mục đích của một nền tảng phân tích Big Data và Business
Intelligence tích hợp là khai thác sâu hơn các câu hỏi vì sao, ở đâu, cái gì và như
thế nào về khách hàng, sản phẩm và công ty. Bài này sẽ thảo luận về việc tích hợp
Business Intelligence và phân tích Big Data.
Hệ thống doanh nghiệp trên thế giới đang thay đổi, sự năng động của khách hàng
đang thay đổi, và chính khách hàng cũng đang thay đổi. Tất cả đang chạy đua để
tìm ra lý do cho câu hỏi tại sao thay vì tìm ra đó là ai và sự việc đó như thế nào. Nó
không còn đơn thuần chỉ để hiểu làm thế nào một công ty có những bước chuyển
đổi từ A đến B. Các doanh nghiệp đang ở trong một cuộc chiến cạnh tranh thời
gian thực để biết khi khách hàng mua một cái gì đó, họ mua ở đâu, và những gì họ
đang suy nghĩ trước khi họ bước vào một cửa hàng hoặc truy cập vào một website.
Sức mạnh của Big Data, phân tích Big Data (Big Data analytics), nền tảng
Business Intelligence (BI) tích hợp và phân tích Big Data có thể giúp doanh nghiệp
làm được điều đó.
Lĩnh vực phân tích Big Data và BI vẫn còn mới. Làm thế nào để tích hợp các khái
niệm tương đồng nhưng khác nhau? Nó không chỉ còn là về dữ liệu hoặc công
nghệ, mà đó là tất cả mọi thứ — truyền thông mạng xã hội, hành vi của khách
hàng, và phân khúc khách hàng, những điều đó cũng chỉ là một vài đặc trưng mà
thôi. Bạn không thể dựa vào trong một số ứng dụng Big Data và mong muốn nhìn
thấy tương lai được. Cả BI, quản lý dữ liệu chủ (MDM - Master Data Mangement),
Big Data, và khả năng phân tích phải được tích hợp vào cùng một nền tảng, và
triển khai thành một giải pháp trực quan sáng tạo.
Điểm tương đồng và khác biệt giữa BI và Big Data analytics
BI không phải là một khái niệm mới. Data warehouses, data mining, và các công
nghệ database đã hiện hữu trong các hình thức khác nhau trong nhiều năm. Big
data có thể là một thuật ngữ mới, nhưng nhiều chuyên gia IT đã làm việc với dữ
liệu lớn trong các ngành khác nhau trong nhiều năm qua.
Tuy nhiên bây giờ Big Data không chỉ là về dữ liệu lớn. Điểm mới ở đây là đi sâu
và phân tích dữ liệu bán cấu trúc và phi cấu trúc. 15 năm trước, chúng ta không
phân tích các email, tập tin PDF, hoặc video. Có cảm giác như Internet chỉ mới
xuất hiện gần đây thôi; và điện toán phân tán cũng chỉ mới ra đời ngày hôm qua,
nhưng điểm mới ở đây là khả năng phổ biến và mở rộng hệ thống chỉ trong chớp
mắt — thậm chí đối với một ngân sách hạn hẹp. Tương tự như vậy, muốn dự đoán
tương lai không phải là một khái niệm mới, nhưng điểm mới chính là có thể truy
cập và lưu trữ tất cả các dữ liệu được tạo ra.
Có nhiều thông tin cho rằng 90 phần trăm các dữ liệu tồn tại ngày nay là từ hai
năm trước. Và dữ liệu đang tăng trưởng nhanh. Nếu 90 phần trăm tất cả dữ liệu
trên toàn thế giới được tạo ra trong hai năm qua thì ta có thể nói gì về dữ liệu đó?
Nhiều doanh nghiệp có nhiều cơ sở dữ liệu và nhiều nhà cung cấp cơ sở dữ liệu,
với nhiều terabyte hoặc thậm chí petabyte dữ liệu. Một số các hệ thống tích lũy dữ
liệu trên 30 hoặc 40 năm. Nhiều doanh nghiệp xây dựng toàn bộ kho dữ liệu và nền
tảng phân tích ra dữ liệu cũ này. Tập đoàn bán lẻ lớn như Wal-Mart, đã trở thành
công ty tỷ đô la trước thời Big Data. Vì vậy, dữ liệu không phải là yếu tố quyết
định chính mà chính là cách thức kinh doanh của họ.
Dữ liệu như một dịch vụ có thể điều khiển một doanh nghiệp. Tuy nhiên hãy suy
nghĩ về Amazon. Đó là một công ty thương mại điện tử trực tuyến. Bây giờ, mọi
người nhìn vào Amazon như là một công ty cung cấp nền tảng dịch vụ, phần mềm,
Big Data, và trung tâm dữ liệu điện toán đám mây. Trong những năm qua, Amazon
xây dựng giới thiệu các công cụ đáng kinh ngạc từ các công nghệ mã nguồn mở
khác nhau. Zynga, công ty game Facebook được biết đến với tựa game ăn khách
Farmville, đã sử dụng các dịch vụ đám mây của Amazon để mở rộng cơ sở dữ liệu
và phân tích riêng của mình.
Đối với dữ liệu có ích cho người dùng, nó phải tích hợp với tài chính của khách
hàng và dữ liệu bán hàng, với các sản phẩm dữ liệu, với các tiếp thị dữ liệu, truyền
thông xã hội, với các dữ liệu nhân khẩu học, với các dữ liệu đối thủ cạnh tranh, và
nhiều hơn nữa.
Những thách thức trong việc xây dựng một hệ thống BI và Big data analytics
Thiết kế một nền tảng tích hợp không bao giờ là dễ dàng. Extract, Transfer, và
Load (ETL) luôn luôn là giai đoạn dài nhất trong các dự án Data Warehouse. Có
nhiều giải pháp ETL khác nhau, đôi khi chúng có tác dụng, đôi khi không. Nếu
ETL không được thực hiện tốt, thì bạn ngẫu nhiên bạn sẽ có dữ liệu không chính
xác và không tin cậy. Dữ liệu không tin cậy sẽ tạo ra một hệ thống không đáng tin
và không sử dụng được. Tất nhiên chẳng ai muốn điều đó cả.
Có thể bạn sẽ dễ dàng nghĩ rằng đây có thể một thứ gì đó giống như một cơ sở dữ
liệu sản phẩm. Nhưng nó sẽ trở thành một trò chơi với nhiều phiên bản, lỗi, bản
cập nhật, bản phát hành khác nhau, chu kỳ phát hành khác nhau, giấy phép khác
nhau, và giấy phép khác nhau dựa trên địa điểm. Và đó chỉ là trong một công ty
với một vài sản phẩm. Nó sẽ trở nên phức tạp hơn trong trường hợp các công ty
bán lẻ có hàng ngàn sản phẩm khác nhau.
Nền tảng Big Data và BI tích hợp có thể có dữ liệu phi cấu trúc từ các email.
Chúng có thể bao gồm dữ liệu bán cấu trúc từ các bản ghi log. Hệ thống Email có
thể được phân tán trong cơ sở dữ liệu khác nhau trong nhiều trung tâm dữ liệu trên
toàn cầu. Trong một dự án, việc tích hợp thêm vài tường lửa, hay đột nhiên di
chuyển dữ liệu từ nơi này sang nơi khác cũng là một cơn ác mộng. Trong một dự
án khác, hệ thống bản ghi log có thể là phi định dạng, bán định dạng hoặc một mớ
hỗn độn.
Có một lý do mà tại sao các công nghệ Big data như Apache Hadoop khuyến khích
di chuyển hệ thống đến nơi có dữ liệu thay vì di chuyển dữ liệu vào hệ thống. Phải
mất thời gian để di chuyển dữ liệu qua đường mạng, giữa các bức tường lửa. Bạn
có thể bị mất dữ liệu, các gói dữ liệu, tập tin. Độ tin tưởng sẽ trở thành một vấn đề
lớn.
Một khái niệm cốt lõi của NoSQL và Hadoop là để di chuyển các ứng dụng đến dữ
liệu, ngoại trừ việc điều này không phải là đơn giản. Nếu bạn có 100 hệ thống khác
nhau, bạn có thêm vào 100 trường hợp của cùng một ứng dụng cho mỗi hệ thống
không? Mặc dù một số người nghĩ rằng họ có thể làm chủ MDM, nhưng thực ra là
chẳng có ai cả. Khi bạn có một sản phẩm MDM, MDM bán hàng, và một khách
hàng MDM mà không tích hợp hoặc tham gia dễ dàng, việc thêm một ứng dụng
vào mỗi hệ thống không có nghĩa là tích hợp hay tham gia vào chúng. Nó vẫn là
một hệ thống với nhiều rào cản mà không ai có thể kết nối.
Ngay cả khi một doanh nghiệp được cài đặt một ứng dụng Big Data trên một nền
tảng hoàn hảo mà có thể tích hợp và kết nối với các dạng khác nhau của dữ liệu, thì
cũng sẽ có lúc xảy ra những vấn đề nghiêm trọng. Sự thật là bạn không thể đột
nhiên chạy các thuật toán phức tạp trên một hệ thống mà người dùng đang sử dụng.
Điều này có thể thất bại. Nó có thể làm chậm hiệu suất thực thi. Nó có thể lấy hết
dữ liệu. Có thể có vấn đề bảo mật. Cài đặt một ứng dụng yêu cầu một lượng lớn
không gian, bộ nhớ và tốc độ có thể khiến một hệ thống cũ hỏng hóc. Thậm chí nó
có thể không hoạt động chính xác trên hệ thống cũ. Nếu nó hoạt động, nó có gì
khác so với hệ thống đang tồn tại không, bạn chọn MDM không kết nối hay hệ
thống BI?
Một nền tảng BI và Big Data analytics cần sự sáng tạo. Nó phải là thế hệ tiếp theo.
Nó phải sử dụng công nghệ trong bộ nhớ hoặc cấu hình một hệ thống sử dụng các
công cụ như Hadoop và Apache Cassandra như area, sandbox, hệ thống lưu trữ và
có một hệ thống ETL mới và cải tiến. Nó phải tích hợp dữ liệu cấu trúc, phi cấu
trúc và bán cấu trúc. Có rất nhiều phần trong bài toán khó này.
Giải pháp
Một nền tảng BI tích hợp và Big Data analytics là một hệ thống khác nhau. Bạn có
quyền lựa chọn việc mua hay tự xây dựng. Bạn phải xem xét các hệ thống hiện có,
các trường hợp sử dụng, mức độ kinh nghiệm và năng lực của nhân viên của bạn.
Một số công ty có thể muốn xây dựng một hệ thống mã nguồn mở chỉ sử dụng
Hadoop (Hadoop Distributed File System [HDFS] và MapReduce), Zookeeper,
Solr, Sqoop, Hive, HBase, Nagios, và Cacti, trong khi người khác có thể tìm kiếm
hỗ trợ nhiều hơn và cố gắng xây dựng một hệ thống sử dụng IBM ® InfoSphere ®
BigInsights ™ và IBM Netezza. Các công ty khác có thể muốn tách dữ liệu có cấu
trúc và phi cấu trúc, và xây dựng một giao diện (GUI) lớp người dùng đồ họa cho
người dùng bình thường, người dùng có nhiều quyền hạn, và các ứng dụng.
Nó thực sự phụ thuộc vào công ty. Và nó không chỉ là một hệ thống plug-and-play.
Mặc dù bạn quyết định mua hay tự xây dựng thì ở mỗi cấp độ đều có những phần
khác nhau.
ETL
ETL, giai đoạn hiện thực và kiểm soát dữ liệu, và tất cả quá trình liên quan luôn
luôn là một bước tiến quan trọng đầu tiên. Bạn không thể đặt ứng dụng Big Data
vào một hệ thống giao dịch và mong muốn mọi thứ hoạt động mà không làm ảnh
hưởng hệ thống ban đầu, hay mong đợi nó tích hợp tốt với mọi thứ khi mà hệ
thống vẫn đang hoạt động. Do đó, một số dữ liệu cần được đưa vào Hadoop hay
bất cứ hệ thống noSQL nào khác hay một Data Warehouse xử lý song song (MPP).
Có nhiều công cụ và phương pháp để làm việc này, và hầu hết chúng phụ thuộc
vào hệ thống, mã nguồn, dữ liệu, kích thước và nhân lực.
Bạn có thể bắt đầu với Sqoop. Nó là một công cụ tuyệt vời để xử lý dữ liệu từ hệ
thống quản lý cơ sở dữ liệu quan hệ. Bổ sung thêm các công cụ mã nguồn mở khác
như Flume hoặc Scribe có hỗ trợ ghi log. Ngoài ra còn có các công cụ ETL như
Talend hoặc IBM InfoSphere DataStage ®, cả hai đều đã tích hợp Big Data.
Những công cụ này trực quan hơn và không cần phải có một tiến sĩ máy tính để
xây nên cơ sở hạ tầng. Cả hai công cụ cung cấp các tài liệu kỹ thuật, các bản cập
nhật, và giao diện trực quan, chúng luôn được cải thiện, và đang được sử dụng
trong nhiều ngành công nghiệp và trong các doanh nghiệp.
Một số công ty chỉ thích dùng mã nguồn mở. Các công ty khác có thể có nhiều hệ
thống được xây dựng trên các sản phẩm IBM khác nhau. Rõ ràng, tích hợp những
gì đã được sử dụng với các công nghệ mới là một việc quan trọng cần xem xét.
Đó là thời gian bạn dành để xây dựng hệ thống ETL, và thật đáng buồn nếu kết quả
không như bạn mong đợi. Hadoop có nhiều thành phần mà bạn có thể cần tới hơn
là Sqoop. Việc tích hợp và bổ sung nhiều thành phần có thể gây phản tác dụng, đặc
biệt là nếu bạn không có kinh nghiệm và kiến thức hoặc muốn tự xây dựng công cụ
ETL. Quá trình này đòi hỏi thời gian và sự kiên nhẫn. Có thể bạn cũng sẽ gặp
nhiều trở ngại. Bạn có thể sử dụng một công cụ mã nguồn mở cho các cộng đồng
sau này. Hoặc bạn có thể cấu hình và phát triển các công cụ ETL của riêng mình
với các ứng dụng nội bộ khác nhau và các công cụ mã nguồn mở, và sau đó, nếu
cộng đồng mã nguồn mở có những thay đổi hay một vài nhân viên phát triển của
bạn không còn làm việc nữa, lúc này tự dưng bạn sẽ có một hệ thống mà chẳng ai
biết cách để duy trì hay sửa chữa.
Các doanh nghiệp khôn ngoan tập trung vào nhân viên, kinh nghiệm, ngân sách,
tiềm năng và thực tế của họ. Ví dụ, nếu một doanh nghiệp có đội ngũ nhân viên IT
tương đối nhỏ thì việc so sánh cách xây dựng hệ thống với Google hay Facebook
chưa phải là một ý tưởng tốt. Đừng bao giờ so sánh công ty nhỏ của bạn với các
công ty có đã có sẵn hệ thống máy chủ và các chuyên gia máy tính làm việc trên
những hệ thống và cơ sở hạ tầng cụ thể. Đôi khi, sử dụng dịch vụ điện toán đám
mây hoặc nhân viên bên ngoài có thể là lựa chọn duy nhất. Những lần khác, các
thiết bị Big Data như Netezza chính là lựa chọn tốt nhất.
Lưu trữ
Lưu trữ dữ liệu là một yếu tố rất lớn và có thể yêu cầu bạn sử dụng nhiều công
nghệ khác nhau. Trong hệ thống Hadoop, ta có HBase. Nhưng một số công ty sử
dụng Cassandra, Neo4j, Netezza, HDFS, và các công nghệ khác, tùy thuộc vào
những gì cần thiết. HDFS là một hệ thống lưu trữ tập tin. HBase là một hệ thống
lưu trữ theo cột (column) tương tự như Cassandra. Nhiều công ty sử dụng
Cassandra cho việc phân tích gần hơn với thời gian thực. Tuy nhiên HBase cũng
đang ngày càng được phát triển.
Bạn có thể xem xét giữa HBase hoặc Cassandra khi muốn sử dụng một hệ thống
quản lý cơ sở dữ liệu mã nguồn mở cho việc phân tích Big Data. Theo các nền tảng
Data Warehouse, Netezza là một trong những công nghệ hàng đầu trong công nghệ
phân tích và BI. Sự lựa chọn tốt nhất để tích hợp Big Data là sử dụng một nền tảng
tích hợp bao gồm Hadoop và Cassandra cho dữ liệu phi cấu trúc hoặc bán cấu trúc
và Netezza cho dữ liệu có cấu trúc.
IBM Netezza Customer Intelligence Appliance kết hợp một số công nghệ khác
nhau vào một nền tảng. Ở lớp trên cùng, đó là lớp người dùng, nó dựa trên phần
mềm IBM Cognos® BI, một sản phẩm phân tích và báo cáo kinh doanh thông
minh. Cognos BI là một sản phẩm ấn tượng mà nhiều doanh nghiệp sử dụng cho
nhiều mục đích BI khác nhau và Data Warehouse. Tại các kho dữ liệu lớp lưu trữ,
Netezza là công cụ tuyệt vời cho hệ thống cơ sơ dữ liệu MPP. Hệ thống này hướng
đến dữ liệu có cấu trúc, nhưng khi sử dụng Hadoop hoặc Cassandra cho dữ liệu phi
cấu trúc và bán cấu trúc bạn tạo ra một nền tảng tích hợp BI và Big Data analytics.
Giao diện người dùng (GUI)
Tại lớp đầu cuối và giao diện đồ họa người dùng (GUI), có nhiều phần khác nhau
trong hệ thống. Người dùng có quyền hạn có thể sử dụng các công cụ như IBM
SPSS® Statistics, hoặc phiên bản R, để khai phá dữ liệu, mô hình dự báo, máy học,
và xây dựng các thuật toán phức tạp và điển hình. Các nhân viên kinh doanh của
bạn có thể sử dụng các công cụ như Cognos để làm các báo cáo BI, báo cáo Big
Data, biểu đồ, và các bảng thống kê. Cognos là một công cụ tuyệt vời cung cấp cho
người dùng nhiều cách khác nhau để khám phá dữ liệu hay xem các báo cáo đơn
giản.
Có nhiều phần trong giao diện GUI và lớp đầu cuối (front-end), như các công cụ
máy học (ví dụ như Apache Mahout) hay Apache Hive (dùng ngôn ngữ truy vấn có
cấu trúc - Structured Query Language - SQL), nhưng những công cụ cũng có thể là
một phần của cơ sở hạ tầng. Yếu tố lớn nhất là tích hợp dữ liệu có cấu trúc và phi
cấu trúc như một phần của cơ sở hạ tầng BI, Data Warehouse, và Big Data
analytics. Đó có phải là dịch vụ không? Và đối tượng người dùng là ai?
Người dùng không quan tâm đến cơ sở hạ tầng. Họ cũng không quan tâm tới việc
tích hợp của nó. Họ chỉ quan tâm đến việc nhận được xữ liệu ở thời điểm thích
hợp.
Kết luận
Tích hợp BI và big data analytics là nhiệm vụ không dễ dàng. Mục đích của bất kỳ
hệ thống dữ liệu hay phân tích là làm cho dữ liệu trở nên hữu ích và có tính sẵn
sàng cao cho người dùng. Ứng dụng Big data là một trong những cách làm được
điều đó. Còn hệ thống mã nguồn mở Hadoop là một hướng khác. Nhưng cả hai đều
đòi hỏi thời gian, sự kiên nhẫn và sáng tạo.
Một hệ thống mã nguồn mở là giải pháp nhanh và ít tốn kém để thực hiện, nhưng
bạn cần một đội ngũ nhân viên có kinh nghiệm. Nếu bạn không có kinh nghiệm
trong lĩnh vực Big Data, thì tốt nhất là bạn nên thuê một công ty chuyên về Big
Data làm cho bạn, mặc dù có thể hơi tốn kém. Hãy nhớ rằng không phải ai cũng
muốn mở công ty làm về phần mềm hay phần cứng. Đôi khi việc xây dựng một
nền tảng BI tích hợp và Big Data đòi hỏi phải tốn chi phí mua và phát triển ở nơi
bạn cần tới.