Tóm tắt: Khoa học dữ liệu là lĩnh vực không thể thiếu cho nhu
cầu phát triển của xã hội trong thời đại cách mạng công nghiệp
4.0, được sử dụng nhằm mục đích hỗ trợ việc đưa ra quyết định
hoặc dự đoán. Kho dữ liệu cho phép tích hợp các siêu dữ liệu từ
các nguồn mang lại tiềm năng khai thác thông tin cho người
sử dụng. Triển vọng thư viện xây dựng kho dữ liệu trong đó tích
hợp các dữ liệu nghiên cứu sẽ mang lại hiệu quả tích cực hỗ trợ
nghiên cứu, học tập.
10 trang |
Chia sẻ: thanhle95 | Lượt xem: 38 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN
TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU
Nguyễn Thị Minh Phượng1*
Tóm tắt: Khoa học dữ liệu là lĩnh vực không thể thiếu cho nhu
cầu phát triển của xã hội trong thời đại cách mạng công nghiệp
4.0, được sử dụng nhằm mục đích hỗ trợ việc đưa ra quyết định
hoặc dự đoán. Kho dữ liệu cho phép tích hợp các siêu dữ liệu từ
các nguồn mang lại tiềm năng khai thác thông tin cho người
sử dụng. Triển vọng thư viện xây dựng kho dữ liệu trong đó tích
hợp các dữ liệu nghiên cứu sẽ mang lại hiệu quả tích cực hỗ trợ
nghiên cứu, học tập.
Từ khóa: Kho dữ liệu; Khoa học dữ liệu; Dữ liệu; Thư viện.
Ngày nay, thông tin trở thành một nguồn tài nguyên cực kỳ quan
trọng cần được quản lý và khai thác hiệu quả. Chính vì vậy, yêu cầu
về một phương tiện có khả năng lưu trữ dữ liệu khối lượng lớn, xử lý
thông tin nhanh đã dẫn đến sự ra đời của kho dữ liệu. Mục tiêu ban
đầu của các kho dữ liệu là tạo điều kiện cho việc truyền dữ liệu từ các
hệ thống vận hành sang các hệ thống ra quyết định.
Khoa học dữ liệu là thuật ngữ vẫn còn khá mới mẻ ở nước ta trong
thời đại công nghiệp 4.0 nhưng nó đang dần trở thành xu hướng của
các doanh nghiệp hướng tới để đẩy mạnh hoạt động kinh doanh nhờ
việc sử dụng những thông tin được phân tích do công nghệ này mang
lại. Khi cách mạng công nghiệp 4.0 bùng nổ, mọi quốc gia đều phải
dựa nhiều hơn vào khoa học công nghệ, vào thông tin và vào dữ liệu.
∗ Thạc sĩ, Thư viện Học viện Hành chính Quốc gia.
743
XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU
Thông tin có sẵn trên các mạng internet đang tăng theo cấp số nhân
nhưng không đảm bảo chất lượng nên dẫn đến tình trạng thông tin
tìm thấy không liên quan hoặc không có giá trị khoa học. Ngày càng có
nhiều bài báo trong các tài liệu khoa học và chuyên ngành được dành
cho dữ liệu nghiên cứu. Dữ liệu nghiên cứu dường như là một lĩnh vực
mà các chuyên gia lưu trữ thông tin (thủ thư, lưu trữ viên) đang phải
vươn tới để có thể thực hiện sứ mệnh hỗ trợ các nhà nghiên cứu. Vì
vậy, việc thư viện nghiên cứu xây dựng kho dữ liệu từ việc tích hợp dữ
liệu đang là xu thế tất yếu trong thời đại khoa học dữ liệu.
1. KHÁI NIỆM KHO DỮ LIỆU, HỒ DỮ LIỆU
Kho dữ liệu (Data Warehouse) không phải là một khái niệm mới và
đã được định nghĩa theo rất nhiều cách khác nhau. William H. Inmon,
người được xem là kiến trúc sư đầu tiên xây dựng kho dữ liệu đã định
nghĩa: “Kho dữ liệu là tập hợp dữ liệu hướng chủ đề, được tích hợp, gắn với
thời gian và ổn định, được thiết kế cho việc hỗ trợ quá trình ra quyết định của
người quản lý”[2].
Devlin định nghĩa kho dữ liệu như sau: “Kho dữ liệu là một kho lưu
trữ đầy đủ và thống nhất dữ liệu thu được từ nhiều nguồn khác nhau và có
sẵn để người dùng theo cách của họ có thể hiểu và sử dụng trong bối cảnh kinh
doanh” [1].
Thuật ngữ “Kho dữ liệu” được hiểu là cơ sở dữ liệu (CSDL) được
sử dụng để thu thập, đặt hàng, ghi nhật ký và lưu trữ thông tin từ
CSDL hoạt động và cung cấp hỗ trợ quyết định trong kinh doanh.
Như vậy, kho dữ liệu được xem như là một CSDL lớn tập trung dữ liệu
từ nhiều nguồn. Việc sử dụng kho dữ liệu sẽ tạo ra một sự đồng nhất
về thông tin và từ kho dữ liệu này người dùng có thể nhận được các
chỉ tiêu phân tích hay dùng các công cụ hỗ trợ để theo dõi các chỉ tiêu
cần quan tâm. Vì thế, kho dữ liệu có thể được xem là một môi trường
có cấu trúc các hệ thống thông tin, cung cấp cho người dùng những
thông tin khó có thể truy nhập hoặc biểu diễn trong CSDL tác nghiệp
truyền thống, nhằm mục đích hỗ trợ việc ra quyết định mang tính lịch
sử hoặc hiện tại.
744
PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM
Thuật ngữ “kho dữ liệu” được sử dụng nhiều nhất từ cuối những
năm 90. Tuy nhiên, gần đây, khái niệm hồ dữ liệu (Data Lakes) đang
trở nên phổ biến đến độ một số người tin rằng nó sẽ thay thế kho. Hồ
dữ liệu được hiểu là kho lưu trữ tập trung cho tất cả dữ liệu, bao gồm
dữ liệu có cấu trúc, bán cấu trúc và không cấu trúc. Trong thực tế, hai
loại hệ thống này có sự khác biệt quan trọng và không được sử dụng
theo cùng một cách.
Kho dữ liệu tập hợp một lượng lớn dữ liệu được tích lũy từ các
nguồn dữ liệu khác nhau. Nó được sử dụng để đưa ra quyết định. Mặt
khác, hồ dữ liệu là một kho lưu trữ được sử dụng để chứa một lượng
dữ liệu thô khổng lồ ở định dạng ban đầu cho đến khi người dùng cần
nó. Hồ dữ liệu và kho dữ liệu nổi bật trên một số điểm: dữ liệu, xử lý
dữ liệu, lưu trữ, bảo mật và người dùng. Kho dữ liệu chỉ có thể chứa dữ
liệu có cấu trúc. Hồ dữ liệu có khả năng lưu trữ dữ liệu có cấu trúc, bán
cấu trúc hoặc không cấu trúc.
Đối với việc xử lý dữ liệu có liên quan, dữ liệu được tải vào kho
dữ liệu phải trải qua giai đoạn viết lược đồ bao gồm việc cung cấp cho
chúng một biểu mẫu và cấu trúc (mô hình). Trong hồ dữ liệu, dữ liệu
được lưu trữ ở dạng thô và người dùng định hình nó khi cần. Lưu
trữ trong kho dữ liệu có thể tốn kém, đặc biệt nếu khối lượng dữ liệu
lớn. Lưu trữ trên hồ dữ liệu thường rẻ hơn, vì hầu hết các công nghệ
dữ liệu lớn đều dựa vào phần mềm nguồn mở được thiết kế để cài đặt
trên phần cứng chi phí thấp. Kho dữ liệu chủ yếu được sử dụng bởi các
nhà quản lý doanh nghiệp, trong khi hồ dữ liệu thường được các nhà
khoa học dữ liệu sử dụng trong các lĩnh vực khoa học.
2. ĐẶC TÍNH CỦA KHO DỮ LIỆU
Có ba kiểu kho dữ liệu thường gặp:
- Kho dữ liệu doanh nghiệp (Enterprise Data Warehouse): Kho
dữ liệu loại này cung cấp một tập hợp dữ liệu trung tâm được tổ chức hỗ
trợ cho việc ra quyết định của cả công ty (xí nghiệp).
- Kho dữ liệu tác nghiệp (Operational Data Store): Kho dữ liệu
loại này dùng cho các công ty có phạm vi rộng, nhưng nó không giống
với kho dữ liệu doanh nghiệp. Ở đây dữ liệu được làm mới ngay và
745
XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU
được sử dụng cho những hoạt động thường nhật. Kho dữ liệu tác
nghiệp khác kho dữ liệu doanh nghiệp ở chỗ là nó bị giới hạn về tính
lịch sử của dữ liệu và được cập nhật dữ liệu thường xuyên hơn.
- Kho dữ liệu chuyên đề (Data Mart): là một kho cỡ nhỏ và nó hỗ
trợ cho những nghiệp vụ chuyên biệt hoặc cho những chức năng
nghiệp vụ cụ thể.
Về bản chất, kho dữ liệu hướng vào việc cung cấp một kiến trúc,
công cụ để phát triển dữ liệu của các hệ thống hỗ trợ quyết định. Dữ
liệu phát sinh từ trong các hoạt động hàng ngày và được thu thập,
xử lý để phục vụ công việc nghiệp vụ cụ thể của một tổ chức thường
được gọi là dữ liệu tác nghiệp. Các hoạt động thu thập xử lý dữ liệu
tác nghiệp được gọi là xử lý giao dịch trực tuyến (Online Transaction
Processing). Trái lại, kho dữ liệu phục vụ cho việc phân tích các kết
quả mang thông tin mức cao. Các hệ thống thông tin thu thập xử
lý dữ liệu loại này được gọi là xử lý phân tích trực tuyến (Online
Analytical Processing). Kho dữ liệu thường rất lớn tới hàng trăm GB
hay thậm chí hàng Terabyte. Nó được xây dựng để tiện lợi cho việc truy
cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết
hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa
được từ những hệ thống đã có sẵn từ trước.
Đặc điểm cơ bản của kho dữ liệu là một tập hợp dữ liệu có những
tính chất sau:
- Tính tích hợp: Đây là đặc tính quan trọng nhất của kho dữ liệu.
Dữ liệu được tập hợp từ nhiều nguồn khác nhau, trộn ghép với nhau
tạo thành một thể thống nhất.
- Dữ liệu gắn với thời gian và tính lịch sử: Mỗi bản ghi của kho dữ
liệu chứa một yếu tố thời gian. Toàn bộ dữ liệu trong kho được tạo ra
và gắn liền với một giá trị thời gian nhất định.
- Dữ liệu có tính ổn định và không biến động: Được lấy từ nhiều
nguồn dữ liệu của hệ thống tác nghiệp có sẵn, kho dữ liệu tách rời vật
lý với môi trường tác nghiệp nên dữ liệu trong kho là dữ liệu chỉ đọc,
không chỉnh sửa hoặc thêm mới bởi người sử dụng cuối.
746
PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM
- Dữ liệu tổng hợp và chi tiết: Dữ liệu chi tiết là thông tin mức thấp
nhất được lưu trữ trong kho dữ liệu. Dữ liệu tổng hợp được tích hợp
lại qua nhiều giai đoạn khác nhau.
3. NHỮNG LỢI ÍCH KHI THƯ VIỆN XÂY DỰNG VÀ SỬ DỤNG KHO DỮ LIỆU
3.1. Đối với người quản trị kho dữ liệu
- Lưu trữ dung lượng lớn dữ liệu trong quá khứ: Dữ liệu được tổng
hợp từ các nguồn khác nhau do đó kho dữ liệu cho phép lưu trữ khối
lượng lớn dữ liệu lịch sử từ các hệ điều hành nên có thể dễ dàng lưu trữ
trong kho các giai đoạn khác nhau của cùng một chủ đề.
- Tăng cường tính bảo mật dữ liệu: Kho dữ liệu cho phép tăng cường
bảo mật bằng cách cung cấp các tính năng bảo mật nâng cao được tích
hợp trong cấu hình của nó.
- Tính ổn định của dữ liệu: Khi dữ liệu nằm trong kho dữ liệu, nó
ổn định và không thay đổi. Dữ liệu không biến mất và không thay đổi
theo thời gian. Do đó có thể thấy được sự tiến hóa theo thời gian của
dữ liệu. Tuy nhiên, mức độ lưu trữ liên quan đến bản chất của dữ liệu
và không phải tất cả dữ liệu có giá trị lưu giữ.
- Thiết kế kho linh hoạt: Kho được thiết kế mềm dẻo giúp dễ dàng
tích hợp dữ liệu mới, tạo ra các báo cáo mới theo yêu cầu của người
khai thác dữ liệu.
3.2. Đối với người khai thác, sử dụng kho dữ liệu
- Phân tích và khai thác dữ liệu nhanh gọn, đầy đủ, chính xác. Kho
dữ liệu cho phép truy cập vào tất cả dữ liệu cần thiết trong vài phút
mà không cần dùng đến một truy vấn phức tạp nào, đồng thời cũng
không cần đến sự hỗ trợ của chuyên gia kỹ thuật 24/7 để giải quyết các
vấn đề truy xuất thông tin.
- Tiêu chuẩn hóa và cung cấp nhất quán: Một lợi ích quan trọng khác
của việc sử dụng kho dữ liệu là tiêu chuẩn hóa dữ liệu lớn. Người dùng
có thể tận dụng việc lưu trữ dữ liệu hoặc một bảng dữ liệu theo cách
sắp xếp của kho. Vì kho dữ liệu lưu trữ dữ liệu từ nhiều nguồn khác
747
XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU
nhau, mỗi nguồn sẽ tạo ra kết quả được đồng bộ hóa với các nguồn
khác. Điều này đảm bảo chất lượng và tính nhất quán của dữ liệu.
- Khai thác dữ liệu theo chủ đề với các khoảng thời gian khác nhau:
Người dùng có thể phân tích dữ liệu theo một chủ đề hoặc lĩnh vực cụ
thể với lịch sử dữ liệu theo thời gian. Vai trò của kho dữ liệu là đảm bảo
sự ổn định của dữ liệu và đặc biệt là cung cấp một liên kết trích dẫn cho
các tác giả nhờ một định danh vĩnh viễn.
- Phù hợp với trình độ của người khai thác, sử dụng kho dữ liệu: Kho
dữ liệu được thiết kế giúp thực hiện các truy vấn nhanh, cung cấp
thông lượng dữ liệu cao và đủ tính linh hoạt cho người dùng cuối,
đồng thời cung cấp cho người dùng cuối các báo cáo.
4. THƯ VIỆN XÂY DỰNG VÀ QUẢN LÝ KHO DỮ LIỆU
Hiện nay, phương pháp xây dựng kho dữ liệu đã phát triển cả về
lý thuyết cũng như thực tế. Lý thuyết xây dựng kho dữ liệu đã được
hình thành rõ nét, bên cạnh đó các nhà cung cấp phần mềm cũng đã
đưa ra các công cụ để xây dựng, lưu trữ, duy trì và phát triển kho dữ
liệu. Một kho dữ liệu có khả năng quản lý dữ liệu, khai thác thông tin
để đưa ra những quyết định nhanh chóng và phù hợp.
Với tài liệu truyền thống, tài liệu số khi đưa vào kho để phục vụ
bạn đọc, tài liệu cần phải được xử lý nghiệp vụ để đáp ứng nhu cầu tra
cứu thì với kho dữ liệu, dữ liệu cũng cần phải được xử lý.
- Bổ sung kho dữ liệu: Đây là quá trình tích hợp dữ liệu trong kho.
Việc tích hợp dữ liệu trong kho dữ liệu là quá trình xác định về chất
lượng và số lượng thông tin có sẵn phục vụ cho nhu cầu tin của người
khai thác, sử dụng. Dữ liệu đến từ các nguồn không đồng nhất. Mỗi
nguồn sử dụng một định dạng khác nhau nên khâu bổ sung kho dữ
liệu được thực hiện theo bước sau:
+ Hoàn tất dữ liệu: Tất cả dữ liệu nguồn phù hợp được trích xuất,
tích hợp về kho. Dữ liệu nguồn được nhận trực tiếp dưới dạng tệp
hoặc lấy trực tiếp bằng cách truy vấn CSDL của các ứng dụng nguồn.
Dữ liệu được sắp xếp theo chủ đề là các lĩnh vực mà thư viện hướng
đến. Dữ liệu phải được kiểm tra chất lượng trước khi tích hợp vào kho.
748
PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM
+ Gia tăng dữ liệu: Bước đầu tiên là liệt kê các nguồn dữ liệu khác
nhau, chỉ các dữ liệu nguồn mới liên quan chủ đề trong kho dữ liệu của
thư viện mới được tích hợp. Cần kiểm tra dữ liệu đã có trong kho hay
chưa, bảo đảm không chèn bản ghi giống hệt bản ghi đã có để tránh
bổ sung trùng lặp. Ngoài ra, các nhà khoa học, nhà nghiên cứu có thể
gửi và chia sẻ dữ liệu nghiên cứu của họ lên kho dữ liệu của thư viện.
- Chuẩn hóa các nguồn dữ liệu không đồng nhất: Việc chuẩn hóa
nguồn dữ liệu bao gồm việc điều chỉnh sơ đồ của một nguồn dữ liệu
cho mỗi ứng dụng trong một sơ đồ mục tiêu. Việc sử dụng sơ đồ trung
gian giúp giữ dữ liệu ở dạng nguồn, xử lý và xác định định dạng đầu
vào cho dữ liệu trước khi tích hợp vào kho. Đối với mỗi nguồn, người
quản lý phải tạo thành một “thư viện” của các truy vấn để truy vấn và
trích xuất dữ liệu liên quan bằng cách cấu thành định danh duy nhất
của dữ liệu trong nguồn. Sau đó, dữ liệu được trích xuất vào khu vực
chuẩn bị dữ liệu cho phép.
- Lập chỉ mục cho kho dữ liệu: Các chủ đề trong kho cần được lập
chỉ mục bởi các công cụ tìm kiếm. Đó là một tham chiếu của dữ liệu với
liên kết đến nền tảng lưu trữ của dữ liệu trong kho.
- Liên kết và tích hợp dữ liệu: Trong nhiều trường hợp, dữ liệu được
ghi lại liên quan đến cùng một đối tượng trong nhiều hệ thống nguồn.
Những tập tin này trước tiên phải được liên kết và hợp nhất trước khi
được tải vào kho dữ liệu. Người quản lý kho phải nắm được từng tiêu
chí nguồn để khớp dữ liệu nhất định. Khi tải dữ liệu vào kho, nếu dữ
liệu thay đổi theo thời gian, cần phải đặt một hệ thống quản lý phiên
bản dữ liệu. Ngoài ra, phải giữ một sự tương ứng giữa dữ liệu trong
nguồn và dữ liệu trong kho trong việc giữ mã định danh trong mỗi
nguồn và mã định danh trong kho dữ liệu.
- Chỉnh sửa và làm sạch dữ liệu: Làm sạch dữ liệu bằng cách chuyển
đổi là một phần của chiến lược cải tiến chất lượng dữ liệu bao gồm việc
lựa chọn và áp dụng các phép biến đổi trên bộ dữ liệu để giải quyết các
vấn đề định dạng và không nhất quán khác nhau, hoặc trong cùng một
nguồn dữ liệu hoặc giữa một số nguồn dữ liệu không đồng nhất. Để
749
XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU
làm sạch dữ liệu có thể được chia thành các vấn đề đơn nguồn và đa
nguồn ở mức lược đồ. Nhờ đó các lỗi được phát hiện nhờ phương tiện
kiểm tra tính nhất quán trên các nguồn dữ liệu.
- Trợ giúp lựa chọn dữ liệu: Cách tiếp cận truyền thống khi truy vấn
dữ liệu kho là tham khảo nội dung của CSDL để kiểm tra xem các tài liệu
tìm kiếm có trong kho hay không. Yêu cầu này có thể được thực hiện nếu
khối lượng dữ liệu ít hoặc tự động nếu khối lượng dữ liệu lớn. Truy vấn
CSDL thường được thực hiện bằng cách sử dụng SQL (Structured Query
Language) - ngôn ngữ truy vấn có cấu trúc. Như vậy, mỗi siêu dữ liệu
được nhập vào các trường tương ứng và có công cụ hình thành yêu cầu
trên SCDL theo các tham số được xác định bởi người dùng.
- Giấy phép và cấp phép: Nếu kho cho phép chia sẻ dữ liệu nghiên
cứu giữa các nhà khoa học, sẽ có tình trạng sử dụng lại dữ liệu vào một
nghiên cứu khác. Để sử dụng một dữ liệu có bản quyền, cần thiết phải
có sự ủy quyền từ chủ sở hữu, trừ trường hợp có ngoại lệ hợp pháp.
Để mở một cách hợp pháp cho dữ liệu, người quản lý phải gán cho dữ
liệu một giấy phép. Lớp dữ liệu có thể được bảo vệ bởi một trong các
giấy phép CC (Creative Commons). Giấy phép tương thích bảo vệ dữ
liệu và việc sử dụng lại dữ liệu từ việc nghiên cứu sẽ phụ thuộc vào khả
năng sử dụng lại thông tin. Tuy nhiên, toàn bộ kho dữ liệu không để ở
dạng truy cập mở, cần phải hạn chế truy cập bằng cách cấm sao chép,
chuyển hoặc xuất dữ liệu sang bộ phận thứ ba; hoặc tái sử dụng dữ liệu
trong một số trường hợp.
- Phí khai thác kho dữ liệu: Ngay cả đối với nền tảng truy cập mở,
quyền truy cập vào dữ liệu không nhất thiết phải hoàn toàn miễn phí.
Thư viện có thể xây dựng kho trên nền tảng của thư viện. Như vậy,
người dùng phải đăng ký trước khi truy nhập.
- Phổ biến dữ liệu: Phổ biến dữ liệu một cách chọn lọc thỏa mãn
nhu cầu của người dùng tin. Người làm thư viện quản lý kho dữ liệu
phải có trình độ chuyên môn tốt, áp dụng tốt kỹ năng xử lý thông tin.
Việc phổ biến dữ liệu dưới dạng cung cấp các dữ liệu có giá trị, mang
hàm lượng khoa học cao sẽ mang lại lợi ích không nhỏ cho người dùng,
750
PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM
nhất là trong bối cảnh nguồn thông tin ngày càng lớn, phát triển với
tốc độ nhanh như hiện nay.
5. YÊU CẦU ĐỐI VỚI KHO DỮ LIỆU THƯ VIỆN
- Kho dữ liệu có phải có khả năng lưu trữ và quản lý một số
lượng khổng lồ dữ liệu tổng hợp. Kho dữ liệu có thể lớn lên theo thời
gian, có thêm dữ liệu mới hoặc giữ lại dữ liệu lịch sử cho một thời gian
dài mà không bị quá tải, vẫn đảm bảo tính ổn định hoạt động.
- Kho dữ liệu phải được định hướng theo chủ đề. Kho dữ liệu này
sẽ được xây dựng và đưa vào khai thác để trả lời cho các câu hỏi như: đối
tượng sử dụng là ai? nhu cầu sử dụng những thông tin dữ liệu nào?
- Thông tin trong kho dữ liệu phải có thể truy cập và đáng tin
cậy (có chất lượng cao). Để duy trì khả năng truy nguyên của thông
tin, thông tin được lưu trữ trong kho dữ liệu không thể bị xóa. Dữ liệu
lịch sử là cần thiết để theo dõi sự phát triển các giá trị khác nhau của
các chỉ số theo thời gian phân tích. Do đó, khung thời gian tham chiếu
phải được liên kết với dữ liệu để cho phép nhận dạng.
- Thiết kế kho dữ liệu phải khoa học, dễ tìm kiếm, dễ sử dụng.
Kho dữ liệu được thiết kế đặc biệt để phân tích dữ liệu, bao gồm việc
đọc một lượng lớn dữ liệu để hiểu mối quan hệ và xu hướng giữa dữ
liệu đó. Kho phải có khả năng lắp ráp dữ liệu từ các nguồn khác nhau
theo một định dạng nhất quán.
- An ninh, an toàn, bảo mật dữ liệu: Để có một kho dữ liệu an
toàn thì trước hết cần phải có một hệ quản trị kho dữ liệu an toàn. Kho
dữ liệu cần phải được bảo vệ với các tính năng bảo mật được thực hiện
nhờ cơ chế bảo mật sau:
+ Khả năng bảo mật của hệ điều hành: Khi thiết kế kho, cần tận
dụng hết khả năng an toàn sẵn có của hệ điều hành mạng và hệ quản
trị CSDL, thực hiện các thao tác quản trị cần thiết để phát huy tối đa các
khả năng sẵn có của hệ thống.
+ Khả năng phân quyền của hệ quản trị kho dữ liệu: Hệ quản trị
kho dữ liệu cho phép phân quyền sử dụng kho, các thao tác trong sử
dụng kho (quyền đọc, quyền sao chép ). Các quyền này nên được
phân nhỏ tới từng trường. Đồng thời, phải tăng cơ chế kiểm soát lượt
truy nhập.
751
XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU
+ Khả năng bảo mật: Hệ điều hành cần phải có khả năng mã hóa
hoàn toàn. Để tăng tính bảo mật, cần xây dựng tường lửa cho dữ liệu.
Thông tin trong kho dữ liệu cần phải được cập nhật, bổ sung và người
quản lý kho phải mã hóa dữ liệu.
Bảo mật, an toàn an ninh kho dữ liệu là nhiệm vụ cần thiết và vô
cùng quan trọng, phải được thực hiện đồng bộ, chặt chẽ ở tất cả các
khâu từ việc nâng cao nhận thức và ý thức của người sử dụng đến
công tác lãnh đạo, chỉ đạo, quản lý và điều hành. Bên cạnh đó, cần đẩy
mạnh hợp tác, chia sẻ kinh nghiệm giữa các cơ quan để kịp thời ngăn
chặn các nguy cơ mất an toàn thông tin / dữ liệu.
- Kho dữ liệu thư viện phải đáp ứng nhu cầu rất đa dạng của
người dùng.
THAY LỜI KẾT
Như với bất kỳ hệ thống công nghệ thông tin nào, kiến trúc kỹ thuật
của kho dữ liệu sẽ được chọn và có kích thước được tính đến khối lượng,
số lượng người dùng và hoạt động tiềm năng. Việc sử dụng kho dữ liệu
cho phép tích hợp siêu dữ liệu từ các nguồn mang đến một tiềm năng
khai thác thông tin cho người sử dụng bởi nó chứa tất cả các thông tin
cơ bản giúp người dùng khi tìm kiếm tài liệu có tham chiếu thời gian. Do
đó, người dùng sẽ không cần phải tham khảo một số trang Web khác
nhau để có được thông tin mà họ cần để đưa ra quyết định.
Mỗi thư viện khi xây dựng được kho