Xét lại chuẩn hóa dữ liệu, Phần 1: Lịch sử của các hồ sơ kinh doanh

Bài này mô tả sự thay đổi vai trò của việc chuẩn hóa dữ liệu [30] trong các hệ thống thương mại. Từ những năm 1970, khi người ta đã định nghĩa chuẩn hóa hóa dữ liệu, các công nghệ và các hệ thống máy tính và các ứng dụng của chúng đã phát triển đáng kể. Đặc biệt vào những năm 1970, các cấu trúc dữ liệu đã ổn định, dung lượng đĩa còn bị hạn chế rất nhiều và thông tin kinh doanh chỉ trên giấy tờ. Con người và các thiết bị vào-ra rất cần để chuyển dịch văn bản giấy tờ thành một dạng mà máy tính có thể đọc, ví dụ, các bìa đục lỗ. Các máy tính lớn thuộc sở hữu của các tổ chức lớn như các ngân hàng đã có 512K bộ nhớ và chi phí gần 2.000.000 Đô la Mỹ. Một tổ chức lớn đã có dung lượng đĩa 10 MB cho tất cả các hệ thống máy tính và dữ liệu của mình. Trong những năm 1970, cơ sở hạ tầng Internet chỉ mới bắt đầu được tạo ra còn Mạng toàn cầu (World Wide Web) đã có cách đó hơn mười năm rồi.

pdf15 trang | Chia sẻ: lylyngoc | Lượt xem: 1773 | Lượt tải: 2download
Bạn đang xem nội dung tài liệu Xét lại chuẩn hóa dữ liệu, Phần 1: Lịch sử của các hồ sơ kinh doanh, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Xét lại chuẩn hóa dữ liệu, Phần 1: Lịch sử của các hồ sơ kinh doanh Giới thiệu Bài này mô tả sự thay đổi vai trò của việc chuẩn hóa dữ liệu [30] trong các hệ thống thương mại. Từ những năm 1970, khi người ta đã định nghĩa chuẩn hóa hóa dữ liệu, các công nghệ và các hệ thống máy tính và các ứng dụng của chúng đã phát triển đáng kể. Đặc biệt vào những năm 1970, các cấu trúc dữ liệu đã ổn định, dung lượng đĩa còn bị hạn chế rất nhiều và thông tin kinh doanh chỉ trên giấy tờ. Con người và các thiết bị vào-ra rất cần để chuyển dịch văn bản giấy tờ thành một dạng mà máy tính có thể đọc, ví dụ, các bìa đục lỗ. Các máy tính lớn thuộc sở hữu của các tổ chức lớn như các ngân hàng đã có 512K bộ nhớ và chi phí gần 2.000.000 Đô la Mỹ. Một tổ chức lớn đã có dung lượng đĩa 10 MB cho tất cả các hệ thống máy tính và dữ liệu của mình. Trong những năm 1970, cơ sở hạ tầng Internet chỉ mới bắt đầu được tạo ra còn Mạng toàn cầu (World Wide Web) đã có cách đó hơn mười năm rồi. Vì dung lượng đĩa còn bị hạn chế nhiều, nên người ta giả định rằng chỉ có thông tin thông dụng nhất mới được lưu trữ và được tạo sẵn cho các ứng dụng. Việc chuẩn hóa đảm bảo rằng mỗi mảnh dữ liệu, như tên, địa chỉ hoặc thông tin đặt hàng, xuất hiện đúng một lần trên đĩa để tránh các dị thường dữ liệu và bảo tồn dung lượng. Thông thường, dữ liệu đã chuẩn hóa chỉ tồn tại trong các hệ thống máy tính và không phù hợp với việc biểu diễn dữ liệu kinh doanh ban đầu. Trong thế kỷ 21, các dữ liệu kinh doanh hầu như luôn luôn được tạo ra ở dạng số, như một thông báo đơn đặt hàng dưới dạng một yêu cầu dịch vụ web. Do đó, việc chuẩn hóa dữ liệu ngụ ý rằng việc biểu diễn một hồ sơ kinh doanh dưới dạng số hiện có được chia nhỏ để lưu trữ trong một cơ sở dữ liệu và sau đó được khôi phục lại để trình bày và sử dụng các hồ sơ kinh doanh. Trong bài này, thuật ngữ "hồ sơ kinh doanh" được sử dụng với nghĩa là thông tin có thể được chia sẻ giữa hai hoặc nhiều bên hoặc nhiều thành phần, như một đơn đặt hàng, một phiếu thu, một giấy báo nợ, một giao dịch tài chính, một chuyển khoản ngân hàng, một chính sách bảo hiểm, một email, một hồ sơ bệnh nhân, một bản ghi nhật ký, một phép đo, một sự kiện được ghi lại, một chính sách hoặc sắc lệnh bắt buộc và v.v.. Các giả định mà mô hình quan hệ dựa vào đã thay đổi. Ngày nay, nhiều hệ thống và cấu trúc thông tin không còn đơn giản và cố định nữa mà phức tạp và chúng thay đổi nhanh chóng. Trong thế giới ngày nay, việc chuẩn hóa là một quá trình có thể hoạt động như một chất ức chế cho cả việc phân phối của các hệ thống linh hoạt lẫn việc phân phối linh hoạt của các hệ thống. Bài này giới thiệu về lưu giữ hồ sơ thông qua lịch sử trước và sau khi đưa các máy tính vào để sử dụng thương mại. Một nhận xét quan trọng là trong suốt chiều dài lịch sử, các hồ sơ kinh doanh đã được lưu trữ "như nó vốn có" và việc đưa các máy tính vào chỉ gây ra sự chia nhỏ các hồ sơ thành nhiều mảnh (chuẩn hóa). Sau đó bài này xem xét động lực cho sự phát triển chuẩn hóa dữ liệu trong những năm 1970. Rồi nó giải thích liệu một số mức độ không chuẩn hóa dữ liệu có trở thành một sự thỏa hiệp được áp dụng phổ biến không. Cuối cùng, bài này thảo luận về ảnh hưởng của web đối với các hồ sơ kinh doanh, cho phép chúng được tạo ra theo định dạng số. Kết quả là, lần đầu tiên đã có thể lưu trữ và xử lý các hồ sơ kinh doanh trong các máy tính theo cấu trúc ban đầu của chúng. Lưu giữ hồ sơ qua lịch sử Phần này mô tả các khía cạnh về lưu giữ hồ sơ trước khi giới thiệu các máy tính, giúp chúng ta hiểu những thay đổi đáng kể do các máy tính đem lại. Các thay đổi này được mô tả sau trong bài này. Các bộ sưu tập về các phiếu thu đã được tìm thấy ở tận thiên niên kỷ thứ 3 trước Công nguyên trong Sumeria cổ [ 1] dưới dạng các viên đất sét đã được trao đổi và sau đó được lưu trữ để lưu giữ hồ sơ. Các hồ sơ cho vay của người Babylon đã được tìm thấy từ thế kỷ 18 trước Công nguyên [ 2]. Các mã của Hammurabi [3] ở Babylon (năm 1792 trước Công nguyên) gồm có các bản tuyên bố xử lý và lưu giữ hồ sơ (các viên đất sét). Ví dụ:  Nếu bất cứ ai nợ tiền vay và một cơn bão phá hỏng mùa màng, hoặc không thu hoạch được, hoặc các hạt giống không nảy mầm vì thiếu nước; trong năm đó, người đó không cần trả cho chủ nợ của mình bất kỳ hạt thóc nào, ông rửa sạch các thẻ nợ của mình bằng nước và không trả tiền thuê trong năm đó.  Nếu bất cứ ai mua cánh đồng, sân vườn và ngôi nhà của tù trưởng, người đàn ông hoặc một người phải chịu số tô nộp cho lãnh chúa, thì thẻ hợp đồng mua bán của ông ta sẽ bị phá vỡ (được tuyên bố không hợp lệ) và ông ta bị mất tiền. Cánh đồng, sân vườn và ngôi nhà trả lại cho chủ sở hữu chúng. Qua lịch sử, các cơ chế khác nhau đã được giới thiệu để ghi lại thông tin kinh doanh, như các gậy đếm kiểm [ 4][ 5], rẻ hơn và dễ dàng có sẵn hơn so với giấy tờ. Ở châu Âu thời trung cổ, một cây gậy được đánh dấu bằng các vết khía hình V và sau đó được chia theo chiều dọc. Hai nửa gậy phải có cùng các vết khía hình chữ V và mỗi bên giao dịch được nhận một nửa cây gậy đã đánh dấu làm bằng chứng. Rồi các cây gậy này được lưu trữ và giữ nguyên. Gậy đếm kiểm đã chia được chính phủ Anh sử dụng liên tục cho đến năm 1826 để quản lý thuế. Các kho gậy đếm kiểm được lệnh tiêu huỷ bằng cách đốt vào năm 1834 khi các phương thức ghi âm hiện đại hơn đã được giới thiệu [ 5]. Giấy và trong thời gian trước đó là giấy cói và giấy da [ 6], đã ngày càng được sử dụng qua nhiều thế kỷ cho đến cuối thế kỷ 20 để ghi lại các thỏa thuận kinh doanh, các hóa đơn bán hàng, các hợp đồng và các tài liệu quan trọng khác. Thông thường, các hồ sơ đã được ký kết và đôi khi được đóng dấu bằng sáp ong với các nhãn hiệu của các nhà buôn liên quan. Các phương pháp như kế toán kép đã được giới thiệu trong thế kỷ 15. Các thư ký và những người chép thuê đã hỗ trợ các nhà buôn khi công việc giấy tờ tăng lên. Khi các máy tính được đưa vào sử dụng thương mại trong thế kỷ 20, các doanh nghiệp bắt đầu tin học hóa các hệ thống của mình – với yêu cầu chuyển đổi các hồ sơ giấy tờ của thế giới thực sang một cách biểu diễn để các máy tính có thể hiểu được [ 7]. Trước khi đưa vào các máy tính, nguyên tắc chính của việc lưu giữ hồ sơ là chụp ảnh và duy trì một bản sao thông tin chính xác đã được trao đổi giữa các bên liên quan trong một giao dịch. Thường thì các hồ sơ đã được ký kết hoặc đánh dấu theo một cách nào đó và được lưu trữ "như nó vốn có" cho các nhu cầu trong tương lai. Các quy tắc chi phối việc lưu trữ và xử lý các hồ sơ và các hợp đồng kinh doanh đã tồn tại trong suốt lịch sử. Lưu giữ hồ sơ trong các hệ thống máy tính Phần này mô tả môi trường trong đó các hệ thống cơ sở dữ liệu đã được giới thiệu vào nửa sau của thế kỷ hai mươi và mục đích chính của các hệ thống đó. Khi các hệ thống máy tính số đã được đưa vào để hỗ trợ các doanh nghiệp thương mại trong những năm 1950 và 1960, các hồ sơ đầu tiên được lưu trữ trên các bìa giấy đục lỗ [8], mà người ta cũng đã thường sử dụng bìa này cho đầu vào và đầu ra. Những người sử dụng gõ nội dung của các hồ sơ giấy, biểu thị các giao dịch kinh doanh, vào các bìa, sao cho máy tính có thể đọc và sử dụng thông tin đó (Hình 1). Dữ liệu được lưu trữ và được xử lý bên trong hệ thống máy tính không còn phù hợp với giao dịch kinh doanh thực sự trên giấy, mặc dù nó có thể phù hợp với cách nhập dữ liệu vào máy tính trong thời đại bìa đục lỗ. Hình 1. Nhân viên nhập dữ liệu vào những năm 1950 Các bìa đục lỗ tiếp tục được sử dụng với khối lượng đầu vào và đầu ra dữ liệu lớn trong các hệ thống máy tính vào những năm 1980, nhưng băng từ [9] và sau đó lưu trữ trên đĩa [ 10] sớm đã thay thế các bìa đục lỗ trong các hệ thống lớn vào những năm l960. Với sự ra đời của lưu trữ đĩa (Hình 2), khả năng truy cập dữ liệu trực tiếp và nhanh chóng đã trở nên có triển vọng, khi các phần riêng biệt của một đĩa có thể xử lý được bằng lập trình. Trước khi có các đĩa, hầu hết việc xử lý diễn ra theo các lô [ 11] ở đây dữ liệu được xử lý theo thứ tự mà nó đã được lưu trữ trong các tệp trên băng từ hay trên các bìa đục lỗ. Các đĩa đã cho phép truy cập dữ liệu một cách ngẫu nhiên. Hình 2. Vận chuyển một ổ đĩa cứng IBM 5MB vào năm 1956 Trong những năm 1960, một số hệ thống cơ sở dữ liệu [ 12] và hệ thống tệp truy cập trực tiếp [13] đã được phát triển để quản lý dữ liệu đã lưu trên đĩa cho phép nhiều người có thể đồng thời truy cập và cập nhật đĩa, lợi dụng dung lượng lưu trữ đĩa mới có sẵn. Hai trong số các cấu trúc cơ sở dữ liệu phổ biến nhất được sử dụng là mô hình mạng (CODASYL) [14] và mô hình phân cấp (IMS) [ 15]. Trước khi lưu trữ dữ liệu trong cơ sở dữ liệu và thực hiện một ứng dụng, nhóm chuyên gia (các nhà phân tích dữ liệu hoặc quản trị cơ sở dữ liệu) đã chạy một thiết kế dữ liệu để chia nhỏ dữ liệu kinh doanh, vẫn còn trên giấy trong thời đại đó, thành các hệ thống phân cấp hoặc các mạng. Các nhà phân tích đã tạo ra hai mô hình thiết kế dữ liệu, một thiết kế logic ánh xạ các hồ sơ kinh doanh vào các hệ thống phân cấp hoặc các mạng để các nhà lập trình truy cập vào và xử lý và một mô hình vật lý để ánh xạ các hệ thống phân cấp hoặc các mạng tới các đĩa. Các lập trình viên đã tìm hiểu mô hình logic và đã truy cập cơ sở dữ liệu thông qua các giao diện lập trình dẫn hướng (ví dụ, lấy phần tử con tiếp theo trong phần tử cha mẹ) được cung cấp cùng với hệ thống cơ sở dữ liệu cho các ngôn ngữ lập trình phổ biến lúc đó. Trong những năm 1970 mô hình quan hệ thành công vang dội [ 30] đã được giới thiệu, tiếp tục độc chiếm các hệ thống kinh doanh trong thế kỷ 21. Nó lưu trữ các dữ liệu kinh doanh trong các bảng. Các mô hình quan hệ loại bỏ nhu cầu truy cập dẫn hướng, nhưng vẫn đòi hỏi các nhà phân tích dữ liệu chia nhỏ dữ liệu kinh doanh thành các bảng để các nhà lập trình truy cập các bảng đó thông qua một ngôn ngữ khai báo (SQL). Dữ liệu kinh doanh vẫn còn nằm trên giấy vào những năm 1970 và 1980 và đã được chuyển đổi, thường là bằng các máy quét hoặc do những người sử dụng gõ lại các biểu mẫu. Việc chia nhỏ dữ liệu kinh doanh điển hình theo các nguyên tắc chuẩn hóa dữ liệu [ 16][ 17] tiếp tục được dạy và được sử dụng trong thế kỷ 21 để giảm thiểu việc sao chép và các dị thường dữ liệu. Vào lúc các khái niệm về các cơ sở dữ liệu quan hệ đã được xác định, một thiết bị lưu trữ đĩa phổ biến là 3330 model 11 có dung lượng 200 MB và giá mua thiết bị này dao động từ $ 74.000 đến $ 87.000 (giá Đô la năm 1970) [ 19]. Khi các cơ sở dữ liệu quan hệ bắt đầu giảm bớt vào những năm 1980, một đĩa rất phổ biến là 3380. Nó có kích thước bằng một tủ quần áo và có dung lượng lưu trữ 1,2 GB với chi phí trên $ 200.000 [ 20]. Vì thế, 1MB dung lượng lưu trữ đĩa có giá trên $160 (giá Đô la năm 1970), tương đương với hàng ngàn đô la vào năm 2010 [ 21]. Thông thường, các hệ thống cơ sở dữ liệu quan hệ đã không giữ thông tin bảo mật liên quan đến các chữ ký và thường chứa bất kỳ mảnh thông tin nào đúng một lần – chỉ phiên bản mới nhất, khiến cho việc thực hiện kiểm tra trở nên khó khăn. Điều sớm đã trở nên rõ ràng là cần lưu trữ các bản sao của các hồ sơ kinh doanh thế giới thực, ví dụ để có thể thực hiện kiểm tra các chính sách bảo hiểm và các khiếu nại có liên quan trong trường hợp tranh chấp. Các hệ thống tài liệu cũng cần tuân theo các quy tắc đòi hỏi các dữ liệu kinh doanh được lưu trữ với một số năm nhất định. Một thể loại phần mềm mới, được gọi là Hệ thống quản lý tài liệu doanh nghiệp (Enterprise Document Management Systems) [ 23], được phát triển vào cuối những năm 1980 để lưu trữ các hình ảnh của các hồ sơ giấy tờ. Các hệ thống này đã được tách khỏi các cơ sở dữ liệu đã lưu trữ dữ liệu giống như trong các bảng quan hệ. Trong thế kỷ 21, Quản lý tài liệu doanh nghiệp được gọi là Quản lý nội dung doanh nghiệp [ 24]. Nguyên tắc chính về lưu giữ hồ sơ trong các máy tính trong thế kỷ XX đã giới thiệu một kiểu lưu trữ phù hợp với cách mà các máy tính làm việc, để lưu trữ bất kỳ mục dữ liệu cụ thể nào đúng một lần, giảm thiểu lưu trữ. Nếu cần một bản sao chính xác của hồ sơ giấy tờ thực thế giới, thì người ta đã xây dựng các hệ thống riêng biệt để thực hiện chính xác điều đó, làm cho dữ liệu giống nhau được lưu trữ nhiều lần. Các quy tắc để quản lý lưu trữ và xử lý các hồ sơ vẫn tiếp tục tăng lên. Quá trình chuẩn hóa dữ liệu Phần này mô tả mục đích và các ảnh hưởng của quá trình chuẩn hóa dữ liệu lần đầu tiên được giới thiệu vào năm 1970 với các dạng chuẩn tắc hơn được giới thiệu suốt những năm 1970. Chuẩn hóa dữ liệu là một phương pháp luận để đưa ra một bộ sưu tập các bảng biểu diễn các hồ sơ kinh doanh thế giới thực trong một cơ sở dữ liệu, tránh bất kỳ sự trùng lặp dữ liệu nào khi lưu trữ vốn rất tốn kém. Tránh trùng lặp dữ liệu cũng có nghĩa là các dị thường cập nhật không thể xảy ra. Chuẩn hóa dữ liệu rất tốt và được ghi lại rộng rãi [ 18]. INó bắt đầu với một bảng lớn duy nhất để biểu diễn tất cả các thuộc tính của một hồ sơ kinh doanh thế giới thực cùng với mã định danh chính (một khóa), sau đó sẽ gỡ bỏ hệ thống phân cấp (các nhóm lặp lại) để đơn giản hóa truy vấn với một ngôn ngữ như SQL. Tiếp đến cũng phải gỡ bỏ bất kỳ dữ liệu trùng lặp và các phụ thuộc chức năng nào trong các bảng kết quả. Để đạt được chuẩn hóa, bảng duy nhất có tất cả các thuộc tính cần thiết được chia nhỏ thành các bảng được liên kết thông qua các khóa chính và khóa ngoài. Kết quả của việc chuẩn hoá dữ liệu là một hồ sơ kinh doanh duy nhất có thể được biểu diễn trong hàng chục hoặc hàng trăm bảng. Nhiều khóa nhân tạo (và các chỉ mục có liên quan) được đưa vào, tuy không tồn tại trong thế giới thực, nhưng lại rất cần để tạo lại hồ sơ kinh doanh thế giới thực. Việc lưu trữ nhiều phiên bản của một hồ sơ kinh doanh, ví dụ, một đơn đặt hàng và sau đó thực hiện bất kỳ sửa đổi nào với đơn đặt hàng đó, yêu cầu tạo phiên bản tất cả các bảng liên quan có thực hiện truy vấn và duy trì tổ hợp các bảng. Một cách tiếp cận thay thế, để bảo toàn lưu trữ, là chỉ lưu trữ các khác biệt, thay vì xếp tầng các phiên bản đầy đủ thông qua các bảng, làm phức tạp thêm cho các lập trình viên. Năm 1980, chi phí của hai MB dung lượng lưu trữ đại khái tương đương với chi phí của một tuần làm việc của một lập trình viên máy tính ở Mỹ [ 19][ 22]. Vào năm 2010, thậm chí một GB dung lượng lưu trữ chỉ chiếm một phần rất nhỏ, không bằng vài phút làm việc của một lập trình viên máy tính và giá lưu trữ tiếp tục giảm. Hơn nữa, bộ nhớ ngày càng trở nên phong phú và chi phí (độ trễ) của các hoạt động Vào/Ra (I/O) tiếp tục giảm khi các loại lưu trữ mới – như các đĩa thể rắn - đang được giới thiệu. Với ngoại lệ cần lưu ý của các cơ sở dữ liệu quan hệ, người ta thường sử dụng phương tiện lưu trữ để lưu trữ các tạo phẩm chưa được chuẩn hóa, ví dụ trong các máy chủ tệp, các máy chủ web, các kho lưu trữ nội dung, các máy chủ ứng dụng và v.v.. Lưu trữ quan hệ trái ngược với các viên đá, các gậy đếm kiểm và các hồ sơ giấy được sử dụng để lưu giữ hồ sơ trước khi đưa vào các hệ thống máy tính và luôn luôn được lưu trữ "như nó vốn có". Vì một vài lý do mà chúng không được chia ra hoặc được chuyển đổi sang một định dạng khác cho các mục đích lưu trữ. Đầu tiên, không gian lưu trữ luôn phong phú và đã không được bảo toàn. Thứ hai, bất kỳ sự chuyển đổi (và tạo lại) các tạo phẩm thường rất tốn kém. Và thứ ba, lưu trữ những hồ sơ này dưới dạng ban đầu của chúng làm cho việc sử dụng và hiểu chúng dễ dàng khi lấy chúng ra khỏi nơi lưu trữ. Các lý do tương tự đang áp dụng hiện nay để lưu trữ các hồ sơ kinh doanh số thế giới thực dưới dạng chưa chuẩn hóa sẽ được thảo luận sau trong bài này. Khi việc sử dụng các hồ sơ giấy tăng lên nhanh chóng trong thế kỷ 19 và 20, không gian lưu trữ đã trở thành một vấn đề đối với một số thư viện và các kho tư liệu. Điều này đã kích thích phát minh ra vi phim và tấm vi phim để giảm không gian lưu trữ cần thiết xuống giữa 0,25% và 3% so với vật liệu ban đầu [ 25]. Tuy nhiên, đây chỉ là một hình thức nén mà không biểu diễn thông tin theo một cách khác dựa trên khái niệm. Tương tự như vậy, hiện nay có thể áp dụng việc nén số để làm giảm tiêu dùng dung lượng lưu trữ của các hồ sơ kinh doanh không chuẩn hóa. Do chi phí lưu trữ cao, nên chuẩn hóa dữ liệu biểu diễn các hồ sơ kinh doanh trong các máy tính bằng cách chia nhỏ hồ sơ thành nhiều phần, đôi khi hàng trăm phần và tái tạo lại chúng khi cần thiết. Cần có các khóa nhân tạo và các chỉ mục liên quan để liên kết các phần của một hồ sơ duy nhất với nhau. Điều này trái ngược hẳn với các hệ thống lưu giữ hồ sơ trước đó (các viên đá, các gậy đếm kiểm, giấy v.v..) đã lưu giữ hồ sơ kinh doanh như nó vốn có. Các cách biểu diễn chuẩn hóa làm cho việc hiểu các hồ sơ kinh doanh trở nên khó khăn hơn nhiều và tăng thêm các chi phí để chia nhỏ và ghép chúng lại. Quá trình không chuẩn hóa Phần này mô tả các tình huống mà ở đó việc không chuẩn hóa đã trở thành cách thực hiện phổ biến. Các lược đồ cơ sở dữ liệu cho các kho dữ liệu là một ví dụ và các kho lưu trữ dữ liệu có khả năng mở rộng mới như Google BigTable [ 47] và HBase [ 49] là các ví dụ khác. Chuẩn hóa có hai nhược điểm cố hữu. Đầu tiên, các hồ sơ kinh doanh phức tạp thường dẫn đến một số lượng lớn các bảng quan hệ trong một lược đồ cơ sở dữ liệu đã chuẩn hóa, làm cho việc biểu diễn dữ liệu khó hiểu. Kết quả là, việc viết các truy vấn có thể yêu cầu nhiều liên kết và trở nên ngày càng phức tạp [ 46]. Thứ hai, số lượng lớn các liên kết có tiềm năng gây bất lợi cho hoạt động phục hồi dữ liệu. Việc không chuẩn hóa các bảng đã chuẩn hóa hoặc việc sử dụng một thiết kế không chuẩn hóa có thể trực tiếp giải quyết những vấn đề này. Không chuẩn hóa trong các kho dữ liệu Do dung lượng của các thiết bị điện toán và lưu trữ đã tăng lên trong những năm 1980 và 1990, trong khi chi phí đã giảm xuống, các công ty đã có thể có đủ khả năng tích lũy và phân tích khối lượng dữ liệu kinh doanh lịch sử lớn hơn, như các hồ sơ bán hàng, trong các kho dữ liệu. Để có được cái nhìn sâu vào hoạt động kinh doanh của một công ty, các kho này được các nhân viên kinh doanh sử dụng, những người cần chạy các truy vấn phức tạp dựa vào một cách biểu diễn dữ liệu trực quan. Người ta đã nhanh chóng phát hiện ra rằng "việc sử dụng mô hình hóa đã chuẩn hóa trong kho dữ liệu gây khó khăn cho toàn bộ mục đích của kho dữ liệu, cụ thể là, việc phục hồi các dữ liệu trực quan và hiệu năng cao" [ 26]. Kết quả là, các lược đồ hình sao không chuẩn hóa đã trở thành lược đồ cơ sở dữ liệu phổ biến nhất cho các kho dữ liệu. Do các kho dữ liệu thường thêm dữ liệu mới theo định kỳ thay vì thực hiện các cập nhật giao dịch, việc không chuẩn hóa làm đơn giản hoá lược đồ và cải thiện hiệu năng truy vấn với ít nguy cơ về các dị thường cập nhật. Một lược đồ hình sao gồm có ít nhất một bảng sự kiện, như "doanh thu hàng ngày" có các bản ghi doanh thu và một số bảng chiều như "kho", "sản phẩm", "ngày" và "khách hàng". Có một mối quan hệ một-nhiều giữa mỗi chiều và bảng sự kiện. Mỗi hàng của bảng sự kiện có một vài số đo, có nghĩa là, các cột số như "số lượng" hay "giá", cũng như các khóa ngoài cho tất cả các bảng chiều để cho biết sản phẩm nào đã được bán trong kho nào cho khách hàng nào vào ngày nào. Đây là một khung nhìn dữ liệu kinh doanh trực quan và làm cho việc phân tích (doanh thu) các sự kiện theo các chiều kinh doanh liên quan dễ dàng. Các bảng chiều thường không được chuẩn hóa. Ví dụ, bảng "sản phẩm" có thể có các cột như "loại hàng hóa" và "thể loại", ở đây các giá trị chuỗi giống nhau có thể xuất hiện dư ra cho nhiều sản phẩm. Chuẩn hóa sẽ sử dụng các giá trị INTEGER (số nguyên) làm các khóa cho các loại hàng hóa và các thể loại, cộng với các bảng riêng biệt có tên của từng thể loại hàng hóa chỉ xảy ra một lần. Cần tránh chuẩn hóa các bảng chiều này, vì nó sẽ dẫn đến một lược đồ dạng bông tuyết thường gây khó hiểu hơn và
Tài liệu liên quan