Bài này mô tả sự thay đổi vai trò của việc chuẩn hóa dữ liệu [30] trong các hệ thống thương mại.
Từ những năm 1970, khi người ta đã định nghĩa chuẩn hóa hóa dữ liệu, các công nghệ và các hệ
thống máy tính và các ứng dụng của chúng đã phát triển đáng kể. Đặc biệt vào những năm 1970,
các cấu trúc dữ liệu đã ổn định, dung lượng đĩa còn bị hạn chế rất nhiều và thông tin kinh doanh
chỉ trên giấy tờ. Con người và các thiết bị vào-ra rất cần để chuyển dịch văn bản giấy tờ thành
một dạng mà máy tính có thể đọc, ví dụ, các bìa đục lỗ. Các máy tính lớn thuộc sở hữu của các tổ
chức lớn như các ngân hàng đã có 512K bộ nhớ và chi phí gần 2.000.000 Đô la Mỹ. Một tổ chức
lớn đã có dung lượng đĩa 10 MB cho tất cả các hệ thống máy tính và dữ liệu của mình. Trong
những năm 1970, cơ sở hạ tầng Internet chỉ mới bắt đầu được tạo ra còn Mạng toàn cầu (World
Wide Web) đã có cách đó hơn mười năm rồi.
15 trang |
Chia sẻ: lylyngoc | Lượt xem: 1791 | Lượt tải: 2
Bạn đang xem nội dung tài liệu Xét lại chuẩn hóa dữ liệu, Phần 1: Lịch sử của các hồ sơ kinh doanh, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Xét lại chuẩn hóa dữ liệu, Phần 1: Lịch sử của các hồ
sơ kinh doanh
Giới thiệu
Bài này mô tả sự thay đổi vai trò của việc chuẩn hóa dữ liệu [30] trong các hệ thống thương mại.
Từ những năm 1970, khi người ta đã định nghĩa chuẩn hóa hóa dữ liệu, các công nghệ và các hệ
thống máy tính và các ứng dụng của chúng đã phát triển đáng kể. Đặc biệt vào những năm 1970,
các cấu trúc dữ liệu đã ổn định, dung lượng đĩa còn bị hạn chế rất nhiều và thông tin kinh doanh
chỉ trên giấy tờ. Con người và các thiết bị vào-ra rất cần để chuyển dịch văn bản giấy tờ thành
một dạng mà máy tính có thể đọc, ví dụ, các bìa đục lỗ. Các máy tính lớn thuộc sở hữu của các tổ
chức lớn như các ngân hàng đã có 512K bộ nhớ và chi phí gần 2.000.000 Đô la Mỹ. Một tổ chức
lớn đã có dung lượng đĩa 10 MB cho tất cả các hệ thống máy tính và dữ liệu của mình. Trong
những năm 1970, cơ sở hạ tầng Internet chỉ mới bắt đầu được tạo ra còn Mạng toàn cầu (World
Wide Web) đã có cách đó hơn mười năm rồi.
Vì dung lượng đĩa còn bị hạn chế nhiều, nên người ta giả định rằng chỉ có thông tin thông dụng
nhất mới được lưu trữ và được tạo sẵn cho các ứng dụng. Việc chuẩn hóa đảm bảo rằng mỗi
mảnh dữ liệu, như tên, địa chỉ hoặc thông tin đặt hàng, xuất hiện đúng một lần trên đĩa để tránh
các dị thường dữ liệu và bảo tồn dung lượng. Thông thường, dữ liệu đã chuẩn hóa chỉ tồn tại
trong các hệ thống máy tính và không phù hợp với việc biểu diễn dữ liệu kinh doanh ban đầu.
Trong thế kỷ 21, các dữ liệu kinh doanh hầu như luôn luôn được tạo ra ở dạng số, như một thông
báo đơn đặt hàng dưới dạng một yêu cầu dịch vụ web. Do đó, việc chuẩn hóa dữ liệu ngụ ý rằng
việc biểu diễn một hồ sơ kinh doanh dưới dạng số hiện có được chia nhỏ để lưu trữ trong một cơ
sở dữ liệu và sau đó được khôi phục lại để trình bày và sử dụng các hồ sơ kinh doanh.
Trong bài này, thuật ngữ "hồ sơ kinh doanh" được sử dụng với nghĩa là thông tin có thể được
chia sẻ giữa hai hoặc nhiều bên hoặc nhiều thành phần, như một đơn đặt hàng, một phiếu thu,
một giấy báo nợ, một giao dịch tài chính, một chuyển khoản ngân hàng, một chính sách bảo
hiểm, một email, một hồ sơ bệnh nhân, một bản ghi nhật ký, một phép đo, một sự kiện được ghi
lại, một chính sách hoặc sắc lệnh bắt buộc và v.v..
Các giả định mà mô hình quan hệ dựa vào đã thay đổi. Ngày nay, nhiều hệ thống và cấu trúc
thông tin không còn đơn giản và cố định nữa mà phức tạp và chúng thay đổi nhanh chóng. Trong
thế giới ngày nay, việc chuẩn hóa là một quá trình có thể hoạt động như một chất ức chế cho cả
việc phân phối của các hệ thống linh hoạt lẫn việc phân phối linh hoạt của các hệ thống.
Bài này giới thiệu về lưu giữ hồ sơ thông qua lịch sử trước và sau khi đưa các máy tính vào để sử
dụng thương mại. Một nhận xét quan trọng là trong suốt chiều dài lịch sử, các hồ sơ kinh doanh
đã được lưu trữ "như nó vốn có" và việc đưa các máy tính vào chỉ gây ra sự chia nhỏ các hồ sơ
thành nhiều mảnh (chuẩn hóa). Sau đó bài này xem xét động lực cho sự phát triển chuẩn hóa dữ
liệu trong những năm 1970. Rồi nó giải thích liệu một số mức độ không chuẩn hóa dữ liệu có trở
thành một sự thỏa hiệp được áp dụng phổ biến không. Cuối cùng, bài này thảo luận về ảnh
hưởng của web đối với các hồ sơ kinh doanh, cho phép chúng được tạo ra theo định dạng số. Kết
quả là, lần đầu tiên đã có thể lưu trữ và xử lý các hồ sơ kinh doanh trong các máy tính theo cấu
trúc ban đầu của chúng.
Lưu giữ hồ sơ qua lịch sử
Phần này mô tả các khía cạnh về lưu giữ hồ sơ trước khi giới thiệu các máy tính, giúp chúng ta
hiểu những thay đổi đáng kể do các máy tính đem lại. Các thay đổi này được mô tả sau trong bài
này.
Các bộ sưu tập về các phiếu thu đã được tìm thấy ở tận thiên niên kỷ thứ 3 trước Công nguyên
trong Sumeria cổ [ 1] dưới dạng các viên đất sét đã được trao đổi và sau đó được lưu trữ để lưu
giữ hồ sơ. Các hồ sơ cho vay của người Babylon đã được tìm thấy từ thế kỷ 18 trước Công
nguyên [ 2]. Các mã của Hammurabi [3] ở Babylon (năm 1792 trước Công nguyên) gồm có các
bản tuyên bố xử lý và lưu giữ hồ sơ (các viên đất sét). Ví dụ:
Nếu bất cứ ai nợ tiền vay và một cơn bão phá hỏng mùa màng, hoặc không thu hoạch
được, hoặc các hạt giống không nảy mầm vì thiếu nước; trong năm đó, người đó không
cần trả cho chủ nợ của mình bất kỳ hạt thóc nào, ông rửa sạch các thẻ nợ của mình bằng
nước và không trả tiền thuê trong năm đó.
Nếu bất cứ ai mua cánh đồng, sân vườn và ngôi nhà của tù trưởng, người đàn ông hoặc
một người phải chịu số tô nộp cho lãnh chúa, thì thẻ hợp đồng mua bán của ông ta sẽ bị
phá vỡ (được tuyên bố không hợp lệ) và ông ta bị mất tiền. Cánh đồng, sân vườn và ngôi
nhà trả lại cho chủ sở hữu chúng.
Qua lịch sử, các cơ chế khác nhau đã được giới thiệu để ghi lại thông tin kinh doanh, như các
gậy đếm kiểm [ 4][ 5], rẻ hơn và dễ dàng có sẵn hơn so với giấy tờ. Ở châu Âu thời trung cổ, một
cây gậy được đánh dấu bằng các vết khía hình V và sau đó được chia theo chiều dọc. Hai nửa
gậy phải có cùng các vết khía hình chữ V và mỗi bên giao dịch được nhận một nửa cây gậy đã
đánh dấu làm bằng chứng. Rồi các cây gậy này được lưu trữ và giữ nguyên. Gậy đếm kiểm đã
chia được chính phủ Anh sử dụng liên tục cho đến năm 1826 để quản lý thuế. Các kho gậy đếm
kiểm được lệnh tiêu huỷ bằng cách đốt vào năm 1834 khi các phương thức ghi âm hiện đại hơn
đã được giới thiệu [ 5].
Giấy và trong thời gian trước đó là giấy cói và giấy da [ 6], đã ngày càng được sử dụng qua nhiều
thế kỷ cho đến cuối thế kỷ 20 để ghi lại các thỏa thuận kinh doanh, các hóa đơn bán hàng, các
hợp đồng và các tài liệu quan trọng khác. Thông thường, các hồ sơ đã được ký kết và đôi khi
được đóng dấu bằng sáp ong với các nhãn hiệu của các nhà buôn liên quan. Các phương pháp
như kế toán kép đã được giới thiệu trong thế kỷ 15. Các thư ký và những người chép thuê đã hỗ
trợ các nhà buôn khi công việc giấy tờ tăng lên. Khi các máy tính được đưa vào sử dụng thương
mại trong thế kỷ 20, các doanh nghiệp bắt đầu tin học hóa các hệ thống của mình – với yêu cầu
chuyển đổi các hồ sơ giấy tờ của thế giới thực sang một cách biểu diễn để các máy tính có thể
hiểu được [ 7].
Trước khi đưa vào các máy tính, nguyên tắc chính của việc lưu giữ hồ sơ là chụp ảnh và duy trì
một bản sao thông tin chính xác đã được trao đổi giữa các bên liên quan trong một giao dịch.
Thường thì các hồ sơ đã được ký kết hoặc đánh dấu theo một cách nào đó và được lưu trữ "như
nó vốn có" cho các nhu cầu trong tương lai. Các quy tắc chi phối việc lưu trữ và xử lý các hồ sơ
và các hợp đồng kinh doanh đã tồn tại trong suốt lịch sử.
Lưu giữ hồ sơ trong các hệ thống máy tính
Phần này mô tả môi trường trong đó các hệ thống cơ sở dữ liệu đã được giới thiệu vào nửa sau
của thế kỷ hai mươi và mục đích chính của các hệ thống đó.
Khi các hệ thống máy tính số đã được đưa vào để hỗ trợ các doanh nghiệp thương mại trong
những năm 1950 và 1960, các hồ sơ đầu tiên được lưu trữ trên các bìa giấy đục lỗ [8], mà người
ta cũng đã thường sử dụng bìa này cho đầu vào và đầu ra. Những người sử dụng gõ nội dung của
các hồ sơ giấy, biểu thị các giao dịch kinh doanh, vào các bìa, sao cho máy tính có thể đọc và sử
dụng thông tin đó (Hình 1). Dữ liệu được lưu trữ và được xử lý bên trong hệ thống máy tính
không còn phù hợp với giao dịch kinh doanh thực sự trên giấy, mặc dù nó có thể phù hợp với
cách nhập dữ liệu vào máy tính trong thời đại bìa đục lỗ.
Hình 1. Nhân viên nhập dữ liệu vào những năm 1950
Các bìa đục lỗ tiếp tục được sử dụng với khối lượng đầu vào và đầu ra dữ liệu lớn trong các hệ
thống máy tính vào những năm 1980, nhưng băng từ [9] và sau đó lưu trữ trên đĩa [ 10] sớm đã
thay thế các bìa đục lỗ trong các hệ thống lớn vào những năm l960. Với sự ra đời của lưu trữ đĩa
(Hình 2), khả năng truy cập dữ liệu trực tiếp và nhanh chóng đã trở nên có triển vọng, khi các
phần riêng biệt của một đĩa có thể xử lý được bằng lập trình. Trước khi có các đĩa, hầu hết việc
xử lý diễn ra theo các lô [ 11] ở đây dữ liệu được xử lý theo thứ tự mà nó đã được lưu trữ trong
các tệp trên băng từ hay trên các bìa đục lỗ. Các đĩa đã cho phép truy cập dữ liệu một cách ngẫu
nhiên.
Hình 2. Vận chuyển một ổ đĩa cứng IBM 5MB vào năm 1956
Trong những năm 1960, một số hệ thống cơ sở dữ liệu [ 12] và hệ thống tệp truy cập trực tiếp
[13] đã được phát triển để quản lý dữ liệu đã lưu trên đĩa cho phép nhiều người có thể đồng thời
truy cập và cập nhật đĩa, lợi dụng dung lượng lưu trữ đĩa mới có sẵn. Hai trong số các cấu trúc cơ
sở dữ liệu phổ biến nhất được sử dụng là mô hình mạng (CODASYL) [14] và mô hình phân cấp
(IMS) [ 15]. Trước khi lưu trữ dữ liệu trong cơ sở dữ liệu và thực hiện một ứng dụng, nhóm
chuyên gia (các nhà phân tích dữ liệu hoặc quản trị cơ sở dữ liệu) đã chạy một thiết kế dữ liệu để
chia nhỏ dữ liệu kinh doanh, vẫn còn trên giấy trong thời đại đó, thành các hệ thống phân cấp
hoặc các mạng. Các nhà phân tích đã tạo ra hai mô hình thiết kế dữ liệu, một thiết kế logic ánh
xạ các hồ sơ kinh doanh vào các hệ thống phân cấp hoặc các mạng để các nhà lập trình truy cập
vào và xử lý và một mô hình vật lý để ánh xạ các hệ thống phân cấp hoặc các mạng tới các đĩa.
Các lập trình viên đã tìm hiểu mô hình logic và đã truy cập cơ sở dữ liệu thông qua các giao diện
lập trình dẫn hướng (ví dụ, lấy phần tử con tiếp theo trong phần tử cha mẹ) được cung cấp cùng
với hệ thống cơ sở dữ liệu cho các ngôn ngữ lập trình phổ biến lúc đó.
Trong những năm 1970 mô hình quan hệ thành công vang dội [ 30] đã được giới thiệu, tiếp tục
độc chiếm các hệ thống kinh doanh trong thế kỷ 21. Nó lưu trữ các dữ liệu kinh doanh trong các
bảng. Các mô hình quan hệ loại bỏ nhu cầu truy cập dẫn hướng, nhưng vẫn đòi hỏi các nhà phân
tích dữ liệu chia nhỏ dữ liệu kinh doanh thành các bảng để các nhà lập trình truy cập các bảng đó
thông qua một ngôn ngữ khai báo (SQL). Dữ liệu kinh doanh vẫn còn nằm trên giấy vào những
năm 1970 và 1980 và đã được chuyển đổi, thường là bằng các máy quét hoặc do những người sử
dụng gõ lại các biểu mẫu. Việc chia nhỏ dữ liệu kinh doanh điển hình theo các nguyên tắc chuẩn
hóa dữ liệu [ 16][ 17] tiếp tục được dạy và được sử dụng trong thế kỷ 21 để giảm thiểu việc sao
chép và các dị thường dữ liệu.
Vào lúc các khái niệm về các cơ sở dữ liệu quan hệ đã được xác định, một thiết bị lưu trữ đĩa phổ
biến là 3330 model 11 có dung lượng 200 MB và giá mua thiết bị này dao động từ $ 74.000 đến
$ 87.000 (giá Đô la năm 1970) [ 19]. Khi các cơ sở dữ liệu quan hệ bắt đầu giảm bớt vào những
năm 1980, một đĩa rất phổ biến là 3380. Nó có kích thước bằng một tủ quần áo và có dung lượng
lưu trữ 1,2 GB với chi phí trên $ 200.000 [ 20]. Vì thế, 1MB dung lượng lưu trữ đĩa có giá trên
$160 (giá Đô la năm 1970), tương đương với hàng ngàn đô la vào năm 2010 [ 21].
Thông thường, các hệ thống cơ sở dữ liệu quan hệ đã không giữ thông tin bảo mật liên quan đến
các chữ ký và thường chứa bất kỳ mảnh thông tin nào đúng một lần – chỉ phiên bản mới nhất,
khiến cho việc thực hiện kiểm tra trở nên khó khăn. Điều sớm đã trở nên rõ ràng là cần lưu trữ
các bản sao của các hồ sơ kinh doanh thế giới thực, ví dụ để có thể thực hiện kiểm tra các chính
sách bảo hiểm và các khiếu nại có liên quan trong trường hợp tranh chấp. Các hệ thống tài liệu
cũng cần tuân theo các quy tắc đòi hỏi các dữ liệu kinh doanh được lưu trữ với một số năm nhất
định. Một thể loại phần mềm mới, được gọi là Hệ thống quản lý tài liệu doanh nghiệp (Enterprise
Document Management Systems) [ 23], được phát triển vào cuối những năm 1980 để lưu trữ các
hình ảnh của các hồ sơ giấy tờ. Các hệ thống này đã được tách khỏi các cơ sở dữ liệu đã lưu trữ
dữ liệu giống như trong các bảng quan hệ. Trong thế kỷ 21, Quản lý tài liệu doanh nghiệp được
gọi là Quản lý nội dung doanh nghiệp [ 24].
Nguyên tắc chính về lưu giữ hồ sơ trong các máy tính trong thế kỷ XX đã giới thiệu một kiểu lưu
trữ phù hợp với cách mà các máy tính làm việc, để lưu trữ bất kỳ mục dữ liệu cụ thể nào đúng
một lần, giảm thiểu lưu trữ. Nếu cần một bản sao chính xác của hồ sơ giấy tờ thực thế giới, thì
người ta đã xây dựng các hệ thống riêng biệt để thực hiện chính xác điều đó, làm cho dữ liệu
giống nhau được lưu trữ nhiều lần. Các quy tắc để quản lý lưu trữ và xử lý các hồ sơ vẫn tiếp tục
tăng lên.
Quá trình chuẩn hóa dữ liệu
Phần này mô tả mục đích và các ảnh hưởng của quá trình chuẩn hóa dữ liệu lần đầu tiên được
giới thiệu vào năm 1970 với các dạng chuẩn tắc hơn được giới thiệu suốt những năm 1970.
Chuẩn hóa dữ liệu là một phương pháp luận để đưa ra một bộ sưu tập các bảng biểu diễn các hồ
sơ kinh doanh thế giới thực trong một cơ sở dữ liệu, tránh bất kỳ sự trùng lặp dữ liệu nào khi lưu
trữ vốn rất tốn kém. Tránh trùng lặp dữ liệu cũng có nghĩa là các dị thường cập nhật không thể
xảy ra. Chuẩn hóa dữ liệu rất tốt và được ghi lại rộng rãi [ 18]. INó bắt đầu với một bảng lớn duy
nhất để biểu diễn tất cả các thuộc tính của một hồ sơ kinh doanh thế giới thực cùng với mã định
danh chính (một khóa), sau đó sẽ gỡ bỏ hệ thống phân cấp (các nhóm lặp lại) để đơn giản hóa
truy vấn với một ngôn ngữ như SQL. Tiếp đến cũng phải gỡ bỏ bất kỳ dữ liệu trùng lặp và các
phụ thuộc chức năng nào trong các bảng kết quả.
Để đạt được chuẩn hóa, bảng duy nhất có tất cả các thuộc tính cần thiết được chia nhỏ thành các
bảng được liên kết thông qua các khóa chính và khóa ngoài. Kết quả của việc chuẩn hoá dữ liệu
là một hồ sơ kinh doanh duy nhất có thể được biểu diễn trong hàng chục hoặc hàng trăm bảng.
Nhiều khóa nhân tạo (và các chỉ mục có liên quan) được đưa vào, tuy không tồn tại trong thế giới
thực, nhưng lại rất cần để tạo lại hồ sơ kinh doanh thế giới thực. Việc lưu trữ nhiều phiên bản
của một hồ sơ kinh doanh, ví dụ, một đơn đặt hàng và sau đó thực hiện bất kỳ sửa đổi nào với
đơn đặt hàng đó, yêu cầu tạo phiên bản tất cả các bảng liên quan có thực hiện truy vấn và duy trì
tổ hợp các bảng. Một cách tiếp cận thay thế, để bảo toàn lưu trữ, là chỉ lưu trữ các khác biệt, thay
vì xếp tầng các phiên bản đầy đủ thông qua các bảng, làm phức tạp thêm cho các lập trình viên.
Năm 1980, chi phí của hai MB dung lượng lưu trữ đại khái tương đương với chi phí của một
tuần làm việc của một lập trình viên máy tính ở Mỹ [ 19][ 22]. Vào năm 2010, thậm chí một GB
dung lượng lưu trữ chỉ chiếm một phần rất nhỏ, không bằng vài phút làm việc của một lập trình
viên máy tính và giá lưu trữ tiếp tục giảm. Hơn nữa, bộ nhớ ngày càng trở nên phong phú và chi
phí (độ trễ) của các hoạt động Vào/Ra (I/O) tiếp tục giảm khi các loại lưu trữ mới – như các đĩa
thể rắn - đang được giới thiệu. Với ngoại lệ cần lưu ý của các cơ sở dữ liệu quan hệ, người ta
thường sử dụng phương tiện lưu trữ để lưu trữ các tạo phẩm chưa được chuẩn hóa, ví dụ trong
các máy chủ tệp, các máy chủ web, các kho lưu trữ nội dung, các máy chủ ứng dụng và v.v..
Lưu trữ quan hệ trái ngược với các viên đá, các gậy đếm kiểm và các hồ sơ giấy được sử dụng để
lưu giữ hồ sơ trước khi đưa vào các hệ thống máy tính và luôn luôn được lưu trữ "như nó vốn
có". Vì một vài lý do mà chúng không được chia ra hoặc được chuyển đổi sang một định dạng
khác cho các mục đích lưu trữ. Đầu tiên, không gian lưu trữ luôn phong phú và đã không được
bảo toàn. Thứ hai, bất kỳ sự chuyển đổi (và tạo lại) các tạo phẩm thường rất tốn kém. Và thứ ba,
lưu trữ những hồ sơ này dưới dạng ban đầu của chúng làm cho việc sử dụng và hiểu chúng dễ
dàng khi lấy chúng ra khỏi nơi lưu trữ. Các lý do tương tự đang áp dụng hiện nay để lưu trữ các
hồ sơ kinh doanh số thế giới thực dưới dạng chưa chuẩn hóa sẽ được thảo luận sau trong bài này.
Khi việc sử dụng các hồ sơ giấy tăng lên nhanh chóng trong thế kỷ 19 và 20, không gian lưu trữ
đã trở thành một vấn đề đối với một số thư viện và các kho tư liệu. Điều này đã kích thích phát
minh ra vi phim và tấm vi phim để giảm không gian lưu trữ cần thiết xuống giữa 0,25% và 3%
so với vật liệu ban đầu [ 25]. Tuy nhiên, đây chỉ là một hình thức nén mà không biểu diễn thông
tin theo một cách khác dựa trên khái niệm. Tương tự như vậy, hiện nay có thể áp dụng việc nén
số để làm giảm tiêu dùng dung lượng lưu trữ của các hồ sơ kinh doanh không chuẩn hóa.
Do chi phí lưu trữ cao, nên chuẩn hóa dữ liệu biểu diễn các hồ sơ kinh doanh trong các máy tính
bằng cách chia nhỏ hồ sơ thành nhiều phần, đôi khi hàng trăm phần và tái tạo lại chúng khi cần
thiết. Cần có các khóa nhân tạo và các chỉ mục liên quan để liên kết các phần của một hồ sơ duy
nhất với nhau. Điều này trái ngược hẳn với các hệ thống lưu giữ hồ sơ trước đó (các viên đá, các
gậy đếm kiểm, giấy v.v..) đã lưu giữ hồ sơ kinh doanh như nó vốn có. Các cách biểu diễn chuẩn
hóa làm cho việc hiểu các hồ sơ kinh doanh trở nên khó khăn hơn nhiều và tăng thêm các chi phí
để chia nhỏ và ghép chúng lại.
Quá trình không chuẩn hóa
Phần này mô tả các tình huống mà ở đó việc không chuẩn hóa đã trở thành cách thực hiện phổ
biến. Các lược đồ cơ sở dữ liệu cho các kho dữ liệu là một ví dụ và các kho lưu trữ dữ liệu có
khả năng mở rộng mới như Google BigTable [ 47] và HBase [ 49] là các ví dụ khác.
Chuẩn hóa có hai nhược điểm cố hữu. Đầu tiên, các hồ sơ kinh doanh phức tạp thường dẫn đến
một số lượng lớn các bảng quan hệ trong một lược đồ cơ sở dữ liệu đã chuẩn hóa, làm cho việc
biểu diễn dữ liệu khó hiểu. Kết quả là, việc viết các truy vấn có thể yêu cầu nhiều liên kết và trở
nên ngày càng phức tạp [ 46]. Thứ hai, số lượng lớn các liên kết có tiềm năng gây bất lợi cho hoạt
động phục hồi dữ liệu. Việc không chuẩn hóa các bảng đã chuẩn hóa hoặc việc sử dụng một thiết
kế không chuẩn hóa có thể trực tiếp giải quyết những vấn đề này.
Không chuẩn hóa trong các kho dữ liệu
Do dung lượng của các thiết bị điện toán và lưu trữ đã tăng lên trong những năm 1980 và 1990,
trong khi chi phí đã giảm xuống, các công ty đã có thể có đủ khả năng tích lũy và phân tích khối
lượng dữ liệu kinh doanh lịch sử lớn hơn, như các hồ sơ bán hàng, trong các kho dữ liệu. Để có
được cái nhìn sâu vào hoạt động kinh doanh của một công ty, các kho này được các nhân viên
kinh doanh sử dụng, những người cần chạy các truy vấn phức tạp dựa vào một cách biểu diễn dữ
liệu trực quan. Người ta đã nhanh chóng phát hiện ra rằng "việc sử dụng mô hình hóa đã chuẩn
hóa trong kho dữ liệu gây khó khăn cho toàn bộ mục đích của kho dữ liệu, cụ thể là, việc phục
hồi các dữ liệu trực quan và hiệu năng cao" [ 26].
Kết quả là, các lược đồ hình sao không chuẩn hóa đã trở thành lược đồ cơ sở dữ liệu phổ biến
nhất cho các kho dữ liệu. Do các kho dữ liệu thường thêm dữ liệu mới theo định kỳ thay vì thực
hiện các cập nhật giao dịch, việc không chuẩn hóa làm đơn giản hoá lược đồ và cải thiện hiệu
năng truy vấn với ít nguy cơ về các dị thường cập nhật.
Một lược đồ hình sao gồm có ít nhất một bảng sự kiện, như "doanh thu hàng ngày" có các bản
ghi doanh thu và một số bảng chiều như "kho", "sản phẩm", "ngày" và "khách hàng". Có một
mối quan hệ một-nhiều giữa mỗi chiều và bảng sự kiện. Mỗi hàng của bảng sự kiện có một vài
số đo, có nghĩa là, các cột số như "số lượng" hay "giá", cũng như các khóa ngoài cho tất cả các
bảng chiều để cho biết sản phẩm nào đã được bán trong kho nào cho khách hàng nào vào ngày
nào. Đây là một khung nhìn dữ liệu kinh doanh trực quan và làm cho việc phân tích (doanh thu)
các sự kiện theo các chiều kinh doanh liên quan dễ dàng.
Các bảng chiều thường không được chuẩn hóa. Ví dụ, bảng "sản phẩm" có thể có các cột như
"loại hàng hóa" và "thể loại", ở đây các giá trị chuỗi giống nhau có thể xuất hiện dư ra cho nhiều
sản phẩm. Chuẩn hóa sẽ sử dụng các giá trị INTEGER (số nguyên) làm các khóa cho các loại
hàng hóa và các thể loại, cộng với các bảng riêng biệt có tên của từng thể loại hàng hóa chỉ xảy
ra một lần. Cần tránh chuẩn hóa các bảng chiều này, vì nó sẽ dẫn đến một lược đồ dạng bông
tuyết thường gây khó hiểu hơn và