Nội dung Luận văn được tổ chức thành 9 chương:
Chương 1 – Tổng quan. Giới thiệu về thư viện điện tử và Greenstone.
Trong chương này sẽ trình bày lý do và các mục tiêu khi thực hiện đề tài.
Chương 2 – Các khái niệm cơ bản trong Greenstone. Mục đích của chương
ày là giải thích, làm sáng rõ những khái niệm quan trọng trong Greenstone.
Chương 3 – Xây dựng bộ sưu tập. Tìm hiểu các quá trình thực thi của
Greenstone để tạo nên một bộ sưu tập hoàn chỉnh.
Chương 4 – Hiệu chỉnh giao diện của Greenstone. Khai thác khả năng tuỳ
iến cao của Greenstone để thay đổi giao diện cho phù hợp với yêu cầu thực tế.
Chương 5 – Hệ thống Web Greenstone. Đi sâu vào những khái niệm nâng
ao của hệ thống Greenstone, tập trung vào phần xử lý trên web của hệ thống.
Chương 6 – Xây dựng ứng dụng. Xây dựng thư viện số ITDL cho Khoa.
Trong chương này sẽ xác định yêu cầu thực tế, xác định hai mô-đun chính của hệ
hống: ITLib và ITLibWeb. Chương 7 – ITLib – Mô-đun xử lý offline. Chương này phân tích thiết kế
hệ thống ITLib với chức năng chính là tạo các bộ sưu tập.
Chương 8 – ITLibWeb – Mô-đun xử lý online. Chương này sẽ phân tích,
thiết kế hệ thống ITLibWeb với giao diện web, tạo thư viện số, giúp người dùng sử
dụng các bộ sưu tập cũng như các chức năng, nghiệp vụ thư viện khác.
Chương 9 – Đánh giá và hướng phát triển. Chương cuối cùng của đề tài,
tổng hợp lại về Greenstone, đánh giá lại hệ thống thư viện điện tử ITDL và nêu
những hướng phát triển hệ thống trong tương lai.
Ngoài ra, các phần Phụ lục ở cuối Luận văn còn mở rộng các khía cạnh liên
quan đến thư viện số, các thành phần cấu thành nên Greenstone (MG, GDBM…) và
các mô-đun hỗ trợ Greenstone.
184 trang |
Chia sẻ: diunt88 | Lượt xem: 2148 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu KHÓA LUẬN TÌM HIỂU NGUỒN MỞ GREENSTONE VÀ ỨNG DỤNG, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN CÔNG NGHỆ PHẦN MỀM
NGUYỄN THÀNH QUY – LÊ HOÀNG NGỌC QUỲNH
TÌM HIỂU NGUỒN MỞ GREENSTONE
VÀ ỨNG DỤNG
KHOÁ LUẬN CỬ NHÂN TIN HỌC
TP. HCM, 2005
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN CÔNG NGHỆ PHẦN MỀM
SINH VIÊN THỰC HIỆN
NGUYỄN THÀNH QUY 0112195
LÊ HOÀNG NGỌC QUỲNH 0112471
TÌM HIỂU NGUỒN MỞ GREENSTONE
VÀ ỨNG DỤNG
KHOÁ LUẬN CỬ NHÂN TIN HỌC
GIÁO VIÊN HƯỚNG DẪN
ThS. NGUYỄN THỊ BÍCH
NIÊN KHOÁ 2001 – 2005
i
NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
Thành phố Hồ Chí Minh, ngày tháng 07 năm 2005
Giáo viên hướng dẫn
ii
NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
Thành phố Hồ Chí Minh, ngày tháng 07 năm 2005
Giáo viên phản biện
iii
LỜI CẢM ƠN
Chúng em xin chân thành cảm ơn Khoa Công nghệ Thông tin, Thư viện Cao
học Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh đã tạo điều kiện thuận lợi
cho chúng em hoàn thành đề tài Tốt nghiệp này.
Chúng em xin chân thành cảm ơn Th.S Nguyễn Thị Bích đã rất tận tình
hướng dẫn, chỉ bảo chúng em trong suốt thời gian thực hiện đề tài vừa qua.
Chúng em cũng xin chân thành cảm ơn tất cả các Thầy, các Cô trong Khoa
đã tận tình giảng dạy, trang bị cho chúng em những kiến thức cần thiết, quý báu
trong những năm tháng học tập tại Trường. Xin cảm ơn Thầy Trần Minh Triết,
Thầy Nguyễn Đình Khương cũng như Thầy Cô và các anh chị trong Phòng SeLab
đã tạo điều kiện giúp đỡ chúng em thực hiện đề tài.
Qua đây, chúng tôi cũng muốn bày tỏ lòng biết ơn của mình đến các giáo sư
Đại học Waikato, New Zealand, đặc biệt là giáo sư I.H.Witten và giảng viên
Katherine Don. Xin cảm ơn sự giúp đỡ chân thành của bạn bè khắp thế giới.
Xin cảm ơn sự giúp đỡ của các bạn, những người luôn bên cạnh và giúp đỡ
chúng tôi.
Và cuối cùng, chúng con xin tỏ lòng biết ơn sâu sắc đến ông bà, bố mẹ, và cả
gia đình đã nuôi dưỡng, giáo dục và luôn động viên để chúng con có ngày hôm nay.
Mặc dù chúng em đã cố gắng hoàn thành Luận văn với tất cả sự nỗ lực của
bản thân, nhưng chắc chắn Luận văn vẫn không thể tránh khỏi những thiếu sót nhất
định, kính mong nhận được sự cảm thông và chỉ bảo tận tình của Quý Thầy Cô và
các bạn.
TP. HCM, tháng 7 năm 2005
Nhóm sinh viên thực hiện
Thành Quy & Ngọc Quỳnh
iv
MỞ ĐẦU
Sống trong kỷ nguyên của sự bùng nổ thông tin như hiện nay, một vấn đề
quan trọng đặt ra là làm sao quản lý thông tin hiệu quả, khoa học nhất, để có thể tìm
ra một vài thông tin hữu ích trong hàng ngàn, hàng triệu thông tin nhanh chóng,
chính xác.
Chúng ta đều biết, cách quản lý tài liệu truyền thống chủ yếu trên giấy có
những hạn chế nhất định, không chỉ tốn kém không gian lưu trữ, mà còn chiếm
nhiều thời gian khi muốn tìm kiếm thông tin. Ngoài ra còn khó bảo quản trong thời
gian lâu dài dưới những điều kiện xấu, dễ hư hỏng, mất mát. Chưa kể việc khai thác
sản xuất giấy làm ảnh hưởng tới môi trường sinh thái.
Máy tính ra đời, giúp giải quyết rất nhiều vấn đề liên quan đến việc quản lý
thông tin. Hình thức lưu trữ tài liệu dưới dạng điện tử ngày càng thông dụng hơn.
Thử làm một ví dụ nhỏ để so sánh giữa hình thức lưu trữ trên giấy với trên máy
tính, ở dạng điện tử. Mỗi hình thức lưu trữ có những ưu khuyết điểm riêng nhưng ở
đây chỉ so sánh về không gian lưu trữ, và thời gian tìm kiếm, truy xuất thông tin, mà
không tính đến những yếu tố khác. Đơn vị dung lượng lưu trữ phổ biến hiện nay là
Gigabyte. Một cuốn sách 200 trang lưu trên đĩa cần khoảng 1 megabyte. Như vậy
một gigabyte có thể lưu trữ khoảng một ngàn cuốn sách điện tử. Trong khi đó, để
lưu trữ một ngàn cuốn sách giấy truyền thống cần một kệ sách đầy từ sàn cho đến
trần nhà, chưa kể tiền mặt bằng, tiền in ấn, phát hành! Khi mà yêu cầu thông tin đòi
hỏi nhanh chóng, chính xác, tài liệu điện tử càng thể hiện những khả năng ưu việt
của mình. Cảm thấy rất tâm đắc với những hệ thống quản lý dữ liệu như vậy, chúng
em đã chọn đề tài “Tìm hiểu nguồn mở Greenstone và Ứng dụng” để làm đề tài Tốt
nghiệp, với mong muốn hiểu thêm về cách quản lý thông tin, từ đó mong muốn
đóng góp phần nào vào việc xây dựng thư viện điện tử cho Khoa Công nghệ Thông
tin, Trường Đại học Khoa học Tự nhiên, Thành phố Hồ Chí Minh.
v
NỘI DUNG
Nội dung Luận văn được tổ chức thành 9 chương:
Chương 1 – Tổng quan. Giới thiệu về thư viện điện tử và Greenstone.
Trong chương này sẽ trình bày lý do và các mục tiêu khi thực hiện đề tài.
Chương 2 – Các khái niệm cơ bản trong Greenstone. Mục đích của chương
này là giải thích, làm sáng rõ những khái niệm quan trọng trong Greenstone.
Chương 3 – Xây dựng bộ sưu tập. Tìm hiểu các quá trình thực thi của
Greenstone để tạo nên một bộ sưu tập hoàn chỉnh.
Chương 4 – Hiệu chỉnh giao diện của Greenstone. Khai thác khả năng tuỳ
biến cao của Greenstone để thay đổi giao diện cho phù hợp với yêu cầu thực tế.
Chương 5 – Hệ thống Web Greenstone. Đi sâu vào những khái niệm nâng
cao của hệ thống Greenstone, tập trung vào phần xử lý trên web của hệ thống.
Chương 6 – Xây dựng ứng dụng. Xây dựng thư viện số ITDL cho Khoa.
Trong chương này sẽ xác định yêu cầu thực tế, xác định hai mô-đun chính của hệ
thống: ITLib và ITLibWeb.
Chương 7 – ITLib – Mô-đun xử lý offline. Chương này phân tích thiết kế
hệ thống ITLib với chức năng chính là tạo các bộ sưu tập.
Chương 8 – ITLibWeb – Mô-đun xử lý online. Chương này sẽ phân tích,
thiết kế hệ thống ITLibWeb với giao diện web, tạo thư viện số, giúp người dùng sử
dụng các bộ sưu tập cũng như các chức năng, nghiệp vụ thư viện khác.
Chương 9 – Đánh giá và hướng phát triển. Chương cuối cùng của đề tài,
tổng hợp lại về Greenstone, đánh giá lại hệ thống thư viện điện tử ITDL và nêu
những hướng phát triển hệ thống trong tương lai.
Ngoài ra, các phần Phụ lục ở cuối Luận văn còn mở rộng các khía cạnh liên
quan đến thư viện số, các thành phần cấu thành nên Greenstone (MG, GDBM…) và
các mô-đun hỗ trợ Greenstone.
vi
MỤC LỤC
LỜI CẢM ƠN ........................................................................................................... iii
MỞ ĐẦU................................................................................................................... iv
MỤC LỤC................................................................................................................. vi
DANH SÁCH HÌNH................................................................................................. xi
DANH SÁCH BẢNG ............................................................................................. xiv
PHẦN 1. TÌM HIỀU NGUỒN MỞ GREENSTONE.................................................1
CHƯƠNG 1. TỔNG QUAN ...................................................................................2
1.1. Thư viện và thư viện số ................................................................................3
1.1.1. Giới thiệu ..............................................................................................3
1.1.2. Thư viện số............................................................................................3
1.2. Thư viện số Greenstone................................................................................4
1.2.1. Giới thiệu ..............................................................................................4
1.2.2. Tính năng ..............................................................................................5
1.3. Mục đích của đề tài ......................................................................................6
CHƯƠNG 2. CÁC KHÁI NIỆM CƠ BẢN ............................................................7
2.1. Tài liệu..........................................................................................................8
2.2. Bộ sưu tập.....................................................................................................8
2.3. Tìm kiếm ......................................................................................................8
2.4. Duyệt tài liệu ................................................................................................8
2.5. Metadata .....................................................................................................10
2.6. Biên mục.....................................................................................................11
2.7. Plugin..........................................................................................................11
2.7.1. Giới thiệu ............................................................................................11
2.7.2. Danh sách các plugin ..........................................................................12
2.7.3. Các plugin xử lý tài liệu độc quyền ....................................................13
2.7.4. Gán thông tin metadata từ một tập tin mô tả ......................................14
2.7.5. Chia cấu trúc tài liệu nguồn ................................................................16
2.8. Classifier.....................................................................................................22
2.8.1. Giới thiệu ............................................................................................22
2.8.2. Phân loại..............................................................................................23
2.9. Định dạng cách hiển thị tài liệu..................................................................25
2.9.1. Giới thiệu ............................................................................................25
2.9.2. Định dạng danh sách tài liệu...............................................................25
2.9.3. Định dạng các thành phần của trang web hiển thị tài liệu ..................28
CHƯƠNG 3. XÂY DỰNG BỘ SƯU TẬP ...........................................................30
3.1. Giới thiệu....................................................................................................31
3.2. Chương trình mkcol.pl ...............................................................................33
3.3. Chương trình import.pl...............................................................................33
3.4. Chương trình buildcol.pl ............................................................................35