Đã có lúc việc t ìm ra đúng nội dung đã trở nên đơn giản, chỉ là vấn đề lấy ra đúng đĩa mềm từ
hộp đựng đĩa. Nhưng ngày đó đã qua lâu rồi. Bây giờ máy tính để bàn trung bình có hàng trăm
gigabyte và có một số trường hợp là hàng trăm terabyte dữ liệu! Vì vậy, rất nhiều thông tin có
liên quan đến nhau được sắp xếp theo hệ thống phân cấp đơn giản của các thư mục và các tệp có
thể không còn đủ khả năng để tìm thấy những gì bạn cần nữa. Bạn cần một công cụ tạo chỉ mục
thông minh cho các tệp của bạn và có thể giúp bạn xác định vị trí của chúng theo đúng ngữ cảnh.
Google và những nhà cung cấp khác đã tạo ra các công cụ tìm kiếm thương mại trên máy t ính để
bàn. Tuy nhiên, còn có các công cụ nguồn mở nữa.
9 trang |
Chia sẻ: lylyngoc | Lượt xem: 1822 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Các công cụ tìm kiếm nguồn mở, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Các công cụ tìm kiếm nguồn mở
Các lợi ích của các công cụ tìm kiếm nguồn mở trên máy tính
Đã có lúc việc tìm ra đúng nội dung đã trở nên đơn giản, chỉ là vấn đề lấy ra đúng đĩa mềm từ
hộp đựng đĩa. Nhưng ngày đó đã qua lâu rồi. Bây giờ máy tính để bàn trung bình có hàng trăm
gigabyte và có một số trường hợp là hàng trăm terabyte dữ liệu! Vì vậy, rất nhiều thông tin có
liên quan đến nhau được sắp xếp theo hệ thống phân cấp đơn giản của các thư mục và các tệp có
thể không còn đủ khả năng để tìm thấy những gì bạn cần nữa. Bạn cần một công cụ tạo chỉ mục
thông minh cho các tệp của bạn và có thể giúp bạn xác định vị trí của chúng theo đúng ngữ cảnh.
Google và những nhà cung cấp khác đã tạo ra các công cụ tìm kiếm thương mại trên máy tính để
bàn. Tuy nhiên, còn có các công cụ nguồn mở nữa.
Tôi sẽ xem xét hai công cụ tìm kiếm nguồn mở, imgSeek và Terrier, là những công cụ tiện dụng
khi tôi tìm kiếm các tệp hình ảnh và tài liệu XML có chứa văn bản và các tài liệu liên quan đến
các hình ảnh. Tôi có thể sử dụng một bản phác họa hoặc nhập khẩu một hình ảnh để truy vấn các
hình ảnh tương tự từ một kho chứa có hàng trăm hình ảnh khác nhau — gần giống như việc tìm
kiếm một hoặc hai cây kim trong một đống các hình ảnh. Các kết quả tìm kiếm có thể đưa ra các
hình ảnh trùng lặp, mỗi ảnh có một tên tệp khác nhau. Ngoài truy vấn theo nội dung, tôi có thể
tìm kiếm các hình ảnh theo các từ khóa siêu dữ liệu, chẳng hạn như tên tệp, mô tả và ngày tạo.
Terrier
Tôi sử dụng Terrier để thu hẹp việc tìm kiếm của mình với các tài liệu có chứa một hoặc hai từ,
bao gồm các tài liệu liên quan đến các hình ảnh mà tôi quy định trong trường tìm kiếm. Tôi có
một số lựa chọn tìm kiếm. Trong trường tìm kiếm, tôi có thể quy định một từ mà một tài liệu
phải có và một từ khác mà một tài liệu tương tự không thể có. Tôi có thể gán một trọng số cho
một từ là quan trọng hơn hoặc có liên quan hơn so với một từ khác. Các tài liệu có chứa các từ
quan trọng được hiện lên đầu tiên trong kết quả tìm kiếm. Thông thường, tôi hài lòng với các kết
quả đó. Terrier cũng có các chế độ tương tác và bó (batch).
imgSeek
Phiên bản dành cho máy tính của imgSeek là một tập hợp các dự án nguồn mở tương tự trực
quan miễn phí. Tôi có thể truy vấn bằng một bản phác họa mà tôi vẽ hoặc một hình ảnh khác mà
tôi cung cấp. imgSeek sử dụng một thuật toán giải nén wavelet với nhiều độ phân giải của truy
vấn và các hình ảnh cơ sở dữ liệu. Sử dụng phiên bản phía máy chủ nếu bạn đang quan tâm đến
việc tích hợp một cơ sở dữ liệu hình ảnh dựa trên-nội dung vào một trang web liên quan đến hình
ảnh.
Hình 1 cho thấy trang chủ của phiên bản máy tính để bàn imgSeek khi được khởi tạo lần đầu.
Hình 1. Trang chủ: Options>Viewing (Tùy chọn> Xem)
Bạn có thể thay đổi cách imgSeek xuất hiện trên trang chủ của nó khi bạn khởi động nó. Nếu bạn
muốn tìm kiếm Hình ảnh theo nội dung (Image by content) như trang chủ, hãy nhấn Search
(Tìm kiếm), rồi Image (Hình ảnh). Thoát khỏi imgSeek và khởi động lại. Hình 2 cho thấy kết
quả.
Hình 2. Trang chủ imgSeek: Tìm kiếm theo nội dung Hình ảnh
Tìm kiếm theo nội dung hình ảnh
Bạn có các tùy chọn tìm kiếm theo nội dung hình ảnh (by Image content), theo từ khoá (by
Keyword) hoặc theo nhóm (by Group). Để tìm kiếm hình ảnh theo nội dung, trước tiên bạn phải
nhập khẩu (import) một hình ảnh, hoặc vẽ một bản phác họa, mà bạn có thể dùng nó để truy vấn
và lấy ra các hình ảnh từ một bộ sưu tập. Nếu bạn chưa có một bộ sưu tập, hãy chuyển đến thẻ
(tab) Add (Thêm) để tạo một bộ sưu tập và sau đó thêm các hình ảnh cho nó.
Khi bạn đã làm với bộ sưu tập này, bạn quay trở lại thẻ Search by Image content để nhập khẩu
một hình ảnh từ bộ sưu tập hoặc tạo ra một bản phác họa. Hình 3 cho thấy khi bạn vẽ, bạn có tùy
chọn để lựa chọn màu sắc từ bảng điều khiển.
Hình 3. Bản phác họa một bông hoa
Bạn có thể điều chỉnh kích cỡ nét bút cho bản phác họa của mình bằng cách trượt thanh trượt
sang trái để có kích cỡ nhỏ hơn và sang phải để có kích cỡ lớn hơn. Khi bạn tăng hoặc giảm kích
cỡ nét bút, một khung có nét màu mà bạn đã chọn từ bảng điều khiển sẽ tăng hoặc giảm theo.
Bạn có thể lưu lại bản phác họa này để xem lại sau, chuyển nó vào thùng rác hoặc thiết lập lại
lịch sử (history) bản phác họa.
Sau đó chuyển đến hộp Results (Các kết quả), nhấn vào nút ấn truy vấn (ngoài cùng bên trái) để
nhanh chóng tìm kiếm các hình ảnh tương tự trong một bộ sưu tập. Hình 4 cho thấy các hình ảnh
được truy vấn này lấy ra có hình dạng và màu sắc tương tự như hình dạng và màu sắc của bản
phác họa trong Hình 3. Một trọng số theo tỷ lệ phần trăm biểu diễn mức độ giống nhau.
Hình 4. Các hình ảnh kết quả về các bông hoa
Bây giờ chúng ta hãy nhìn vào bản phác họa, xem Hình 5 được vẽ bằng kích cỡ nét bút lớn hơn.
Kích cỡ của khung màu đã chọn lớn hơn khung màu hiển thị trong Hình 3.
Hình 5. Bản phác họa được vẽ bằng nét bút lớn hơn
Trong Hình 6, tôi nhận được các kết quả khác so với các kết quả được hiển thị trong Hình 4.
Hình 6. Tập các hình ảnh kết quả của các bông hoa khác nhau
Trong Hình 4 và Hình 6, hình ảnh đầu tiên do truy vấn tìm kiếm này lấy ra được gán cho trọng
số cao nhất. Trọng số đã gán cho hình ảnh đầu tiên trong Hình 6 cao hơn một chút so với trọng
số trong Hình 4 do có nhiều nét giống nhau hơn về hình dạng và màu sắc giữa bản phác họa và
các hình ảnh được lấy ra trong bộ sưu tập.
Hình ảnh thứ hai trong Hình 4 đã trở thành hình ảnh đầu tiên trong Hình 6. Điều này là do sự
thay đổi về mức độ giống nhau của bản phác họa (được vẽ bằng một nét bút lớn hơn) so với hình
ảnh đó. Một bức ảnh của một bông hoa trong Hình 6 không được hiển thị trong Hình 4. Hình
dạng và độ dày của bản phác họa trong Hình 5 là hơi giống như bức ảnh này. Độ mỏng của bản
phác họa trong Hình 3 không đem đến bức ảnh trong bộ sưu tập được hiển thị trong Hình 4.
Xây dựng bộ sưu tập hình ảnh
Bạn cần phải xây dựng một bộ sưu tập các hình ảnh mà bạn muốn tìm kiếm và duyệt. Để thêm
các tệp, hãy vào Add. Bạn có thể thiết lập đường dẫn của các tệp mà bạn muốn thêm vào hoặc bỏ
qua. Bạn có thể chọn đặt tên cho bộ sưu tập hoặc để cho hệ thống tự động tạo ra một bộ sưu tập.
Bạn có thể hạn chế các tệp theo các tệp, các chiều và các phần mở rộng cụ thể.
Bạn có thể thấy việc kích hoạt âm thanh bíp để báo cho bạn biết khi imgSeek đã hoàn thành việc
thêm các tệp hoặc việc giải nén siêu dữ liệu cũng có ích. Bạn có thể lựa chọn để ẩn giấu đi quá
trình và thêm các tệp hình ảnh không có phần mở rộng. Khi bạn đã sẵn sàng, hãy nhấn Add để
bắt đầu xử lý.
Nếu bạn muốn chỉnh sửa các mục siêu dữ liệu, ví dụ như tên tác giả, trước khi thêm các tệp, bạn
nên chuyển đến trình đơn Tools. Bạn có thể chọn xem bạn có muốn chỉnh sửa siêu dữ liệu hình
ảnh theo từng cái một hay bạn muốn áp dụng những thay đổi này cho tập các hình ảnh trong một
bó đã dựng sẵn không. Bạn có thể chỉnh sửa bó này bằng cách chọn trình soạn thảo bó Công việc
(Work batch editor) trong Tools. Hình 7 cho thấy nơi đặt trình soạn thảo bó này.
Hình 7. Trình soạn thảo bó Công việc
Để điền một bó công việc, hãy nhấn chuột phải vào một hình ảnh mà bạn muốn đưa vào, rồi
thêm nó vào bó đó. Bạn có thể thêm bó công việc vào thư mục hệ thống, nhóm từ khoá và thư
mục cơ sở dữ liệu. Bạn có thể tìm thấy các hình ảnh trùng lặp và đổi tên cho chúng. Để lưu các
thay đổi siêu dữ liệu, hãy vào trình đơn Database (Cơ sở dữ liệu) để xuất khẩu siêu dữ liệu như
trong Hình 8.
Hình 8. Xuất khẩu siêu dữ liệu
Nếu bạn quên là mình đã thêm những hình ảnh nào vào bộ sưu tập, bạn có thể tiết kiệm thời gian
tìm kiếm chúng bằng cách vào trình đơn Maintenance (Bảo trì) để quét tất cả các thư mục để
biết các hình ảnh mới.
Truy vấn hình ảnh theo từ khóa
Bạn có thể tìm kiếm hình ảnh theo từ khóa chứ không theo nội dung. Để bắt đầu, hãy nhấn chuột
phải vào vùng trong cột Field (Trường) để mở ra một trình đơn nhỏ. Hãy nhấn New để chèn
Description (Mô tả) làm tham số đầu tiên theo mặc định. Gõ vào cột Value (Giá trị) để mô tả
hình ảnh này thuộc về cái gì.
Bước tiếp theo sẽ chọn toán tử logic AND hoặc OR và một tham số thứ hai. Toán tử AND cho
biết imgSeek phải sử dụng cả hai tham số đầu tiên và thứ hai để truy vấn các hình ảnh trong bộ
sưu tập. Toán tử OR cho biết imgSeek có thể sử dụng một trong hai tham số nếu bạn sử dụng
tham số nào để truy vấn bộ sưu tập này là không quan trọng.
Tạo tham số thứ hai, hãy nhấn chuột phải vào vùng trong tham số Description (tham số đầu tiên)
rồi nhấn vào New parameter (Tham số mới). Sử dụng mũi tên đi xuống để hiển thị một danh
sách của tất cả các tham số như dưới đây.
Description - Mô tả
Dimensions - Các chiều
Filename - Tên tệp
File size - Kích cỡ tệp
Format - Định dạng
Modify Date - Sửa đổi ngày tháng
Database Date - Ngày tháng của cơ sở dữ liệu
Mounted - Đã đặt (chỉ với Linux®)
Sau khi bạn chọn, mô tả tham số. Nếu bạn không chắc chắn về cách mô tả từng tham số, hãy
chuyển đến trình đơn Maintenance để xem xét siêu dữ liệu hình ảnh. Bạn sẽ để ý thấy danh sách
tham số từ khóa là một phần nhỏ của bức hình lớn hơn về siêu dữ liệu trong hình ảnh đó.
Duyệt hình ảnh theo nét giống nhau
Bạn có thể duyệt theo các tệp, các nhóm, hệ thống và nét giống nhau. Duyệt theo các tệp và các
nhóm không có gì mới. Nếu bạn có thể nhớ nơi bạn đã đặt các tệp của mình, thì bạn có thể duyệt
trực tiếp đến thư mục có chứa các tệp đó.
Trước khi bạn có thể so sánh một hình ảnh này với hình ảnh khác về nét giống nhau, bạn cần
phải chuyển đến thẻ Add để thêm các hình ảnh cho bộ sưu tập của bạn. Khi bạn đã làm xong,
bạn quay trở về thẻ Similarity (Nét giống nhau) và cho biết liệu bạn có muốn duyệt các hình ảnh
theo ngày tháng hoặc tên tệp không.
Nếu bạn có hàng trăm tệp để duyệt, thì nhóm các tệp theo ngày tháng và tên tệp giống nhau sẽ
hiệu quả hơn và chọn các nhóm mà bạn muốn duyệt. Để tạo ra các nhóm có nét giống nhau, hãy
nhấn Group (Tạo nhóm). Nếu bộ sưu tập là quá nhỏ để duyệt, hãy thử thêm nhiều bức tranh vào
bộ sưu tập của bạn. Bạn có thể sử dụng nút Export (Xuất khẩu) bên cạnh nút Group để xuất khẩu
các nhóm có nét giống nhau như các nhóm logic.
Về đầu trang
Công cụ tìm kiếm văn bản trên máy tính để bàn: Terrier
Sau khi bạn đã hài lòng với các kết quả truy vấn của mình về hình ảnh, các bước tiếp theo sẽ sử
dụng Terrier để tìm kiếm các tài liệu XML có chứa các hình ảnh đó. Không như imgSeek, bạn
cần phải khởi động GUI (Giao diện người dùng đồ họa) của Terrier từ dấu nhắc lệnh. Hãy chắc
chắn rằng bạn đã cài đặt đúng phiên bản Java™ trên máy tính của mình.
Trong cửa sổ chính, Terrier chỉ hiển thị hai thẻ: Search (Tìm kiếm) và Index (Chỉ mục). Khi bạn
chạy Terrier lần đầu, nó tập trung vào thẻ Index và hiển thị một hộp thoại (xem Hình 9.) hỏi xem
bạn có muốn Terrier tạo chỉ mục cho các tài liệu riêng của nó hoặc các tài liệu theo sự lựa chọn
của bạn không.
Hình 9. Một hộp thoại khi chạy Terrier lần đầu tiên
Chọn một thư mục của tài liệu XML để tạo chỉ mục. Khi bạn khởi động lại Terrier, nó sẽ chuyển
sang thẻ Search. Bạn có thể chuyển sang thẻ Index để tạo lại chỉ mục các tài liệu của bạn trước
khi bạn truy vấn chúng.
Tạo chỉ mục các tệp
Trên thẻ Index, hãy chọn các thư mục để mở ra một cửa sổ chỉ rõ các tài liệu mà Terrier cần tạo
chỉ mục. Khi thực hiện xong, nhấn OK để quay trở lại thẻ Index và bắt đầu quá trình tạo một chỉ
mục.
Terrier không hỗ trợ tạo chỉ mục tăng dần. Mỗi khi bạn tạo ra một chỉ mục, Terrier sẽ loại bỏ các
chỉ mục cũ và tạo chỉ mục tất cả các thư mục đã quy định từ đầu.
Bạn có thể xem quá trình tạo chỉ mục trong phần dưới của cửa sổ này. Khi Terrier hoàn thành tạo
chỉ mục, nó sẽ chuyển sang thẻ Search.
Về đầu trang
Ngôn ngữ truy vấn Terry
Thẻ Search rất đơn giản, chỉ có một trường để nhập một truy vấn Terrier. Bạn có thể sử dụng
ngôn ngữ truy vấn để tìm kiếm các từ riêng lẻ hoặc theo một cụm từ. Dưới đây là một số ví dụ về
các tài liệu truy vấn có chứa các hình ảnh được tìm thấy bằng Terrier.
Ví dụ 1: từ 1 từ 2
Truy vấn này sẽ trả về các tài liệu có chứa một hoặc hai từ, nhưng thường không phải là hai từ.
Hãy giả sử từ đầu tiên là boat (thuyền) và từ thứ hai là imgboat1.png. Kết quả tìm kiếm có thể
hiển thị một tài liệu có chứa boat, nhưng không chứa imgboat1.png. Tài liệu thứ hai chứa
imgboat1.png, nhưng không chứa boat. Tài liệu thứ ba chứa cả hai từ trên.
Các kết quả tìm kiếm có thể hiển thị các tài liệu theo một thứ tự ngẫu nhiên. Điều này có thể giúp
xác định những tài liệu nào chứa các hình ảnh gắn nhãn sai.
Ví dụ 2: từ1^2.3 từ2
Trọng số của từ đầu tiên được tăng lên 2,3 trong khi trọng số của từ thứ hai vẫn là một. Đừng
quên đặt dấu dấu mũ (^) giữa từ và trọng số khi gõ một truy vấn. Các kết quả tìm kiếm sẽ đưa ra
các tài liệu luôn chứa từ đầu tiên và có thể hoặc không thể chứa từ thứ hai. Trước tiên các kết
quả tìm kiếm sẽ hiển thị các tài liệu chứa từ có trọng số.
Không giống như các tài liệu trong ví dụ đầu tiên, các tài liệu có chứa boat, mà bây giờ đã có
một trọng số được gán là 2,3, sẽ luôn luôn ở trên cùng của các kết quả tìm kiếm. Một tài liệu liên
quan đến hình ảnh boat có thể hoặc không thể có trong các tài liệu đó.
Để tiếp tục tinh chỉnh tìm kiếm của bạn, hãy nhập một từ thứ ba, chẳng hạn như flower (hoa),
trong trường tìm kiếm. Trọng số được gán cho từ thứ ba này có thể cao hơn hoặc thấp hơn trọng
số đã gán cho từ đầu tiên. Trọng số cao hơn, ví dụ, 7,2, cho từ đầu tiên so với từ thứ ba, ví dụ,
2,5, tạo ra khả năng rất cao là các tài liệu có chứa từ đầu tiên sẽ xuất hiện hàng đầu trong các kết
quả tìm kiếm.
Ví dụ 3: + từ1 + từ2
Bạn có thể nhận được các tài liệu có chứa cả hai từ bằng cách nhập vào dấu cộng làm tiền tố của
từ. Cả hai từ này có thể ở những nơi riêng biệt trong toàn bộ một tài liệu. Chúng không phải ở
bên cạnh nhau như trong một cụm từ. Ví dụ, flower và imgflower1.png ở những vị trí riêng
biệt, nhưng flower không thể được liên kết với imgflower1.png. Hình ảnh này có thể được gắn
nhãn với Flower trong một tài liệu và Rose trong một phiên bản khác của cùng một tài liệu.
Ví dụ 4: + từ1 – từ2
Sử dụng ví dụ này khi tìm kiếm các tài liệu trong đó mỗi tài liệu đều chứa từ đầu tiên và không
chứa từ thứ hai. Bạn làm điều này bằng cách đặt dấu cộng làm tiền tố cho từ đầu tiên và dấu trừ
làm tiền tố cho từ thứ hai. Nếu một tài liệu có chứa cả hai từ đầu tiên và từ thứ hai, nó sẽ không
được tìm thấy trong các kết quả tìm kiếm.
Ví dụ, nếu bạn tìm kiếm ba từ: +boat +imgboat1.png và -canoe, bạn sẽ nhận được các tài liệu
có chứa boat và imgboat1.png, nhưng không chứa canoe.
Ví dụ 5: "từ1 từ2"
Bạn có thể nhận được các tài liệu trong đó cả hai từ đều xuất hiện trong một cụm từ. Những từ
này không được đặt ở những nơi riêng biệt trong một tài liệu như đã cho thấy trong ví dụ thứ ba.
Để chỉ ra một cụm từ, bạn nên đặt các từ các giữa dấu ngoặc kép, ví dụ: "Flower picture".
Ví dụ 6: cụm từ1 -từ1 từ2^3.5
Hãy giả sử bạn đưa ra bốn từ để tìm các tài liệu có chứa một cụm từ, có chứa một từ có một
trọng số là 3,5 và không chứa từ thứ hai. Ví dụ, bạn muốn các tài liệu có chứa "Figure 7. This
is the picture of a flower" (Hình 7. Đây là một bức tranh của một bông hoa), bỏ qua boat
và có chứa stone là từ có trọng số là 3.5.