Các công cụ tìm kiếm nguồn mở

Đã có lúc việc t ìm ra đúng nội dung đã trở nên đơn giản, chỉ là vấn đề lấy ra đúng đĩa mềm từ hộp đựng đĩa. Nhưng ngày đó đã qua lâu rồi. Bây giờ máy tính để bàn trung bình có hàng trăm gigabyte và có một số trường hợp là hàng trăm terabyte dữ liệu! Vì vậy, rất nhiều thông tin có liên quan đến nhau được sắp xếp theo hệ thống phân cấp đơn giản của các thư mục và các tệp có thể không còn đủ khả năng để tìm thấy những gì bạn cần nữa. Bạn cần một công cụ tạo chỉ mục thông minh cho các tệp của bạn và có thể giúp bạn xác định vị trí của chúng theo đúng ngữ cảnh. Google và những nhà cung cấp khác đã tạo ra các công cụ tìm kiếm thương mại trên máy t ính để bàn. Tuy nhiên, còn có các công cụ nguồn mở nữa.

pdf9 trang | Chia sẻ: lylyngoc | Lượt xem: 1786 | Lượt tải: 1download
Bạn đang xem nội dung tài liệu Các công cụ tìm kiếm nguồn mở, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Các công cụ tìm kiếm nguồn mở Các lợi ích của các công cụ tìm kiếm nguồn mở trên máy tính Đã có lúc việc tìm ra đúng nội dung đã trở nên đơn giản, chỉ là vấn đề lấy ra đúng đĩa mềm từ hộp đựng đĩa. Nhưng ngày đó đã qua lâu rồi. Bây giờ máy tính để bàn trung bình có hàng trăm gigabyte và có một số trường hợp là hàng trăm terabyte dữ liệu! Vì vậy, rất nhiều thông tin có liên quan đến nhau được sắp xếp theo hệ thống phân cấp đơn giản của các thư mục và các tệp có thể không còn đủ khả năng để tìm thấy những gì bạn cần nữa. Bạn cần một công cụ tạo chỉ mục thông minh cho các tệp của bạn và có thể giúp bạn xác định vị trí của chúng theo đúng ngữ cảnh. Google và những nhà cung cấp khác đã tạo ra các công cụ tìm kiếm thương mại trên máy tính để bàn. Tuy nhiên, còn có các công cụ nguồn mở nữa. Tôi sẽ xem xét hai công cụ tìm kiếm nguồn mở, imgSeek và Terrier, là những công cụ tiện dụng khi tôi tìm kiếm các tệp hình ảnh và tài liệu XML có chứa văn bản và các tài liệu liên quan đến các hình ảnh. Tôi có thể sử dụng một bản phác họa hoặc nhập khẩu một hình ảnh để truy vấn các hình ảnh tương tự từ một kho chứa có hàng trăm hình ảnh khác nhau — gần giống như việc tìm kiếm một hoặc hai cây kim trong một đống các hình ảnh. Các kết quả tìm kiếm có thể đưa ra các hình ảnh trùng lặp, mỗi ảnh có một tên tệp khác nhau. Ngoài truy vấn theo nội dung, tôi có thể tìm kiếm các hình ảnh theo các từ khóa siêu dữ liệu, chẳng hạn như tên tệp, mô tả và ngày tạo. Terrier Tôi sử dụng Terrier để thu hẹp việc tìm kiếm của mình với các tài liệu có chứa một hoặc hai từ, bao gồm các tài liệu liên quan đến các hình ảnh mà tôi quy định trong trường tìm kiếm. Tôi có một số lựa chọn tìm kiếm. Trong trường tìm kiếm, tôi có thể quy định một từ mà một tài liệu phải có và một từ khác mà một tài liệu tương tự không thể có. Tôi có thể gán một trọng số cho một từ là quan trọng hơn hoặc có liên quan hơn so với một từ khác. Các tài liệu có chứa các từ quan trọng được hiện lên đầu tiên trong kết quả tìm kiếm. Thông thường, tôi hài lòng với các kết quả đó. Terrier cũng có các chế độ tương tác và bó (batch). imgSeek Phiên bản dành cho máy tính của imgSeek là một tập hợp các dự án nguồn mở tương tự trực quan miễn phí. Tôi có thể truy vấn bằng một bản phác họa mà tôi vẽ hoặc một hình ảnh khác mà tôi cung cấp. imgSeek sử dụng một thuật toán giải nén wavelet với nhiều độ phân giải của truy vấn và các hình ảnh cơ sở dữ liệu. Sử dụng phiên bản phía máy chủ nếu bạn đang quan tâm đến việc tích hợp một cơ sở dữ liệu hình ảnh dựa trên-nội dung vào một trang web liên quan đến hình ảnh. Hình 1 cho thấy trang chủ của phiên bản máy tính để bàn imgSeek khi được khởi tạo lần đầu. Hình 1. Trang chủ: Options>Viewing (Tùy chọn> Xem) Bạn có thể thay đổi cách imgSeek xuất hiện trên trang chủ của nó khi bạn khởi động nó. Nếu bạn muốn tìm kiếm Hình ảnh theo nội dung (Image by content) như trang chủ, hãy nhấn Search (Tìm kiếm), rồi Image (Hình ảnh). Thoát khỏi imgSeek và khởi động lại. Hình 2 cho thấy kết quả. Hình 2. Trang chủ imgSeek: Tìm kiếm theo nội dung Hình ảnh Tìm kiếm theo nội dung hình ảnh Bạn có các tùy chọn tìm kiếm theo nội dung hình ảnh (by Image content), theo từ khoá (by Keyword) hoặc theo nhóm (by Group). Để tìm kiếm hình ảnh theo nội dung, trước tiên bạn phải nhập khẩu (import) một hình ảnh, hoặc vẽ một bản phác họa, mà bạn có thể dùng nó để truy vấn và lấy ra các hình ảnh từ một bộ sưu tập. Nếu bạn chưa có một bộ sưu tập, hãy chuyển đến thẻ (tab) Add (Thêm) để tạo một bộ sưu tập và sau đó thêm các hình ảnh cho nó. Khi bạn đã làm với bộ sưu tập này, bạn quay trở lại thẻ Search by Image content để nhập khẩu một hình ảnh từ bộ sưu tập hoặc tạo ra một bản phác họa. Hình 3 cho thấy khi bạn vẽ, bạn có tùy chọn để lựa chọn màu sắc từ bảng điều khiển. Hình 3. Bản phác họa một bông hoa Bạn có thể điều chỉnh kích cỡ nét bút cho bản phác họa của mình bằng cách trượt thanh trượt sang trái để có kích cỡ nhỏ hơn và sang phải để có kích cỡ lớn hơn. Khi bạn tăng hoặc giảm kích cỡ nét bút, một khung có nét màu mà bạn đã chọn từ bảng điều khiển sẽ tăng hoặc giảm theo. Bạn có thể lưu lại bản phác họa này để xem lại sau, chuyển nó vào thùng rác hoặc thiết lập lại lịch sử (history) bản phác họa. Sau đó chuyển đến hộp Results (Các kết quả), nhấn vào nút ấn truy vấn (ngoài cùng bên trái) để nhanh chóng tìm kiếm các hình ảnh tương tự trong một bộ sưu tập. Hình 4 cho thấy các hình ảnh được truy vấn này lấy ra có hình dạng và màu sắc tương tự như hình dạng và màu sắc của bản phác họa trong Hình 3. Một trọng số theo tỷ lệ phần trăm biểu diễn mức độ giống nhau. Hình 4. Các hình ảnh kết quả về các bông hoa Bây giờ chúng ta hãy nhìn vào bản phác họa, xem Hình 5 được vẽ bằng kích cỡ nét bút lớn hơn. Kích cỡ của khung màu đã chọn lớn hơn khung màu hiển thị trong Hình 3. Hình 5. Bản phác họa được vẽ bằng nét bút lớn hơn Trong Hình 6, tôi nhận được các kết quả khác so với các kết quả được hiển thị trong Hình 4. Hình 6. Tập các hình ảnh kết quả của các bông hoa khác nhau Trong Hình 4 và Hình 6, hình ảnh đầu tiên do truy vấn tìm kiếm này lấy ra được gán cho trọng số cao nhất. Trọng số đã gán cho hình ảnh đầu tiên trong Hình 6 cao hơn một chút so với trọng số trong Hình 4 do có nhiều nét giống nhau hơn về hình dạng và màu sắc giữa bản phác họa và các hình ảnh được lấy ra trong bộ sưu tập. Hình ảnh thứ hai trong Hình 4 đã trở thành hình ảnh đầu tiên trong Hình 6. Điều này là do sự thay đổi về mức độ giống nhau của bản phác họa (được vẽ bằng một nét bút lớn hơn) so với hình ảnh đó. Một bức ảnh của một bông hoa trong Hình 6 không được hiển thị trong Hình 4. Hình dạng và độ dày của bản phác họa trong Hình 5 là hơi giống như bức ảnh này. Độ mỏng của bản phác họa trong Hình 3 không đem đến bức ảnh trong bộ sưu tập được hiển thị trong Hình 4. Xây dựng bộ sưu tập hình ảnh Bạn cần phải xây dựng một bộ sưu tập các hình ảnh mà bạn muốn tìm kiếm và duyệt. Để thêm các tệp, hãy vào Add. Bạn có thể thiết lập đường dẫn của các tệp mà bạn muốn thêm vào hoặc bỏ qua. Bạn có thể chọn đặt tên cho bộ sưu tập hoặc để cho hệ thống tự động tạo ra một bộ sưu tập. Bạn có thể hạn chế các tệp theo các tệp, các chiều và các phần mở rộng cụ thể. Bạn có thể thấy việc kích hoạt âm thanh bíp để báo cho bạn biết khi imgSeek đã hoàn thành việc thêm các tệp hoặc việc giải nén siêu dữ liệu cũng có ích. Bạn có thể lựa chọn để ẩn giấu đi quá trình và thêm các tệp hình ảnh không có phần mở rộng. Khi bạn đã sẵn sàng, hãy nhấn Add để bắt đầu xử lý. Nếu bạn muốn chỉnh sửa các mục siêu dữ liệu, ví dụ như tên tác giả, trước khi thêm các tệp, bạn nên chuyển đến trình đơn Tools. Bạn có thể chọn xem bạn có muốn chỉnh sửa siêu dữ liệu hình ảnh theo từng cái một hay bạn muốn áp dụng những thay đổi này cho tập các hình ảnh trong một bó đã dựng sẵn không. Bạn có thể chỉnh sửa bó này bằng cách chọn trình soạn thảo bó Công việc (Work batch editor) trong Tools. Hình 7 cho thấy nơi đặt trình soạn thảo bó này. Hình 7. Trình soạn thảo bó Công việc Để điền một bó công việc, hãy nhấn chuột phải vào một hình ảnh mà bạn muốn đưa vào, rồi thêm nó vào bó đó. Bạn có thể thêm bó công việc vào thư mục hệ thống, nhóm từ khoá và thư mục cơ sở dữ liệu. Bạn có thể tìm thấy các hình ảnh trùng lặp và đổi tên cho chúng. Để lưu các thay đổi siêu dữ liệu, hãy vào trình đơn Database (Cơ sở dữ liệu) để xuất khẩu siêu dữ liệu như trong Hình 8. Hình 8. Xuất khẩu siêu dữ liệu Nếu bạn quên là mình đã thêm những hình ảnh nào vào bộ sưu tập, bạn có thể tiết kiệm thời gian tìm kiếm chúng bằng cách vào trình đơn Maintenance (Bảo trì) để quét tất cả các thư mục để biết các hình ảnh mới. Truy vấn hình ảnh theo từ khóa Bạn có thể tìm kiếm hình ảnh theo từ khóa chứ không theo nội dung. Để bắt đầu, hãy nhấn chuột phải vào vùng trong cột Field (Trường) để mở ra một trình đơn nhỏ. Hãy nhấn New để chèn Description (Mô tả) làm tham số đầu tiên theo mặc định. Gõ vào cột Value (Giá trị) để mô tả hình ảnh này thuộc về cái gì. Bước tiếp theo sẽ chọn toán tử logic AND hoặc OR và một tham số thứ hai. Toán tử AND cho biết imgSeek phải sử dụng cả hai tham số đầu tiên và thứ hai để truy vấn các hình ảnh trong bộ sưu tập. Toán tử OR cho biết imgSeek có thể sử dụng một trong hai tham số nếu bạn sử dụng tham số nào để truy vấn bộ sưu tập này là không quan trọng. Tạo tham số thứ hai, hãy nhấn chuột phải vào vùng trong tham số Description (tham số đầu tiên) rồi nhấn vào New parameter (Tham số mới). Sử dụng mũi tên đi xuống để hiển thị một danh sách của tất cả các tham số như dưới đây.  Description - Mô tả  Dimensions - Các chiều  Filename - Tên tệp  File size - Kích cỡ tệp  Format - Định dạng  Modify Date - Sửa đổi ngày tháng  Database Date - Ngày tháng của cơ sở dữ liệu  Mounted - Đã đặt (chỉ với Linux®) Sau khi bạn chọn, mô tả tham số. Nếu bạn không chắc chắn về cách mô tả từng tham số, hãy chuyển đến trình đơn Maintenance để xem xét siêu dữ liệu hình ảnh. Bạn sẽ để ý thấy danh sách tham số từ khóa là một phần nhỏ của bức hình lớn hơn về siêu dữ liệu trong hình ảnh đó. Duyệt hình ảnh theo nét giống nhau Bạn có thể duyệt theo các tệp, các nhóm, hệ thống và nét giống nhau. Duyệt theo các tệp và các nhóm không có gì mới. Nếu bạn có thể nhớ nơi bạn đã đặt các tệp của mình, thì bạn có thể duyệt trực tiếp đến thư mục có chứa các tệp đó. Trước khi bạn có thể so sánh một hình ảnh này với hình ảnh khác về nét giống nhau, bạn cần phải chuyển đến thẻ Add để thêm các hình ảnh cho bộ sưu tập của bạn. Khi bạn đã làm xong, bạn quay trở về thẻ Similarity (Nét giống nhau) và cho biết liệu bạn có muốn duyệt các hình ảnh theo ngày tháng hoặc tên tệp không. Nếu bạn có hàng trăm tệp để duyệt, thì nhóm các tệp theo ngày tháng và tên tệp giống nhau sẽ hiệu quả hơn và chọn các nhóm mà bạn muốn duyệt. Để tạo ra các nhóm có nét giống nhau, hãy nhấn Group (Tạo nhóm). Nếu bộ sưu tập là quá nhỏ để duyệt, hãy thử thêm nhiều bức tranh vào bộ sưu tập của bạn. Bạn có thể sử dụng nút Export (Xuất khẩu) bên cạnh nút Group để xuất khẩu các nhóm có nét giống nhau như các nhóm logic. Về đầu trang Công cụ tìm kiếm văn bản trên máy tính để bàn: Terrier Sau khi bạn đã hài lòng với các kết quả truy vấn của mình về hình ảnh, các bước tiếp theo sẽ sử dụng Terrier để tìm kiếm các tài liệu XML có chứa các hình ảnh đó. Không như imgSeek, bạn cần phải khởi động GUI (Giao diện người dùng đồ họa) của Terrier từ dấu nhắc lệnh. Hãy chắc chắn rằng bạn đã cài đặt đúng phiên bản Java™ trên máy tính của mình. Trong cửa sổ chính, Terrier chỉ hiển thị hai thẻ: Search (Tìm kiếm) và Index (Chỉ mục). Khi bạn chạy Terrier lần đầu, nó tập trung vào thẻ Index và hiển thị một hộp thoại (xem Hình 9.) hỏi xem bạn có muốn Terrier tạo chỉ mục cho các tài liệu riêng của nó hoặc các tài liệu theo sự lựa chọn của bạn không. Hình 9. Một hộp thoại khi chạy Terrier lần đầu tiên Chọn một thư mục của tài liệu XML để tạo chỉ mục. Khi bạn khởi động lại Terrier, nó sẽ chuyển sang thẻ Search. Bạn có thể chuyển sang thẻ Index để tạo lại chỉ mục các tài liệu của bạn trước khi bạn truy vấn chúng. Tạo chỉ mục các tệp Trên thẻ Index, hãy chọn các thư mục để mở ra một cửa sổ chỉ rõ các tài liệu mà Terrier cần tạo chỉ mục. Khi thực hiện xong, nhấn OK để quay trở lại thẻ Index và bắt đầu quá trình tạo một chỉ mục. Terrier không hỗ trợ tạo chỉ mục tăng dần. Mỗi khi bạn tạo ra một chỉ mục, Terrier sẽ loại bỏ các chỉ mục cũ và tạo chỉ mục tất cả các thư mục đã quy định từ đầu. Bạn có thể xem quá trình tạo chỉ mục trong phần dưới của cửa sổ này. Khi Terrier hoàn thành tạo chỉ mục, nó sẽ chuyển sang thẻ Search. Về đầu trang Ngôn ngữ truy vấn Terry Thẻ Search rất đơn giản, chỉ có một trường để nhập một truy vấn Terrier. Bạn có thể sử dụng ngôn ngữ truy vấn để tìm kiếm các từ riêng lẻ hoặc theo một cụm từ. Dưới đây là một số ví dụ về các tài liệu truy vấn có chứa các hình ảnh được tìm thấy bằng Terrier. Ví dụ 1: từ 1 từ 2 Truy vấn này sẽ trả về các tài liệu có chứa một hoặc hai từ, nhưng thường không phải là hai từ. Hãy giả sử từ đầu tiên là boat (thuyền) và từ thứ hai là imgboat1.png. Kết quả tìm kiếm có thể hiển thị một tài liệu có chứa boat, nhưng không chứa imgboat1.png. Tài liệu thứ hai chứa imgboat1.png, nhưng không chứa boat. Tài liệu thứ ba chứa cả hai từ trên. Các kết quả tìm kiếm có thể hiển thị các tài liệu theo một thứ tự ngẫu nhiên. Điều này có thể giúp xác định những tài liệu nào chứa các hình ảnh gắn nhãn sai. Ví dụ 2: từ1^2.3 từ2 Trọng số của từ đầu tiên được tăng lên 2,3 trong khi trọng số của từ thứ hai vẫn là một. Đừng quên đặt dấu dấu mũ (^) giữa từ và trọng số khi gõ một truy vấn. Các kết quả tìm kiếm sẽ đưa ra các tài liệu luôn chứa từ đầu tiên và có thể hoặc không thể chứa từ thứ hai. Trước tiên các kết quả tìm kiếm sẽ hiển thị các tài liệu chứa từ có trọng số. Không giống như các tài liệu trong ví dụ đầu tiên, các tài liệu có chứa boat, mà bây giờ đã có một trọng số được gán là 2,3, sẽ luôn luôn ở trên cùng của các kết quả tìm kiếm. Một tài liệu liên quan đến hình ảnh boat có thể hoặc không thể có trong các tài liệu đó. Để tiếp tục tinh chỉnh tìm kiếm của bạn, hãy nhập một từ thứ ba, chẳng hạn như flower (hoa), trong trường tìm kiếm. Trọng số được gán cho từ thứ ba này có thể cao hơn hoặc thấp hơn trọng số đã gán cho từ đầu tiên. Trọng số cao hơn, ví dụ, 7,2, cho từ đầu tiên so với từ thứ ba, ví dụ, 2,5, tạo ra khả năng rất cao là các tài liệu có chứa từ đầu tiên sẽ xuất hiện hàng đầu trong các kết quả tìm kiếm. Ví dụ 3: + từ1 + từ2 Bạn có thể nhận được các tài liệu có chứa cả hai từ bằng cách nhập vào dấu cộng làm tiền tố của từ. Cả hai từ này có thể ở những nơi riêng biệt trong toàn bộ một tài liệu. Chúng không phải ở bên cạnh nhau như trong một cụm từ. Ví dụ, flower và imgflower1.png ở những vị trí riêng biệt, nhưng flower không thể được liên kết với imgflower1.png. Hình ảnh này có thể được gắn nhãn với Flower trong một tài liệu và Rose trong một phiên bản khác của cùng một tài liệu. Ví dụ 4: + từ1 – từ2 Sử dụng ví dụ này khi tìm kiếm các tài liệu trong đó mỗi tài liệu đều chứa từ đầu tiên và không chứa từ thứ hai. Bạn làm điều này bằng cách đặt dấu cộng làm tiền tố cho từ đầu tiên và dấu trừ làm tiền tố cho từ thứ hai. Nếu một tài liệu có chứa cả hai từ đầu tiên và từ thứ hai, nó sẽ không được tìm thấy trong các kết quả tìm kiếm. Ví dụ, nếu bạn tìm kiếm ba từ: +boat +imgboat1.png và -canoe, bạn sẽ nhận được các tài liệu có chứa boat và imgboat1.png, nhưng không chứa canoe. Ví dụ 5: "từ1 từ2" Bạn có thể nhận được các tài liệu trong đó cả hai từ đều xuất hiện trong một cụm từ. Những từ này không được đặt ở những nơi riêng biệt trong một tài liệu như đã cho thấy trong ví dụ thứ ba. Để chỉ ra một cụm từ, bạn nên đặt các từ các giữa dấu ngoặc kép, ví dụ: "Flower picture". Ví dụ 6: cụm từ1 -từ1 từ2^3.5 Hãy giả sử bạn đưa ra bốn từ để tìm các tài liệu có chứa một cụm từ, có chứa một từ có một trọng số là 3,5 và không chứa từ thứ hai. Ví dụ, bạn muốn các tài liệu có chứa "Figure 7. This is the picture of a flower" (Hình 7. Đây là một bức tranh của một bông hoa), bỏ qua boat và có chứa stone là từ có trọng số là 3.5.
Tài liệu liên quan