Luận văn Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép

Trong thời đại bùng nổ thông tin như hiện nay, thông tin được lưu trữ trên máy tính ngày càng nhiều do đó việc tìm kiếm thông tin chính xác là nhu cầu thiết yếu đối với mọi người trong lĩnh vực. Internet hiện nay đã trở thành một kho tư liệu khổng lồ mà việc tìm kiếm thông tin trên kho tư liệu này cần phải được hỗ trợ bởi các công cụ tìm kiếm tốt. Các hệ thống tìm kiếm thông tin thông dụng như Google, Yahoo Search đã đáp ứng được phần nào nhu cầu đó của mọi người. Tuy nhiên, các hệ thống này được xây dựng để xử lý và tìm kiếm các văn bản tiếng châu Âu, chúng chưa thật sự phù hợp cho các văn bản tiếng Việt. Do đó nhu cầu phải có một công cụ tìm kiếm "hiểu" và xử lý tốt các văn bản tiếng Việt.

pdf118 trang | Chia sẻ: franklove | Lượt xem: 2317 | Lượt tải: 4download
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép NguyӉn Thӏ Thanh Hà - 0112215 1 NguyӉn Trung HiӃu - 0112216 /ӠI CҦM ѪN Chúng em xin gӣi lӡi cҧm ѫn chân thành nhҩt ÿӃn thҫy Hӗ Bҧo Quӕc, ngѭӡi ÿã Wұn tình hѭӟng dүn, giúp ÿӥ chúng em trong suӕt thӡi gian thӵc hiӋn luұn văn này. Chúng con cҧm ѫn Cha, Mҽ và gia ÿình, nhӳng ngѭӡi ÿã dҥy dӛ, khuyӃn khích, ÿӝng viên chúng con trong nhӳng lúc khó khăn, tҥo mӑi ÿLӅu kiӋn cho chúng con nghiên cӭu hӑc tұp. Chúng em cҧm ѫn các thҫy, cô trong khoa Công NghӋ Thông Tin ÿã dìu dҳt, giҧng dҥy chúng em, giúp chúng em có nhӳng kiӃn thӭc quý báu trong nhӳng năm hӑc qua. &ҧm ѫn chӏ Lê Thúy Ngӑc và các bҥn ÿã tұn tình ÿóng góp ý kiӃn cho luұn văn Fӫa chúng tôi. 0һc dù rҩt cӕ gҳng nhѭng luұn văn cӫa chúng em không tránh khӓi sai sót, mong nhұn ÿѭӧc sӵ thông cҧm và góp ý cӫa thҫy cô và các bҥn. Tháng 7 năm 2005 Sinh viên NguyӉn Thӏ Thanh Hà – NguyӉn Trung HiӃu Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép NguyӉn Thӏ Thanh Hà - 0112215 2 NguyӉn Trung HiӃu - 0112216 NHҰN XÉT CӪA GIÁO VIÊN HѬӞNG DҮN …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………….... …………………………………………………………………………………… Ngày…… tháng……năm 2005 Ký tên Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép NguyӉn Thӏ Thanh Hà - 0112215 3 NguyӉn Trung HiӃu - 0112216 NHҰN XÉT CӪA GIÁO VIÊN PHҦN BIӊN …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………….... …………………………………………………………………………………… Ngày…… tháng……năm 2005 Ký tên Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép NguyӉn Thӏ Thanh Hà - 0112215 4 NguyӉn Trung HiӃu - 0112216 0ӨC LӨC DANH SÁCH CÁC BҦNG...................................................................................8 DANH SÁCH CÁC HÌNH VӀ..............................................................................8 Phҫn 1 : TÌM HIӆU LÝ THUYӂT ..........................................................................11 Chѭѫng 1: TӘNG QUAN Vӄ TÌM KIӂM THÔNG TIN ...................................11 1. Giӟi thiӋu vӅ tìm kiӃm thông tin ......................................................................11 1.1 Khái niӋm vӅ tìm kiӃm thông tin ................................................................11 1.2 Mӝt sӕ vҩn ÿӅ trong viӋc tìm kiӃm thông tin: .............................................11 2. HӋ tìm kiӃm thông tin – IRS ............................................................................12 3. Các thành phҫn cӫa mӝt hӋ tìm kiӃm thông tin [1.1] ........................................13 4. So sánh IRS vӟi các hӋ thӕng thông tin khác ...................................................14 4.1 HӋ quҧn trӏ cѫ sӣ dӳ liӋu (DBMS)..............................................................15 4.2 HӋ quҧn lý thông tin (IMS) ........................................................................15 4.3 HӋ hӛ trӧ ra quyӃt ÿӏnh (DSS)....................................................................16 4.4 HӋ trҧ lӡi câu hӓi (QAS) ............................................................................16 4.5 So sánh IRS vӟi các hӋ thӕng thông tin khác..............................................17 Chѭѫng 2: XÂY DӴNG MӜT Hӊ THӔNG TÌM KIӂM THÔNG TIN............18 1. KiӃn trúc cӫa hӋ tìm kiӃm thông tin. [1.3]........................................................18 2. Mӝt sӕ mô hình ÿӇ xây dӵng mӝt hӋ tìm kiӃm thông tin [1.2]..........................19 2.1 Mô hình không gian vector ........................................................................19 2.2 Tìm kiӃm Boolean .....................................................................................21 2.3 Tìm kiӃm Boolean mӣ rӝng .......................................................................22 2.4 Mӣ rӝng trong viӋc thêm vào trӑng sӕ cӫa câu hӓi .....................................23 2.4.1 Mӣ rӝng cho sӕ tӯ tuǤ ý ......................................................................23 2.4.2 Thêm toán tӱ tӵÿӝng ..........................................................................24 2.5 Mô hình xác suҩt........................................................................................24 2.6 Ĉánh giá chung vӅ các mô hình .................................................................25 3. Các bѭӟc ÿӇ xây dӵng mӝt hӋ tìm kiӃm thông tin. [3.2]...................................25 3.1 Tách tӯ tӵÿӝng cho tұp các tài liӋu............................................................25 3.2 Lұp chӍ mөc cho tài liӋu.............................................................................25 3.3 Tìm kiӃm ...................................................................................................26 3.4 Sҳp xӃp các tài liӋu trҧ vӅ (Ranking) ..........................................................26 4. Nhӳng khó khăn trong viӋc xây dӵng mӝt hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt .....................................................................................................................26 4.1 Khó khăn trong viӋc tách tӯ tiӃng ViӋt .......................................................27 4.2 Vҩn ÿӅ bҧng mã tiӃng ViӋt .........................................................................27 Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép NguyӉn Thӏ Thanh Hà - 0112215 5 NguyӉn Trung HiӃu - 0112216 4.3 Các khó khăn khác .....................................................................................27 Chѭѫng 3: TÁCH TӮ TӴĈӜNG........................................................................29 1. Tách tӯ trong TiӃng Anh .................................................................................29 2. Tách tӯ trong TiӃng ViӋt .................................................................................29 2.1 Mӝt sӕÿһc ÿLӇm chính vӅ tӯ tiӃng ViӋt [2.2]..............................................29 2.1.1 TiӃng...................................................................................................29 2.1.2 Tӯ .......................................................................................................30 2.2 Tách tӯ tӵÿӝng tiӃng ViӋt .........................................................................30 3. Các phѭѫng pháp tách tӯ tiӃng ViӋt.................................................................30 3.1 fnTBL (Fast Transformation-based learning) [3.1].....................................30 3.1.1 Mô tҧ...................................................................................................30 3.1.2 Áp dөng tách tӯ tiӃng ViӋt...................................................................31 3.2 Longest Matching [1.4]..............................................................................37 3.3 KӃt hӧp giӳa fnTBL và Longest Matching.................................................37 Chѭѫng 4: LҰP CHӌ MӨC ..................................................................................38 1. Khái quát vӅ hӋ thӕng lұp chӍ mөc...................................................................38 2. Phѭѫng pháp lұp chӍ mөc [1.1] ........................................................................38 2.1 Xác ÿӏnh các tӯ chӍ mөc.............................................................................38 2.2 Các phѭѫng pháp tính trӑng sӕ cӫa tӯ ........................................................40 2.2.1 Tҫn sӕ tài liӋu nghӏch ÿҧo....................................................................40 2.2.2 Ĉӝ nhiӉu tín hiӋu (The Signal – Noise Ratio) ......................................40 2.2.3 Giá trӏ phân biӋt tӯ (The Term Discrimination Value) .........................42 2.3 Lұp chӍ mөc tӵÿӝng cho tài liӋu tiӃng Anh................................................43 3. Lұp chӍ mөc cho tài liӋu tiӃng ViӋt ..................................................................45 4. Tұp tin nghӏch ÿҧo tài liӋu ...............................................................................46 4.1 Phân biӋt giӳa tұp tin nghӏch ÿҧo và tұp tin trӵc tiӃp ..................................46 4.2 Tҥi sao sӱ dөng tұp tin nghӏch ÿҧo ÿӇ lұp chӍ mөc .....................................47 Phҫn 2 : PHÂN TÍCH VÀ THIӂT Kӂ ....................................................................49 Chѭѫng 5: PHÂN TÍCH.......................................................................................49 1. Sѫÿӗ UseCase hӋ thӕng ..................................................................................49 2. Sѫÿӗ Lӟp........................................................................................................51 2.1 Sѫÿӗ các lӟp thӇ hiӋn................................................................................51 2.2 Sѫÿӗ các lӟp xӱ lý ....................................................................................52 3. Tách tӯ ............................................................................................................53 3.1 Sѫÿӗ UseCase...........................................................................................53 3.2 Sѫÿӗ Tuҫn tӵ ............................................................................................53 Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép NguyӉn Thӏ Thanh Hà - 0112215 6 NguyӉn Trung HiӃu - 0112216 3.3 Sѫÿӗ Cӝng tác...........................................................................................54 3.4 Sѫÿӗ Lӟp ..................................................................................................54 4. Lұp chӍ mөc.....................................................................................................55 4.1 Sѫÿӗ UseCase...........................................................................................55 4.2 Sѫÿӗ Tuҫn tӵ ............................................................................................56 4.2.1 Tҥo mӟi chӍ mөc .................................................................................56 4.2.2 Cұp nhұt chӍ mөc.................................................................................57 4.3 Sѫÿӗ Cӝng tác...........................................................................................58 4.3.1 Tҥo mӟi chӍ mөc .................................................................................58 4.3.2 Cұp nhұt chӍ mөc.................................................................................59 4.4 Sѫÿӗ Lӟp ..................................................................................................60 5. Tìm kiӃm.........................................................................................................61 5.1 Sѫÿӗ UseCase...........................................................................................61 5.2 Sѫÿӗ Tuҫn tӵ ............................................................................................61 5.3 Sѫÿӗ Cӝng tác...........................................................................................62 5.4 Sѫÿӗ Lӟp ..................................................................................................63 Chѭѫng 6: THIӂT Kӂ VÀ CÀI ĈҺT ..................................................................64 1. Cҩu trúc lѭu trӳ dӳ liӋu....................................................................................64 1.1 Tұp tin lѭu nӝi dung tài liӋu .......................................................................64 1.1.1 Cҩu trúc DTD / XSD ...........................................................................64 1.1.2 Tài liӋu XML ......................................................................................66 1.2 Tұp tin sau khi tách tӯ tài liӋu ....................................................................67 1.2.1 Cҩu trúc DTD / XSD ...........................................................................67 1.2.2 Tài liӋu XML ......................................................................................68 1.3 Tұp tin chӭa các tӯ không thӇ hiӋn nӝi dung cӫa văn bҧn (stop list) ...........70 1.3.1 Cҩu trúc DTD / XSD ...........................................................................70 1.3.2 Tài liӋu XML ......................................................................................71 1.4 Tұp tin chӍ mөc ÿҧo ( Inverted ). ................................................................71 1.4.1 Cҩu trúc DTD / XSD ...........................................................................71 1.4.2 Tài liӋu XML ......................................................................................73 1.5 Tұp tin sau khi tách tӯ câu hӓi....................................................................74 1.5.1 Cҩu trúc DTD / XSD ...........................................................................74 1.5.2 Tài liӋu XML ......................................................................................75 1.6 Tұp tin chӭa các tӯ cӫa câu hӓi sau khi loҥi bӓ các tӯ trong danh sách StopList ...........................................................................................................76 1.6.1 Cҩu trúc DTD / XSD ...........................................................................76 1.6.2 Tài liӋu XML ......................................................................................77 1.7 Tұp tin chӭa các tӯ trong câu hӓi và các tài liӋu liên quan..........................77 1.7.1 Cҩu trúc DTD / XSD ...........................................................................77 Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép NguyӉn Thӏ Thanh Hà - 0112215 7 NguyӉn Trung HiӃu - 0112216 1.7.2 Tài liӋu XML ......................................................................................79 1.8 Tұp tin chӭa ÿӝ tѭѫng quan giӳa câu hӓi và các tài liӋu .............................80 1.8.1 Cҩu trúc DTD / XSD ...........................................................................80 1.8.2 Tài liӋu XML ......................................................................................82 2. Chi tiӃt các lӟp ÿӕi tѭӧng ................................................................................83 2.1 Các lӟp trong quá trình tách tӯ ...................................................................83 2.1.1 Sѫ ÿӗ các lӟp......................................................................................83 2.1.2 Lӟp tách tӯ ghép..................................................................................83 2.1.3 Lӟp tách tӯ ..........................................................................................86 2.1.4 Lӟp giao diӋn tách tӯ...........................................................................89 2.2 Các lӟp trong quá trình lұp chӍ mөc ...........................................................91 2.2.1 Sѫÿӗ các lӟp.......................................................................................91 2.2.2 Lӟp lұp chӍ mөc...................................................................................92 2.2.3 Lӟp giao diӋn tҥo mӟi chӍ mөc ............................................................94 2.2.4 Lӟp giao diӋn cұp nhұt chӍ mөc ...........................................................96 2.3 Các lӟp trong quá trình tìm kiӃm................................................................98 2.3.1 Sѫÿӗ các lӟp.......................................................................................98 2.3.2 Lӟp tìm kiӃm.......................................................................................99 2.3.3 Lӟp giao diӋn tìm kiӃm .....................................................................105 3. Mӝt sӕ màn hình giao diӋn khác ....................................................................109 3.1 Màn hình chính cӫa chѭѫng trình.............................................................109 3.2 Màn hình tìm kiӃm nhiӅu câu hӓi .............................................................110 3.3 Màn hình tìm kiӃm chính ( giao diӋn Web) ..............................................112 3.4 Màn hình trҧ vӅ các tài liӋu tìm ÿѭӧc ( giao diӋn Web) ............................113 3.5 Màn hình chi tiӃt cӫa mӝt tài liӋu ( giao diӋn Web)..................................114 Phҫn 3 : TӘNG KӂT..............................................................................................115 1. Chѭѫng trình thӱ nghiӋm...............................................................................115 2. Ĉánh giá kӃt quҧÿҥt ÿѭӧc ............................................................................. 115 3. Hѭӟng phát triӇn............................................................................................116 TÀI LIӊU THAM KHҦO .................................................................................117 1. Sách............................................................................................................... 117 2. Luұn văn........................................................................................................117 3. Website ......................................................................................................... 117 Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép NguyӉn Thӏ Thanh Hà - 0112215 8 NguyӉn Trung HiӃu - 0112216 DANH SÁCH CÁC BҦNG %ҧng 1-1 So sánh IRS vӟi các hӋ thӕng thông tin khác ..........................................................17 %ҧng 4-1 Cách tұp tin nghӏch ÿҧo lѭu trӳ...............................................................................47 %ҧng 4-2 Cách tұp tin trӵc tiӃp lѭu trӳ...................................................................................47 %ҧng 4-3 Thêm mӝt tài liӋu mӟi vào tұp tin nghӏch ÿҧo.........................................................48 %ҧng 5-1 Danh sách các Actor...............................................................................................50 %ҧng 5-2 Danh sách các UseCase ..........................................................................................50 DANH SÁCH CÁC HÌNH VӀ Hình 1-1 Môi trѭӡng cӫa hӋ tìm kiӃm thông tin .....................................................................13 Hình 1-2 Tәng quan vӅ chӭc năng cӫa mӝt hӋ tìm kiӃm thông tin..........................................14 Hình 2-1 HӋ tìm kiӃm thông tin tiêu biӇu...............................................................................18 Hình 3-1 Quá trình hӑc..........................................................................................................35 Hình 3-2 Giai ÿRҥn xác ÿӏnh tӯ cho tài liӋu mӟi.....................................................................36 Hình 4-1 Các tӯÿѭӧc sҳp theo thӭ tӵ ....................................................................................39 Hình 4-2 Quá trình chӑn tӯ làm chӍ mөc................................................................................45