Chữ tiếng Việt của chúng ta có một đặc điểm rất hay là có sự xuất hiện xủa các dấu thanh cũng như dấu của các ký tự. Điều này giúp cho tiếng Việt "thêm thanh, thêm điệu". Tuy nhân, cũng chính viêc "thêm thanh, thêm điệu" đó làm cho việc gõ tiếng Việt trở nên tốn nhiều thời gian hơn. Một vấn đề khác, khi việc sử dụng Internet trở nên thông dụng, một tiện ích được mọi người ưa chuộng là dichj vụ Email. Nhưng, cho đến hiện nay, hầu hết các mail server vẫn chưa hỗ trợ tiếng Việt, do đó, tình trạng các lá mail trên mạng hầu như không có dấu. Việc phát triển 1 công cụ giúp thêm dấu tiếng Việt vào văn bản không dấu là việc rất cần thiết và thú vị.
Đề tài này hướng đến việc giải quyết bài toán thêm dấu tiếng Việt theo một hướng mới, do đó, chương trình không chú trọng chuyên sâu vào lĩnh vực nào. Việc thêm chức năng hỗ trợ các lĩnh vực chuyên sâu khác không ảnh hưởng nhiều đến cấu trúc của mô hình mà chương trình áp dụng.
Luận văn được tổ chức thành 5 chương với nội dung sau:
- Chương 1 giới thiệu tổng quan về bài toán Thêm dấu tiếng Việt vào văn bản khôgn dấu, và các công trình đã có liên quan đến đề tài
- Chương 2 giới thiệu các cơ sở lý thuyết_tin học cần sử dụng
- Chương 3 nhận xét các mô hình đã có trước đây, và đưa ra mô hình cài đặt chính
- Chương 4 cụ thể hóa mô hình cài đặt
- Chương 5 tổng kết và đề ra hướng phát triển
70 trang |
Chia sẻ: diunt88 | Lượt xem: 2280 | Lượt tải: 4
Bạn đang xem trước 20 trang tài liệu Khóa luận tốt nghiệp Phương pháp thêm dấu tiếng Việt vào văn bản tiếng Việt không dấu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN
KHOA CÔNG NGHʃ THÔNG TIN
%͘ MÔN CÔNG NGHʃ TRI THͨC
PHAN QUӔC LÂN
PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT
VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU
KHOÁ LUҰN CӰ NHÂN TIN HӐC
TP. HCM, NĂM 2005
1
TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN
KHOA CÔNG NGHʃ THÔNG TIN
%͘ MÔN CÔNG NGHʃ TRI THͨC
PHAN QUӔC LÂN – 0112267
PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT
VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU
KHOÁ LUҰN CӰ NHÂN TIN HӐC
GIÁO VIÊN HѬӞNG DҮN
Th.S PHҤM PHҤM TUYӂT TRINH
NIÊN KHÓA 2001 – 2005
2
/ӡi cҧm ѫn
/ӡi ÿҫu tiên, em xin chân thành cҧm ѫn cô Phҥm Phҥm TuyӃt Trinh, cô ÿã trӵc
tiӃp hѭӟng dүn và tҥo ÿLӅu kiӋn cho em nghiên cӭu và hoàn thành luұn văn này.
Em cNJng xin chân thành cҧm ѫn thҫy Ĉinh ĈLӅn, thҫy ÿã hӛ trӧ, giúp ÿӥ em rҩt
nhiӅu trong quá trình thӵc hiӋn. Và em cNJng xin cҧm ѫn tҩt cҧ các thҫy cô trong khoa
Công nghӋ thông tin ÿã tұn tình chӍ bҧo và giúp ÿӥ em trong suӕt quá trình hӑc tұp
trong trѭӡng.
Con xin chân thành cҧm ѫn ba mҽ, ông bà, anh em và ngѭӡi thân trong gia ÿình
ÿã tҥo mӑi ÿLӅu kiӋn tӕt nhҩt cho con hӑc tұp và ÿӝng viên, khích lӋ con trong quá trình
thӵc hiӋn luұn văn.
Và cuӕi cùng, tôi xin gӱi lӡi cҧm ѫn ÿӃn tҩt cҧ bҥn bè, ÿһc biӋt là anh Toàn, bҥn
Sinh, bҥn Khѭѫng …, nhӳng ngѭӡi ÿã hӛ trӧ và giúp tôi hoàn thiӋn luұn văn này.
0һc dù em ÿã cӕ gҳng hoàn thành luұn văn trong phҥm vi và khҧ năng cho phép
nhѭng chҳc chҳn sӁ không tránh khӓi nhӳng thiӃu sót. Em kính mong nhұn ÿѭӧc sӵ
Fҧm thông và tұn tình chӍ bҧo cӫa quý Thҫy Cô và các bҥn.
TP. Hӗ Chí Minh, tháng 7 năm 2005
Phan Quӕc Lân – 0112267
3
NHҰN XÉT CӪA GIÁO VIÊN HѬӞNG DҮN
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành phӕ Hӗ Chí Minh, tháng 07 năm 2005
Giáo viên hѭӟng dүn
Th.S Phҥm Phҥm TuyӃt Trinh
4
NHҰN XÉT CӪA GIÁO VIÊN PHҦN BIӊN
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành phӕ Hӗ Chí Minh, tháng 07 năm 2005
Giáo viên phҧn biӋn
TS. Ĉinh ĈLӅn
/ӠI NÓI ĈҪU
Chӳ viӃt tiӃng ViӋt cӫa chúng ta có 1 ÿһc ÿLӇm rҩt hay là có sӵ xuҩt hiӋn cӫa các
Gҩu thanh cNJng nhѭ dҩu cӫa các ký tӵ. ĈLӅu này giúp cho tiӃng ViӋt “thêm thanh, thêm
ÿLӋu”. Tuy nhiên, cNJng chính viӋc “thêm thanh, thêm ÿLӋu” ÿó làm cho viӋc gõ tiӃng
ViӋt trӣ nên tӕn nhiӅu thӡi gian hѫn. 1 vҩn ÿӅ khác, khi viӋc sӱ dөng Internet trӣ nên
thông dөng, 1 tiӋn ích ÿѭӧc mӑi ngѭӡi ѭa chuӝng là dӏch vө Email. Nhѭng, cho ÿӃn
hiӋn nay, hҫu hӃt các mail server vүn chѭa hӛ trӧ tӕt tiӃng ViӋt, do ÿó, tình trҥng các lá
mail trên mҥng hҫu nhѭ không có dҩu. ViӋc phát triӇn 1 công cө giúp thêm dҩu tiӃng
ViӋt vào văn bҧn không dҩu là viӋc rҩt cҫn thiӃt và thú vӏ.
ĈӅ tài này hѭӟng ÿӃn viӋc giҧi quyӃt bài toán thêm dҩu tiӃng ViӋt theo mӝt
Kѭӟng mӟi, do ÿó, chѭѫng trình không chú trӑng chuyên sâu vào lƭnh vӵc nào. ViӋc
thêm chӭc năng hӛ trӧ các lƭnh vӵc chuyên sâu khác không ҧnh hѭӣng nhiӅu ÿӃn cҩu
trúc cӫa mô hình mà chѭѫng trình áp dөng.
Luұn văn ÿѭӧc tә chӭc thành 5 chѭѫng vӟi nӝi dung nhѭ sau :
§ Chѭѫng 1 giӟi thiӋu tәng quan vӅ bài toán Thêm dҩu tiӃng ViӋt vào văn bҧn
không dҩu, và các công trình ÿã có liên quan ÿӃn ÿӅ tài.
§ Chѭѫng 2 giӟi thiӋu các cѫ sӣ lý thuyӃt _ tin hӑc cҫn sӱ dөng.
§ Chѭѫng 3 nhұn xét các mô hình ÿã có trѭӟc ÿây, và ÿѭa ra mô hình cài ÿһt
chính.
§ Chѭѫng 4 cө thӇ hóa mô hình cài ÿһt.
§ Chѭѫng 5 tәng kӃt và ÿӅ ra hѭӟng phát triӇn .
6
0ӨC LӨC
Chѭѫng 1.7ӘNG QUAN....................................................................9
1.1. Giӟi thiӋu vӅ bài toán Thêm dҩu tiӃng ViӋt vào văn bҧn không dҩu.......10
1.1.1. Phát biӇu bài toán.........................................................................................10
1.1.2. Ĉһc ÿLӇm .......................................................................................................10
1.1.3. +ѭӟng giҧi quyӃt ..........................................................................................11
1.2. Giӟi thiӋu các công trình ÿã có ..................................................................11
1.2.1. AMPad..........................................................................................................11
1.2.2. VietPad .........................................................................................................12
1.2.3. www.EasyVn.com.........................................................................................13
1.2.4. VnMark ........................................................................................................14
Chѭѫng 2.&Ѫ SӢ LÝ THUYӂT TIN HӐC....................................15
2.1. Lý thuyӃt vӅ ngôn ngӳ hӑc.........................................................................16
2.1.1. Âm tiӃt (còn gӑi là “tiӃng”) ..........................................................................16
2.1.1.1. Ĉӏnh nghƭa và ÿһc ÿLӇm âm tiӃt tiӃng ViӋt ..............................................16
2.1.1.2. Thanh là thành phҫn cӫa âm tiӃt tiӃng ViӋt .............................................16
2.1.1.3. Tҥi sao lҥi phҧi dùng dҩu thanh ? ............................................................17
2.1.2. 7ӯ ..................................................................................................................18
2.1.2.1. Các quan niӋm vӅ tӯ ...............................................................................18
2.1.2.2. Tiêu chí nhұn diӋn “tӯ” tiӃng ViӋt...........................................................18
2.1.2.2.1. Các tiêu chuҭn vӅ hình thӭc .................................................................19
2.1.2.2.2. Các tiêu chuҭn vӅ nӝi dung ..................................................................19
2.2. Tách tӯ ........................................................................................................20
2.2.1. Khӟp tӕi ÿa (LRMM – Left Right Max Matching).....................................21
2.2.2. Mô hình mҥng WFST và mҥng nѫ-ron .......................................................22
2.3. Tách câu......................................................................................................22
2.3.1. Tách câu bҵng Heristics. ..............................................................................23
2.3.1.1. Xӱ lý dҩu chҩm. .....................................................................................23
2.3.1.2. Xӱ lý dҩu chҩm trong ngoһc. ..................................................................24
Chѭѫng 3.MÔ HÌNH CÀI ĈҺT......................................................25
3.1. Các mô hình thêm dҩu ÿã ÿѭӧc sӱ dөng...................................................26
3.1.1. VietPad .........................................................................................................26
3.1.1.1. Mô hình thêm dҩu tiӃng ViӋt ..................................................................26
3.1.1.1.1. TiӅn xӱ lý ............................................................................................26
3.1.1.1.2. Tách token...........................................................................................27
3.1.1.1.3. Lҩy ra các tӯ không dҩu, chuyӇn thành tӯ có dҩu .................................27
3.1.2. VnMark ........................................................................................................28
7
3.1.2.1. Mô hình thêm dҩu tiӃng ViӋt ..................................................................28
3.1.2.1.1. TiӅn xӱ lý ............................................................................................30
3.1.2.1.2. Tách câu ..............................................................................................30
3.1.2.1.3. Tìm các khҧ năng ÿánh dҩu cӫa tӯ, câu ................................................30
3.1.2.2. Mô hình huҩn luyӋn................................................................................31
3.2. Mô hình ÿӅ xuҩt..........................................................................................32
3.2.1. Mô hình.........................................................................................................32
3.2.1.1. Tách câu .................................................................................................33
3.2.1.2. Tách tӯ bҵng phѭѫng pháp LRMM.........................................................34
3.2.1.3. Chӑn tӯ thích hӧp ...................................................................................34
3.2.2. Mô hình huҩn luyӋn .....................................................................................36
3.2.2.1. Thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ ..........................................................36
3.2.2.1.1. Xây dӵng kho ngӳ liӋu.........................................................................36
3.2.2.1.2. Thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ .......................................................37
3.2.2.1.3. Tҥo tӯÿLӇn chuyӇn ÿәi ........................................................................38
3.2.2.2. Trích xuҩt các cөm tӯ thѭӡng sӱ dөng ....................................................39
3.2.3. So sánh mô hình này vӟi 2 mô hình trên .....................................................41
Chѭѫng 4.CÀI ĈҺT THӰ NGHIӊM.............................................43
4.1. Thӕng kê tҫn sӕ xuҩt hiӋn cӫa tӯ...............................................................44
4.1.1. Xây dӵng kho ngӳ liӋu text tӯ báo ÿLӋn tӱ ..................................................44
4.1.2. Tách câu........................................................................................................48
4.1.3. Tách tӯ và thӕng kê......................................................................................50
4.2. 7ҥo tұp tin tӯÿLӇn chính............................................................................52
4.3. 7ҥo tұp tin tӯÿLӇn cөm tӯ .........................................................................55
4.3.1. 7ҥo kho dӳ liӋu tinh giҧn mӟi......................................................................55
4.3.2. 7ҥo tұp tin tӯÿLӇn cөm tӯ ...........................................................................58
4.4. Chѭѫng trình chính....................................................................................58
4.4.1. Chѭѫng trình VietEditor..............................................................................59
4.4.2. Chѭѫng trình thêm dҩu qua Clipboard.......................................................60
4.5. Thӱ nghiӋm ................................................................................................62
Chѭѫng 5. ӂT QUҦ, HѬӞNG PHÁT TRIӆN .............................63
5.1. +ҥn chӃ và hѭӟng phát triӇn .....................................................................64
5.2. .Ӄt luұn ......................................................................................................64
Phө lөc : Cҩu trúc kho ngӳ liӋu ......................................................67
8
DANH MӨC HÌNH
Hình 1.2.1-1 : Thêm ḓu ti͇ng Vi͏t tÿ͡ng b̹ng AMPad......................................................12
Hình 1.2.2-2 : Gõ ti͇ng Vi͏t không ḓu trên VietPad .............................................................12
Hình 1.2.2-3 : Văn b̫n sau khi thc hi͏n chͱc năng thêm ḓu ti͇ng Vi͏t cͯa VietPad ...........13
Hình 1.2.3-4 : Gõ ti͇ng Vi͏t không ḓu trên EasyVn..............................................................14
Hình 1.2.3-5 : Văn b̫n sau khi tÿ͡ng thêm ḓu trên EasyVn ..............................................14
Hình 1.2.4-6 : S˯ÿ͛ k͇t c̭u âm ti͇ng Vi͏t.............................................................................17
Hình 3.1.1-7 : L˱u ÿ͛ thc hi͏n cͯa mô hình ͱng dͭng trong VietPad...................................26
Hình 3.1.2-8 : L˱u ÿ͛ thc hi͏n cͯa mô hình n-gram ............................................................29
Hình 3.2-9: L˱u ÿ͛ thc hi͏n cͯa mô hình ÿ͉ xṷt ................................................................33
Hình 3.2-10 : T̵p tin m̳u sau khi th͙ng kê t̯n sṷt tͳ ..........................................................38
Hình 3.2-11 : Trích t̵p tin TuDienChinh.txt ..........................................................................39
Hình 3.2-12 : Trích t̵p tin CumTu.txt....................................................................................41
Hình 4.1.1-13: Giao di͏n ch˱˯ng trình HTML2TXT ..............................................................44
Hình 4.1.1-14: C̭u hình cͯa ch˱˯ng trình HTML2TXT.........................................................45
Hình 4.1.1-15 : M͡t trang báo thanh niên..............................................................................47
Hình 4.1.1-16 : 'ͷ li͏u ÿ˱ͫc tách tͳ trang báo Thanh niên...................................................48
Hình 4.1.2-17: Giao di͏n ch˱˯ng trình Tách Câu..................................................................49
Hình 4.1.2-18: Tͳ vi͇t t̷t cung c̭p cho ch˱˯ng trình Tách Câu............................................49
Hình 4.1.2-19: N͡i dung file k͇t xṷt cͯa ch˱˯ng trình Tách Câu .........................................50
Hình 4.1.3-20: Giao di͏n module tách tͳ...............................................................................51
Hình4.1.3-21: N͡i dung t̵p tin th˱ mͭc ngu͛n ......................................................................51
Hình 4.1.3-22: N͡i dung t̵p tin tͳÿL͋n .................................................................................52
Hình 4.1.3-23: N͡i dung t̵p tin k͇t qu̫.................................................................................52
Hình 4.1.3-24: Giao di͏n ch˱˯ng trình t̩o tͳÿL͋n chính.......................................................53
Hình 4.1.3-25 : Trích 1 ph̯n TuDienChinh.txt.......................................................................54
Hình 4.1.3-26 : Trích 1 ph̯n TuDienPhanLop.txt.................................................................54
Hình 4.1.3-27: Trích 1 ph̯n KhoCau.txt................................................................................55
Hình 4.3.1-28: Giao di͏n ch˱˯ng trình t̩o kho dͷ li͏u tinh gi̫n ...........................................56
Hình 4.3.1-29 : Trích 1 ph̯n th˱ mͭc k͇t xṷt .......................................................................57
Hình 4.3.1-30 : Th˱ mͭc con _a trong th˱ mͭc k͇t xṷt.........................................................57
Hình 4.3.2-31: Giao di͏n ch˱˯ng trình t̩o t̵p tin cͭm tͳ .....................................................58
Hình 4.4.1-32: Giao di͏n ch˱˯ng trình chính VietEditor .......................................................59
Hình 4.4.2-33: Giao di͏n ch˱˯ng trình chính thêm ḓu Clipboard ........................................60
Hình 4.4.2-34: Test ch˱˯ng trình thêm ḓu Clipboard...........................................................61
Hình 5.2-35 : T̵p tin kho ngͷ li͏u m̳u .................................................................................69
Chѭѫng 1. 7ӘNG QUAN
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
10
1.1. Giӟi thiӋu vӅ bài toán Thêm dҩu tiӃng ViӋt vào
Yăn bҧn không dҩu
1.1.1. Phát biӇu bài toán
Bài toán có thӇÿѭӧc phát biӇu nhѭ sau : Cho mӝt văn bҧn tiӃng ViӋt không
Gҩu. ChuyӇn văn bҧn không dҩu này thành có dҩu vӟi ÿӝ chính xác cao.
ChӍ sӱ dөng tӯÿLӇn tӯ và kho ngӳ liӋu thô làm ÿҫu vào.
Khái niӋm tӯӣÿây là “tӯ tӯÿLӇn” – tӭc là các tӯÿѫn, tӯ ghép và cөm tӯ
ÿѭӧc lѭu trong tӯÿLӇn.
ChӍ xӱ lý các văn bҧn tiӃng ViӋt có mã Unicode.
1.1.2. Ĉһc ÿLӇm
Chӳ viӃt tiӃng ViӋt có 1 ÿһc ÿLӇm rҩt hay là sӵ xuҩt hiӋn cӫa các dҩu thanh
FNJng nhѭ dҩu cӫa các ký tӵ. ViӋc có dҩu thanh và dҩu cӫa ký tӵ này làm phong
phú thêm cho ngôn tӯ tiӃng ViӋt, và cNJng góp phҫn tăng ÿӝ biӇu cҧm cӫa tiӃng
ViӋt.
'ҩu thanh là 1 thành phҫn “bҩt khҧ phân” trong âm tiӃt tiӃng ViӋt [8]. Khi
loҥi bӓ dҩu thanh, viӋc hiӇu nghƭa cӫa tӯ, gӗm 1 hay nhiӅu âm tiӃt kӃt hӧp vӟi
nhau, trӣ nên khó khăn và dӉ gây hiӇu lҫm.
ĈӇ thêm dҩu, trѭӟc