• Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 8: Phản hồi thông tin - Lê Thanh HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 8: Phản hồi thông tin - Lê Thanh Hương

    Nhược điểm của việc bỏ từ dừng „ Có thể bỏ tên người như “The” „ Các từ dừng có thể là thành phần quan trọng của đoạn. Ví dụ, 1 câu nói của Shakepeare: “to be or not to be” „ Một số từ dừng (vd., giới từ) cung cấp các thông tin quan trọng về mối quan hệ „ Bộ nhớ ngày nay đã rẻ hơn Æ tiết kiệm bộ nhớ không còn là vấn đề quan trọng như trước...

    pdf10 trang | Chia sẻ: thanhle95 | Ngày: 01/07/2021 | Lượt xem: 551 | Lượt tải: 1

  • Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 7: Phân loại văn bản - Lê Thanh HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 7: Phân loại văn bản - Lê Thanh Hương

    Các đặc trưng trong SpamAssassin 100 From: địa chỉ trong danh sách đen 4.0 Người gửi trong danh sách www.habeas.com Habeas Infringer 3.994 Ngày không hợp lệ: tiêu đề (timezone không tồn tại) 3.970 Viết bằng 1 ngôn ngữ lạ 3.910 Liệt kê trong Razor2, 3.801 Tiêu đề là các ký tự lấp đầy 8-bit 3.472 Thông báo tuân theo Senate Bill 1618 3.437 ex...

    pdf4 trang | Chia sẻ: thanhle95 | Ngày: 01/07/2021 | Lượt xem: 574 | Lượt tải: 1

  • Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 7: Phân lớp văn bản tiếng Việt theo hướng tiếp cận Lexical Chain - Lê Thanh HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 7: Phân lớp văn bản tiếng Việt theo hướng tiếp cận Lexical Chain - Lê Thanh Hương

    Thuật toán Cây quyết định ƒ Cây quyết định gồm các nút quyết định, các nhánh và lá : ƒ Mỗi lá gắn với một nhãn lớp, ƒ Mỗi nút quyết định mô tả một phép thử X nào đó, ƒ Mỗi nhánh của nút này tương ứng với một khả năng của X. ƒ Ý tưởng: Phân lớp một tài liệu dj bằng phép thử đệ quy các trọng số mà các khái niệm được gán nhãn cho các nút trong c...

    pdf6 trang | Chia sẻ: thanhle95 | Ngày: 01/07/2021 | Lượt xem: 584 | Lượt tải: 1

  • Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 7: Phân loại tin tự động cho báo điện tử - Lê Thanh HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 7: Phân loại tin tự động cho báo điện tử - Lê Thanh Hương

    3.Chương trình thực nghiệm Mô hình „ Phần tiền xử lý văn bản làm các công việc như tách thuật ngữ, phân tích tổ chức dữ liệu, tổ chức từ điển. „ Pha lập nhóm văn bản, sử dụng thuật toán Apriori và FIHC. „ Khi phân loại một văn bản mới ứng dụng chỉ việc đọc các thông tin về vector trọng tâm, so sánh với văn bản đầu vào đã được vector hóa Æ q...

    pdf4 trang | Chia sẻ: thanhle95 | Ngày: 01/07/2021 | Lượt xem: 535 | Lượt tải: 1

  • Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 6: Dịch máy - Lê Thanh HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 6: Dịch máy - Lê Thanh Hương

    Ý tưởng gióng hàng Mô hình dịch TM không quan tâm đến chuỗi đúng các từ tiếng Anh Sử dụng cách tiếp cận gán nhãn: 18 • 1 từ tiếng Anh(“tag”) ~ 1 từ tiếng Pháp (“word”) → không thực tế: thậm chí số từ trong 2 câu không bằng nhau → sử dụng “gióng hàng”. Gióng hàng câu: tìm các nhóm câu trong 1 ngôn ngữ tương ứng với các nhóm câu khác trong ...

    pdf12 trang | Chia sẻ: thanhle95 | Ngày: 01/07/2021 | Lượt xem: 588 | Lượt tải: 2

  • Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 5: Nghĩa từ vựng và phân giải nhập nhằng từ (Phần 2) - Lê Thanh HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 5: Nghĩa từ vựng và phân giải nhập nhằng từ (Phần 2) - Lê Thanh Hương

    Phân loại từ đồng âm tiếng Việt Đồng âm từ với từ, gồm: Đồng âm từ vựng: Tất cả các từ đều thuộc cùng một từ loại. Ví dụ: đường1 (đắp đường) - đường2 (đường phèn). đường kính1 (đường để ăn) - đường kính2 ( của đường tròn). cất1 (cất vó) - cất2 (cất tiền vào tủ) - cất3 (cất hàng) - cất4 (cất rượu) Đồng âm từ vựng-ngữ pháp: Các từ trong nhóm ...

    pdf7 trang | Chia sẻ: thanhle95 | Ngày: 01/07/2021 | Lượt xem: 558 | Lượt tải: 1

  • Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 5: Phân tích ngữ nghĩa (Phần 1) - Lê Thanh HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 5: Phân tích ngữ nghĩa (Phần 1) - Lê Thanh Hương

    Thế nào được coi là hiểu? nếu có thể sử dụng nội dung đó để trả lời câu hỏi Dễ: Mai ăn kẹo. Æ Mai ăn gì? Khó: Nước đi đầu tiên của quân trắng là P-Q4. Æ Quân đen có thể chiếu tướng không? nếu có thể dịch: phụ thuộc vào ngôn ngữ đích Anh – Anh? Anh – Pháp? có thể được Anh – logic ? cần hiểu sâu tất cả loài cá đều biết bơi = ∀...

    pdf5 trang | Chia sẻ: thanhle95 | Ngày: 01/07/2021 | Lượt xem: 594 | Lượt tải: 1

  • Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 4: Phân tích cú pháp xác suất (Phần 2) - Lê Thanh HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 4: Phân tích cú pháp xác suất (Phần 2) - Lê Thanh Hương

    Văn phạm phi ngữ cảnh (Context-Free Grammar) còn gọi là văn phạm cấu trúc đoạn G = T – tập các ký hiệu kết thúc (terminals) N - tập các ký hiệu không kết thúc (non-terminals) P – ký hiệu tiền kết thúc (preterminals), khi viết lại trở thành ký hiệu kết thúc P ⊂ N S – ký hiệu bắt đầu R: X → γ , X là ký hiệu không kết thúc;...

    pdf19 trang | Chia sẻ: thanhle95 | Ngày: 01/07/2021 | Lượt xem: 575 | Lượt tải: 1

  • Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 4: Phân tích cú pháp xác suất - Lê Thanh HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 4: Phân tích cú pháp xác suất - Lê Thanh Hương

    Kết hợp từ (bigrams pr) Ví dụ: Eat ice-cream (high freq) Eat John (low, except on Survivor) Nhược điểm: P(John decided to bake a) có xác suất cao Xét: P(w3) = P(w3|w2w1)=P(w3|w2)P(w2|w1)P(w1) Giả thiết này quá mạnh: chủ ngữ có thể quyết định bổ ngữ trong câu Clinton admires honesty sử dụng cấu trúc ngữ pháp để dừng việc lan truyền Xé...

    pdf6 trang | Chia sẻ: thanhle95 | Ngày: 01/07/2021 | Lượt xem: 646 | Lượt tải: 1

  • Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 3: Gán nhãn từ loại - Lê Thanh HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 3: Gán nhãn từ loại - Lê Thanh Hương

    Tại sao cần gán nhãn? Dễ thực hiện: có thể thực hiện bằng nhiều phương pháp khác nhau Các phương pháp sử dụng ngữ cảnh có thể đem lại kết quả tốt Mặc dù nên thực hiện bằng phân tích văn bản Các ứng dụng: Text-to-speech: record - N: [‘reko:d], V: [ri’ko:d]; lead – N [led], V: [li:d] Tiền xử lý cho PTCP. PTCP thực hiện việc gán nhãn tốt ...

    pdf13 trang | Chia sẻ: thanhle95 | Ngày: 01/07/2021 | Lượt xem: 545 | Lượt tải: 1