Làm quen với phần mềm khai thác dữ liệu Clementine 12.0 - Tài liệu, ebook, giáo trình, hướng dẫn

File: (Stream, Managers, Project, Outputs) khời tạo, mởcác file có sẵn, lưu file Edit: Các lựa chọn undo, cắt/dán, delete, rename trên file (stream, models, project, outputs) Insert: Thực hiện một sốcác thao tác trên dữliệu (chức năng gần giống nhưthanh Palette) View: tắt/m ởthanh công cụ, Palette, Managers, Project. Tools : một sốcác tùy chọn nâng cao: tạo mật khNu, quản lý các palette

40 trang | Chia sẻ: haohao89 | Lượt xem: 3833 | Lượt tải: 3

Bạn đang xem trước 20 trang tài liệu Làm quen với phần mềm khai thác dữ liệu Clementine 12.0, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 1 LÀM QUEN VỚI PHẦM MỀM KHAI THÁC DỮ LIỆU CLEMENTINE 12.0 1. Cửa sổ làm việc: Hình 1.1: Cửa sổ làm việc của clementine File: (Stream, Managers, Project, Outputs) khời tạo, mở các file có sẵn, lưu file… Edit: Các lựa chọn undo, cắt/dán, delete, rename… trên file (stream, models, project, outputs) Insert: Thực hiện một số các thao tác trên dữ liệu (chức năng gần giống như thanh Palette) View: tắt/mở thanh công cụ, Palette, Managers, Project. Tools : một số các tùy chọn nâng cao: tạo mật khNu, quản lý các palette… 1.1 Cửa sổ chính: Stream (lưu đồ làm việc): Là khu vực lớn nhất của cửa sổ Clementine, là nơi mà bạn sẽ xây dựng và thao tác trên dữ liệu. Stream được tạo ra bằng cách giống như vẽ một lưu đồ, cách thức để khai thác dữ liệu. Mỗi hoạt động được đại diện bởi một biểu tượng hoặc node, và các node liên kết với nhau trong một dòng, giống như cho dòng chảy của dữ liệu thông qua mỗi hoạt động. Bạn có thể làm việc ( thực hiện nhiều lưu đồ) cùng một lúc trong stream, hoặc mở một stream mới . Trong một phiên, stream được lưu trữ trong thanh managers , ở phía trên bên phải của cửa sổ Clementine. 1.2 Các Palette nodes: Hầu hết các dữ liệu và công cụ mô hình hóa trong Clementine cư trú trong bảng các nút, phía dưới cùng của cửa sổ . Streams managers project palette Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 2 Để thêm các node vào dòng dữ liệu , kích đúp vào biểu tượng từ các Palette Nodes hoặc kéo và thả chúng vào stream. Sau đó kết nối chúng để tạo ra một dòng, đại diện cho dòng chảy của dữ liệu. Mỗi palette nodes chứa một bộ sưu tập của các nút liên quan, sử dụng cho các giai đoạn khác nhau của các hoạt động dòng chảy, chẳng hạn như: • Sources (nguồn): Các nút xác định nguồn dữ liệu lấy vào Clementine. • Record Ops. (Tác vụ trên các dòng dữ liệu): Các nút thực hiện các hoạt động trên các dữ liệu, chẳng hạn như lựa chọn, hợp nhất, và phụ thêm. • Field Ops. (Tác vụ trên các trường/biến): Các nút thực hiện các hoạt động trên các trường/biến của dữ liệu, như lọc, phát sinh các lĩnh vực mới, và xác định các kiểu dữ liệu cho các lĩnh vực nhất định. • Graphs (Đồ thị): các nút đồ họa hiển thị dữ liệu trước và sau khi thực hiện các bước khai thác dữ liệu dưới dạng đồ thị. • Modeling (Mô hình hóa): Các nút sử dụng mô hình hóa các thuật toán có sẵn trong Clementine, như mạng thần kinh, cây quyết định, các thuật toán clustering, và sắp xếp dữ liệu. • Output: Các nút xuất một loạt các dữ liệu, bảng biểu, và kết quả mô hình, có thể được xem trong Clementine hoặc gửi trực tiếp đến một ứng dụng khác, chẳng hạn như SPSS hoặc Excel. 1.2.a Giới thiệu Sources nodes: Chọn node Sources: Bạn có thể chọn một số nguồn lưu trữ dữ liệu, ví dụ ở đây bạn chọn nguồn là SPSS, bạn nhấp đúp chọn biểu tượng SPSS File kéo thả vào Stream. Hình 1.2: Chọn nguồn dữ liệu là file SPSS Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 3 Sau đó bạn nhấp đúp vào biều tượng để hướng dẫn đến file dữ liệu spss : Hình 1.3: Cửa sổ khai báo nguồn dữ liệu file SPSS Import file: Chọn đường dẫn cho file dữ liệu Filter : mặc định sẽ chọn toàn bộ dữ liệu, bạn có thể chọn hạn chế một số biến để phục vụ cho mục đích của bạn. Types: mặc định sẽ là những gì bạn định nghĩa trên file dự liệu gốc, bạn có thể thay đổi: kiểu giá trị(types), values, missing Khi có được dữ liệu, chọn apply rồi ok. Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 4 Hình 1.4: cửa sổ khai báo dữ liệu file excel Các nút nguồn Excel cho phép bạn nhập dữ liệu từ bất kỳ phiên bản của Microsoft Excel. Import file: Chỉ định tên và vị trí của tập tin excel để nhập vào. Use named range: Cho phép bạn chỉ định một loạt tên của các cột được định nghĩa trong bảng tính Excel. Nhấp vào nút chọn(...) để chọn từ danh sách các phạm vi có sẵn. Tất cả các hàng trong phạm vi quy định được trả về, bao gồm cả các hàng trống. Với các tên được sử dụng, vùng dữ liệu còn lại sẽ không có giá trị không thể khai thác được. Worksheet: Chỉ định worksheet được chọn vào, bằng chỉ số hay theo tên: • Index. Xác định giá trị chỉ số cho các worksheet mà bạn chọn vào, bắt đầu bằng 0 cho các bảng tính đầu tiên, 1 cho các bảng tính thứ hai, và như vậy. • Name. Chỉ định tên của worksheet mà bạn chọn vào. Nhấp vào nút (...) để chọn từ danh sách các worksheet sẵn. Data range: Bạn có thể nhập dữ liệu bắt đầu với các hàng không trống đầu tiên hoặc với một phạm vi rõ ràng: • First non-blank row: Định vị các biến không trống đầu tiên và sử dụng bắt đầu từ góc trên bên trái của vùng dữ liệu. Nếu gặp một hàng trống tiếp theo, bạn có thể chọn để ngừng đọc (stop reading) hoặc chọn hàng trở lại trống để tiếp tục đọc tất cả dữ liệu vào cuối của bảng tính (return blank rows), bao gồm cả các hàng trống. • Explicit range: Cho phép bạn chỉ định một phạm vi rõ ràng của hàng hoặc cột (ví dụ, Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 5 A3: G178). Tất cả các hàng trong phạm vi quy định được trả về, bao gồm cả các hàng trống. First row contains field names :Hàng đầu tiên chứa tên biến. Chỉ ra rằng hàng đầu tiên trong phạm vi quy định nên được sử dụng như trường tên. Nếu không được chọn, tên trường được tạo ra tự động. Lưu ý: Theo mặc định, với các cột (biến) chứa hai hay nhiều hơn kiểu(type) dữ liệu số và chuỗi, một trong hai giá trị đó sẽ bị mất ( không có giá trị giống như trong spss) trong Clementine. không giống như Excel-Clementine không cho phép lưu trữ các loại hỗn hợp trong một biến. Để tránh điều này, bạn có thể tự thiết lập các định dạng của ô văn bản trong các bảng tính Excel, tạo ra các giá trị (bao gồm số) để đọc. 1.2.b Giới thiệu Record Operations: Các nút được sử dụng để thay đổi dữ liệu. Các hoạt động này rất quan trọng trong việc hiểu và chuNn bị dữ liệu cho khai thác dữ liệu bởi vì chúng cho phép bạn chỉnh các dữ liệu cho nhu cầu riêng của mình. The select node: chọn hoặc loại bỏ một tập hợp các dòng dữ liệu dựa trên một điều kiện cụ thể. Ví dụ, bạn có thể chọn dữ liệu ở một khu vực nhất định. ví dụ: tp (thành phố) = 1 (thành phố HCM). Đây là cửa sổ làm việc của nút select: Hình 1.5: Bảng select Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 6 Mode: Chỉ định xem dòng dữ liệu sẽ được chọn hoặc loại trừ khi thỏa mãn điều kiện. • Include. Chọn bao gồm các dòng dữ liệu đáp ứng các điều kiện lựa chọn. • Discard. Chọn để loại trừ các hồ sơ đáp ứng các điều kiện lựa chọn. Condition: Hiển thị các điều kiện lựa chọn sẽ được sử dụng để kiểm tra mà bạn tự nhập vào một biểu hiện trong cửa sổ hoặc sử dụng Expression Builder bằng cách nhấn vào máy tính (Expression Builder) nút bên phải của cửa sổ. Select node cũng được sử dụng để lấy mẫu. Thông thường, bạn sẽ sử dụng một nút sample cho hoạt động này. Tuy nhiên, nếu điều kiện bạn muốn xác định là phức tạp hơn các thông số được cung cấp, bạn có thể tạo điều kiện riêng của bạn bằng cách sử dụng nút Select. Ví dụ tp (thành phố) = 1 random(40) the sample node :Các nút lựa chọn mẫu cho tập hợp các hồ sơ. Một loạt các loại mẫu được hỗ trợ, bao gồm phân tầng, tập trung, và không ngẫu nhiên (cấu trúc) mẫu. Lấy mẫu có thể hữu ích để cải thiện hiệu suất, và để chọn nhóm các hồ sơ liên quan, giao dịch để phân tích. Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 7 Hình 1.5: Bảng sample Sample method : simple Mode: Chọn (bao gồm) hoặc loại trừ các hồ sơ cho các phương thức sau đây: Chọn phương pháp lấy mẫu từ các tùy chọn sau: • First. Chọn lấy bao hồ sơ đầu tiên của dữ liệu. Ví dụ, nếu kích thước mẫu tối đa được thiết lập là 10.000, bạn sẽ được 10.000 hồ sơ đầu tiên. • 1-trong-n. Chọn để dữ liệu mẫu bằng cách hoặc vứt bỏ mọi kỷ lục thứ n. Ví dụ, nếu n là thiết lập đến 5,các hồ sơ sẽ được lấy là 5,10, 15, 20.... • Random%. Chọn mẫu ngẫu nhiên một tỷ lệ phần trăm của dữ liệu. Ví dụ, nếu bạn thiết lập các tỷ lệ phần trăm đến 20, thì 20% dữ liệu sẽ được chọn . The balance node: Các nút chỉnh cân bằng sự mất cân bằng trong bộ dữ liệu, vì vậy nó phù hợp với một điều kiện quy định. Các chỉ thị điều chỉnh cân bằng tỷ lệ của hồ sơ mà điều kiện là đúng sự thật bởi các yếu tố quy định. The Aggregate node: Nút tổng hợp thay thế một chuỗi các hồ sơ đầu vào với tóm tắt, tổng hợp hồ sơ đầu ra The recency, frequency, monetary (RFM): The sort node: Xếp loại các hồ sơ tăng hoặc giảm dựa trên các giá trị của một hay nhiều tiêu chí The merge node: Các nút Merge có nhiều hồ sơ đầu vào và tạo ra một bản ghi đầu ra duy nhất có chứa một số hoặc tất cả các lĩnh vực đầu vào. Nó rất hữu ích cho việc sáp nhập dữ liệu từ nhiều nguốn khác nhau. The distinct node: Loại bỏ các hồ sơ The append node: Các nút Thêm hồ sơ, Nó rất hữu dụng cho việc kết hợp các bộ dữ liệu với cấu trúc tương tự nhưng dữ liệu khác nhau. Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 8 1.2.c. Giới thiệu Field operations: Sau khi thăm dò dữ liệu ban đầu, có thể bạn sẽ phải lựa chọn, sạch sẽ, hoặc xây dựng dữ liệu để chuNn bị cho phân tích. Các lĩnh vực hoạt động bảng chứa nhiều các nút hữu ích cho việc chuyển đổi này và chuNn bị. the type node: Nút xác định kiểu dữ liệu. Thiết lập vai trò của các biến cho các mục đích xây dựng mô hình, xác định kiểu dữ liệu, giá trị…cho biết dữ liệu được lưu trữ như là chuỗi, số nguyên, số thực, ngày tháng, thời gian Hình 1.5: Cửa sổ khai báo type • Values: Bạn có thể sử dụng toàn bộ những values đã có ở file gốc bằng cách chọn Read Values, hoặc tạo mới bằng cách ở cột Values bạn chọn specify. Các nhãn mà bạn chỉ định trong nút hình được hiển thị trong suốt Clementine tùy thuộc vào các lựa chọn bạn thực hiện trong các thuộc tính dòng hộp thoại. • Missing values. Được sử dụng để xác định các giá trị sẽ được coi như là khoảng trắng. • Value checking. Trong cột Kiểm tra, bạn có thể thiết lập các tùy chọn để đảm bảo rằng giá trị trường phù hợp với phạm vi quy định. Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 9 the filter node: Lọai bỏ một số biến the reclassify node: Phân loại lại nút chuyển đổi một tập các giá trị rời rạc khác. Phân loại lại rất hữu dụng cho thu gọn danh mục hoặc tập hợp dữ liệu để phân tích. the bining node: Các nút Binning tự động tạo ra các lĩnh vực thiết lập mới dựa trên các giá trị của một hoặc nhiều dãy số hiện tại. Ví dụ, bạn có thể chuyển đổi một lĩnh vực thu nhập quy mô vào một lĩnh vực phân loại mới có chứa các nhóm thu nhập như là độ lệch trung bình. Một khi bạn đã tạo ra cho các lĩnh vực mới, bạn có thể tạo ra một nút thu được dựa trên các điểm cắt. Nếu bạn có cài đặt SPSS và được cấp phép trên máy tính của bạn, các Transform SPSS, hoặc dữ liệu chuNn bị, nút chạy một lựa chọn các lệnh cú pháp của SPSS so với các nguồn dữ liệu trong Clementine. the Partition node Các nút phân vùng tạo ra một lĩnh vực phân vùng, trong đó chia tách các dữ liệu vào tập hợp con riêng cho việc đào tạo, thử nghiệm, và các giai đoạn xác thực của việc xây dựng mô hình. the restructure node Các nút sắp xếp chuyển đổi một lĩnh vực thiết lập hoặc cờ vào một nhóm các lĩnh vực có thể được đặt các giá trị của lĩnh vực nào khác the transpose node:Các nút Transpose giao dịch hoán đổi các dữ liệu trong các hàng và cột để ghi lại trở thành lĩnh vực và các lĩnh vực trở thành hồ sơ. 1.2.d Export node: Cung cấp một cơ chế xuất dữ liệu trong các định dạng khác nhau để giao tiếp với các công cụ phần mềm khác của bạn. Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 10 Các nút xuất SPSS đầu ra dữ liệu trong SPSS. Định dạng SAV. Các file SAV. Clementine đặt tên biến cho một số biến kết quả tên SPSS đôi khi có thể gây ra lỗi bởi vì tên SPSS biến được giới hạn đến 64 ký tự và không thể bao gồm một số ký tự, chẳng hạn như dấu cách, dấu hiệu đồng đô la ($), và dấu gạch ngang (-). Có hai cách để điều chỉnh cho những hạn chế này: Hình 1.5: Cửa sổ khai báo các biến được xuất ra trên file SPSS • Bạn có thể đổi tên các lĩnh vực phù hợp với yêu cầu SPSS tên biến bằng cách chọn biểu tượng lọc/ chọn Rename for SPSS. để đổi tên hoặc lọc Fields cho SPSS Export: Export field names. Chỉ định một phương pháp xử lý tên biến và nhãn khi xuất từ Clementine cho một SPSS file SAV.. • Names and variable labels:Tên và nhãn biến. Tên được xuất như tên biến SPSS, trong khi nhãn được xuất khNu như nhãn biến SPSS. • Names as variable labels: Tên là nhãn biến. Chọn để sử dụng các tên trường Clementine làm nhãn biến trong SPSS. Clementine cho phép ký tự trong tên trường mà không hợp lệ trong tên biến SPSS. Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 11 Sau khi đã có đựơc những gì mong muốn chon. Execute 2. Sử dụng chuột trong Clementine: Việc sử dụng phổ biến nhất của con chuột trong Clementine bao gồm: • Single-click. Sử dụng hoặc bên phải hoặc nút chuột trái để chọn các tùy chọn từ menu, menu ngữ cảnh mở, và truy cập các điều khiển khác tiêu chuNn và tùy chọn. Nhấp và giữ nút để di chuyển và kéo các nút. • Kích đúp vào. Click đôi vào sử dụng nút chuột trái để đặt các nút trên khung dòng và chỉnh sửa các nút hiện có. • Trung-click. Nhấp vào nút chuột giữa và kéo con trỏ để kết nối các nút trên khung dòng. Nhấn đúp chuột vào nút chuột giữa để ngắt kết nối một nút. Nếu bạn không có một con chuột có ba cái nút, bạn có thể giả lập tính năng này bằng cách nhấn phím Alt trong khi click và kéo chuột. 3.Làm việc với Clementine là một quá trình ba bước về làm việc với dữ liệu. • Trước tiên, bạn đọc dữ liệu vào Clementine, • Sau đó, chạy dữ liệu thông qua một loạt các thao tác, • Và cuối cùng, gửi dữ liệu đến một đích đến. Chuỗi các hoạt động này được biết đến như một dòng dữ liệu vì dữ liệu lưu trữ từ các nguồn thông qua thao tác để có được thông tin mong muốn cuối cùng, được chuyển đến là một mô hình, biểu đồ hay kiểu dữ liệu đầu ra. 4.Phân tích cụm: Trước tiên bạn phải đọc dữ liệu, như phần giới thiệu ở trên. Và để thống nhất kiểu dữ liệu cho mô hình phân tích cụm ta chọn type (ở Filed Ops) để khai báo lại kiểu scale cho toàn bộ các biến: Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 12 Hình 4.1: Strean chun bị dữ liệu Đây là bước chuNn bị cho một bộ dữ liệu đã sẵn sàng cho các yêu cầu tiếp theo của bạn. Ở một số các mô hình phân cụm, bạn thường chia dữ liệu thành hai phần, một phần thực hiện và một phần kiểm tra, tôi giới thiệu cho bạn một node partition để làm việc này: Field Ops/ Partition, bạn chọn node Partition bò vào cửa sổ làm việc. Bạn nhớ kết nối chúng lại thành một dòng chảy bằng các mũi tên nhé. Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 13 Hình 4.2: Cửa sổ làm việc Partition Partition field: Tên sẽ được tự động hiển thị theo lệnh được yêu cầu ở đây là Partition, bạn có thể đặt tên khác không vấn đề gì. Partitions: Train and test : bạn có thể chia mẫu làm hai thực hiện và kiểm tra Train,test and validation : thực hiện, kiểm tra và xác nhận Training partition size : % mẫu để thực hiện Testing partition size : % mẫu để kiểm tra Validation partition size : % mẫu để xác nhận Values : bạn muốn chúng hiển thị kết quả như thế nào : Use system-defined values : chỉ hiển thị số tương ứng ví dụ : 1 : “training” Append labels to system-defined values hiển thị số và labels Use labels as vaules : hiển thị labels :training Set random seed Seed : ( vì cách lấy mẫu là ngẫu nhiên do đó, khi bạn thực hiện những lần khác nhau, hoặc trên các máy khác nhau sẽ được kết quả khác nhau và không thể so sánh được) ở đây bạn nên khai báo một số cụ thể và nhớ mãi con số này để những lần sau bạn chạy lại vẫn đạt được kết quả như lần đầu. Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 14 Hình 4.3: Cửa sổ làm việc Partition sau khi khai báo Thực hiện phân cụm : k-means và two Step. Ở thanh Palette chọn Modeling node/ Segmentation/ chọn K-Means và Two Step Hình 4.4: Stream với lựa chọn các node phân cụm Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 15 Với kỹ thuật K-Means sẽ có bản sau: Hình 4.5: Cửa sổ K-Means Model name: Tự hiển thị tên theo lệnh thực hiện, hoặc bạn có thể đặt tên lại cho lệnh này “phan cum” hay tùy ý bạn. Use partitioned data: Sử dụng dữ liệu phân vùng. Nếu trước đó dữ liệu của bạn đã thực hiện lệnh Partition. Number of clusters:. Xác định số lượng cụm để tạo ra. (Mặc định là 5), Ở đây chúng ta chọn 2 Generate distance field : khoảng cách từ mỗi quan sát (hồ sơ) đến trung tâm cụm Show cluster proximity: Khoảng cách giữa các trung tâm cụm Cluster label : Tên thành viên cụm, String kiểu chuỗi (ví dụ "Cluster1", "cluster2", vv), hoặc number số 1,2. Lưu ý thông thường, clementine sẽ tự động bê tất cả các biến vào phân cụm, kể cả id (thật là buồn cười nhỉ). Vì thế, bạn cần phải giới hạn số lượng biến lại. Chọn Fields (ở góc dưới bên trái): Mặc định máy sẽ chọn Use type node settings, bạn sẽ chọn lại là Use custom settings/ chọn biểu tượng nhập vào sẽ xuất hiện bảng Select Fields như sau: Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 16 Hình 4.6: Chọn các biến vào mô hình Bạn chọn một số biến cần thiết rồi apply/ok. kết quả như sau: Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 17 Hình 4.7: Cửa sổ khai báo biến Thủ tục hoàn tất chỉ cần lệnh cho máy thực hiện Execute. Bạn để ý trên cửa sổ managers/Models sẽ hiện ra kết quả. bạn chỉ cần nhấp đúp vào biểu tượng, nó sẽ được đưa qua lưu đồ,và nhiệm vụ của bạn là gắn nó vào lưu đồ của mình, để xem kết quả bạn nhấp đúp vào biểu tượng trong lưu đồ: Hình 4.7: Kết quả trung bình cụm Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 18 Hình 4.8: Kết quả trung bình cụm bằng hình Tôi hi vọng là bạn đọc được thông tin từ hai bảng này. Chỉ lưu ý một điểm ở hình trên cột cuối cùng hiển thị tầm quan trọng của các biến trong mô hình để có thể gắn trọng số cho biến và giúp mô hình thực hiện hiệu quả hơn, ở phần sau sẽ giới thiệu bạn biểu đồ mạng nhện. Ngoài kết quả có được từ clementine bạn cũng có thể yêu cầu xuất kết quả phân cụm qua Excel hoặc vẽ một số biểu đồ mô tả như tôi. Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 19 Hình 4.8: Stream K-Means Hình 4.8: Bảng mô tả kết quả phân cụm trên dữ liệu kiểm tra Với 273 quan sát dùng làm kiểm tra có 167(150+17) quan sát phân loại đúng đạt 61,17% một tỉ lệ không cao. Kỹ thuật Two Step: Bước thực hiện khá giống với K-Means chúng ta sẽ quyết định số lượng cụm là 2: Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 20 Hình 4.8:Bảng Two Step Kết quả: Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 21 Hình 4.9:Kết quả Two Step Kết quả kiểm tra phân cụm ở kỹ thuật Two Step tốt hơn rất nhiều : Với 273 quan sát dùng làm kiểm tra có 217 (193+24) quan sát phân loại đúng đạt 79,49% một tỉ lệ cao. Toàn bộ bức tranh thụ hiện phân tích cụm, khi nắm được những nguyên tắc cơ bản, bạn có thể sáng tạo theo ý thích của mình để có được thông tin mong muốn Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 22 Hình 4.10:Steam với kỹ thuật phân cụm 5.Mạng Thần kinh: Sau khi đã có các bước chuNn bị dữ liệu: Sources (khai báo dữ liệu), type (kiểu dữ liệu), Partition(phân vùng) nếu cần. Sử dụng dữ liệu gian lận bảo hiểm để làm ví dụ, hầu hết các mô hình phân loại đạt hiệu quả kém nếu dữ liệu bị lệch (1.67% có gian lận). Do đó, chọn mẫu 120 ( 60 có gian lận, 60 không gian lận) để chạy mô hình. Chọn mô hình Neural Net ở thanh Palette : Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 23 Hình 5.1: Bảng Neural Fields/Usecustom settings/ Ở khung Targets bạn sẽ đưa biến Outcom vào, và khung Inputs bạn đưa các biến Age, Gender,Claim,Tickets,Claims,Atty vào Hình 5.2: Bảng khai báo biến Nguyễn Th