Xây dựng các kho dữ liệu trong lĩnh vực truyền thông xã hội bằng cách sử dụng các công cụ khai phá văn bản của SPSS

Tiền thân của các mạng xã hội được chúng ta biết hiện nay đã nổi lên vào cuối những năm 1960, khi các bảng tin là một trong những nền tảng chia sẻ-thông đi ệp tương tác đầu tiên. Chỉ đến gần đây—vào những năm 1990, khi Craigslist (N.D.: một mạng truyền thông trực tuyến dành cho quảng cáo) và AOL xuất hiện—cuộc cách mạng xã hội này mới phát triển nhanh chóng. Các mạng xã hội đã cất cánh vào những năm 2000, với Friendster, LinkedIn, MySpace, Flickr, Vimeo, YouTube, rồi Facebook vào năm 2004 và Twitter vào năm 2006 và gần đây nhất là Google+ và Pinterest.

13 trang | Chia sẻ: lylyngoc | Lượt xem: 1722 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Xây dựng các kho dữ liệu trong lĩnh vực truyền thông xã hội bằng cách sử dụng các công cụ khai phá văn bản của SPSS, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Xây dựng các kho dữ liệu trong lĩnh vực truyền thông xã hội bằng cách sử dụng các công cụ khai phá văn bản của SPSS Giới thiệu Tiền thân của các mạng xã hội được chúng ta biết hiện nay đã nổi lên vào cuối những năm 1960, khi các bảng tin là một trong những nền tảng chia sẻ-thông điệp tương tác đầu tiên. Chỉ đến gần đây—vào những năm 1990, khi Craigslist (N.D.: một mạng truyền thông trực tuyến dành cho quảng cáo) và AOL xuất hiện—cuộc cách mạng xã hội này mới phát triển nhanh chóng. Các mạng xã hội đã cất cánh vào những năm 2000, với Friendster, LinkedIn, MySpace, Flickr, Vimeo, YouTube, rồi Facebook vào năm 2004 và Twitter vào năm 2006 và gần đây nhất là Google+ và Pinterest. Các xu hướng kỹ thuật số, đi kèm với việc chọn dùng rộng rãi môi trường truyền thông xã hội, có tác động trực tiếp đến các doanh nghiệp khi chúng phát triển một chiến lược số dễ thay đổi cho một môi trường có nhiều thành phần di động. Trào lưu mạng xã hội thực sự đang kéo dài mối quan hệ giữa các doanh nghiệp và khách hàng. Trước khi có thương mại điện tử và các môi trường truyền thông xã hội, những người tiêu dùng đã tiến hành một số nghiên cứu về các sản phẩm và đã mua hàng có chọn lọc và mối quan hệ đó kết thúc ngay sau khi mua hàng, chỉ đến khi khách hàng mua sản phẩm tiếp theo thì mối quan hệ mới tiếp tục duy trì. Trong cách mua hàng truyền thống này, xu hướng truyền miệng của các khách hàng vẫn còn bị hạn chế. Giờ đây, khách hàng dễ dàng bày tỏ quan điểm về một sản phẩm nào đó thông qua các mạng xã hội, qua đó cũng giúp cho doanh nghiệp có thêm lượng khách hàng mới. Các doanh nghiệp biết rằng những người tiêu dùng ngày nay đang tích cực thu thập thông tin trước khi mua hàng, ở đây họ xem xét ý kiến tán thành hay không tán thành khác và dễ dàng thực hiện các so sánh về giá cả chỉ bằng một vài thao tác trên thiết bị di động. Các doanh nghiệp cũng biết rằng những người tiêu dùng của mình nhạy cảm hơn và ảnh hưởng từ những người khác trong mạng xã hội của họ, dẫn đến sự phát triển của một kiểu chương trình tạo ảnh hưởng trung thành của khách hàng mới nhằm vào việc khuyến khích và khen thưởng các cá nhân, những người có ảnh hưởng rất mạnh đến thương hiệu doanh nghiệp. Các khách hàng đang trở thành người đại diện mới cho các thương hiệu, bằng cách góp phần điều chỉnh bản sắc thương hiệu, giúp làm nên sự sống còn cho thương hiệu. Vậy thì các thương hiệu quản lý lượng thông tin tương tác kỹ thuật số này như thế nào? Công nghệ đã chạy đua để bắt kịp với sự gia tăng của người tiêu dùng xã hội. Chính các mạng xã hội đã cung cấp các công cụ thống kê và luồng dữ liệu đặc trưng của trang web, chẳng hạn như Facebook Insights, YouTube Insights và các bộ quản lý môi trường truyền thông xã hội như HootSuite và các cổng thông tin đo lường ảnh hưởng như Klout cung cấp các tùy chọn của bên thứ ba về số liệu thống kê theo dõi sự gắn bó với thương hiệu. Một loạt các công cụ thương mại để lắng nghe xã hội như Radian6, SM2, Viralheat và Sysomos, cung cấp báo cáo, phân tích văn bản, sự gắn bó với thương hiệu, phân tích tâm lý người tiêu dùng, thông tin khách đến thăm trang web và luồng công việc hứa hẹn với thương hiệu. Những công cụ này đang được cải thiện theo phạm vi và tính hữu ích, nhưng nhiều công cụ trong số đó vẫn còn ở trong giai đoạn đầu của quá trình tiến hóa. Ví dụ, việc phân tích tâm lý tiêu dùng, vẫn còn lâu mới chính xác và dữ liệu xã hội được cung cấp thông qua các dịch vụ như firehose của Twitter và được cung cấp bởi các công ty đối tác như Gnip và DataSift, vẫn còn rất đắt và bị hạn chế về bản chất của dữ liệu có sẵn. Do đó, có một lý do mạnh mẽ để tăng cường thêm cho các công cụ thương mại bằng việc khai phá văn bản ngay tại chỗ và xây dựng một kho dữ liệu từ môi trường truyền thông xã hội sở hữu độc quyền. Các kho dữ liệu từ môi trường truyền thông xã hội lưu trữ thông tin ở mức người tiêu dùng, bắt nguồn từ các tương tác của môi trường truyền thông xã hội và tất cả thông tin số có liên quan đến địa điểm, thiết bị, hành vi di động, thanh toán di động, nền tảng và tốc độ liên quan đến dữ liệu bình luận. Về đầu trang Khai phá văn bản và các phương pháp ngữ nghĩa Các mạng truyền thông xã hội đã và đang tạo ra vô số dữ liệu từ người dùng, làm thế nào để các doanh nghiệp có thể chuyển dữ liệu bình luận thô trong các mạng xã hội như Twitter, Facebook, các blog và các diễn đàn thành những hiểu biết kinh doanh? Câu trả lời nằm ở việc áp dụng công nghệ ngữ nghĩa và khai phá văn bản cho các nguồn dữ liệu không có cấu trúc này. Khai phá văn bản đề cập đến các kỹ thuật được sử dụng trong việc trích ra thông tin từ các nguồn văn bản viết khác nhau. Tại sao điều này lại quan trọng đến như vậy? Người ta đã ước tính rằng 80% thông tin liên quan đến kinh doanh nằm trong dữ liệu văn bản không có cấu trúc và nửa cấu trúc. Nói cách khác, nếu thiếu ứng dụng cho việc phân tích văn bản để tìm ra nội dung phong phú của dữ liệu được biểu diễn trong 80% đó, thì đã lãng phí tất cả dữ liệu hành vi người tiêu dùng và thông tin kinh doanh nhúng trong đó. Thuật ngữ khai phá văn bản, thường được coi là phân tích văn bản, có nhiều mục đích thực tế, chẳng hạn như các ứng dụng lọc thư rác, trích ra thông tin từ các đề xuất và các khuyến nghị trên các trang web thương mại điện tử, lắng nghe xã hội và khai phá dư luận từ các blog và các trang web phê bình, nâng cao dịch vụ khách hàng và hỗ trợ thư điện tử (email), xử lý tự động các tài liệu kinh doanh, khám phá điện tử (e-discovery) trong lĩnh vực pháp lý, đo lường sở thích của người tiêu dùng, phân tích tổn thất, phát hiện gian lận, tội phạm mạng và các ứng dụng an ninh quốc gia. Khai phá văn bản tương tự như khai phá dữ liệu ở chỗ nó được nhằm vào việc xác định các mẫu dữ liệu đáng chú ý. Mặc dù việc khai phá văn bản thủ công (cần nhiều người làm) đã nổi lên trong những năm 1980. Lĩnh vực khai phá văn bản đã trở nên quan trọng trong những năm gần đây để tinh chỉnh các thuật toán kết quả của công cụ tìm kiếm và chọn lọc thông qua các nguồn dữ liệu để khám phá các thông tin chưa biết. Tất cả các kỹ thuật như máy học, thống kê, ngôn ngữ học máy tính và khai phá dữ liệu đều được sử dụng trong quá trình này. Mục tiêu của việc khám phá tri thức từ văn bản, ví dụ, là để phát hiện ra các mối quan hệ ngữ nghĩa nằm bên dưới văn bản cũng như nội dung và bối cảnh ngụ ý với NLP (Natural Language Processing - Xử lý ngôn ngữ tự nhiên). Các quá trình này đều nhằm vào việc sử dụng NLP để sao chép lại, rồi điều chỉnh quy mô cho hợp với cùng kiểu phân biệt ngôn ngữ, nhận dạng mẫu và hiểu kết quả, diễn ra khi con người đọc và xử lý văn bản. Các phương pháp khác nhau tồn tại trong lĩnh vực khai phá văn bản. Dưới đây giới thiệu một danh sách các bước tuần tự và phổ biến liên quan đến việc khai phá văn bản. Bước đầu tiên trong bất kỳ nỗ lực khai phá văn bản nào là xác định các nguồn dựa trên-văn bản cần được phân tích và thu thập tư liệu này thông qua việc lấy ra thông tin hoặc chọn kho văn bản chuyên đề (corpus) gồm một tập hợp các tệp văn bản và nội dung đang quan tâm. Sau đó triển khai NLP mở rộng, gọi ra "thành phần gắn thẻ tiếng nói" và sắp xếp thứ tự văn bản để phân tích cú pháp (đó là, biểu tượng hóa (tokenizing) văn bản) và áp dụng nhận dạng thực thể có tên (Named Entity Recognition) (đó là, nhận biết việc nêu ra các nhãn hàng, các tên người, các địa điểm, các chữ viết tắt phổ biến và v.v). Một bước Lọc các từ phổ biến (Filter Stopwords) hay dùng liên quan đến việc loại bỏ các từ phổ biến để tinh lọc nội dung của chủ đề mong muốn. Các thực thể đã xác định mẫu (Pattern Identified Entities) nhận biết các địa chỉ email và các số điện thoại và Tài liệu cùng tham khảo (Coreference) xác định các cụm danh từ và các đối tượng liên quan trong văn bản, tiếp theo là Trích ra mối quan hệ, sự vật và sự kiện (Relationship, Fact and Event Extraction). Các N-Gram thường được sinh ra để tạo các điều kiện dưới dạng một loạt từ liên tiếp. Cuối cùng, một cách tiếp cận được các công cụ lắng nghe và phân loại môi trường truyền thông xã hội hiện nay sử dụng rộng rãi là phân tích tâm lý tiêu dùng, để trích ra thông tin về thái độ theo đối tượng hoặc chủ đề nào đó. Thông thường, các chức năng lập bản đồ và vẽ đồ thị khác cung cấp hiển thị trực quan để kiểm tra chính xác hơn nữa. Về đầu trang Các công cụ khai phá văn bản Có một số tùy chọn nguồn mở và thương mại cho phần mềm và các ứng dụng khai phá văn bản. IBM cung cấp một loạt các giải pháp khai phá văn bản rộng lớn và mạnh mẽ. Một sản phẩm mạnh, sử dụng các khả năng Big Data của IBM® InfoSphere® BigInsights™, cung cấp một mô đun phân tích văn bản bổ sung, thực hiện trích ra phân tích văn bản từ cụm BigInsights InfoSphere. Các sản phẩm IBM SPSS® trải rộng theo quy mô và phạm vi. Một công cụ, hoạt động tốt để tìm kiếm một tài liệu và gán nó cho một chủ đề hay chuyên đề là IBM SPSS Modeler (Trình mô hình hóa SPSS của IBM), cung cấp một giao diện đồ họa để thực hiện phân loại và phân tích tài liệu văn bản tổng quát. Một sản phẩm khác là IBM SPSS Text Analytics for Surveys (Phân tích văn bản SPSS của IBM dành cho khảo sát điều tra) sử dụng NLP để phân tích các câu hỏi khảo sát mở trong một tài liệu. IBM SPSS Modeler Premium chạy trên cùng một công cụ như SPSS Text Analytics dành cho khảo sát, nhưng có khả năng mở rộng quy mô cao để xử lý toàn bộ kho dữ liệu gồm nhiều loại tài liệu (PDF, các trang web, các blog, email, các nguồn cấp dữ liệu Twitter và nhiều hơn nữa) trong một nhánh công việc, để tạo điều kiện thuận lợi cho việc tích hợp giữa dữ liệu có cấu trúc và không có cấu trúc. Một nút mã nguồn tùy chỉnh liên quan dành cho Facebook mở rộng các khả năng của SPSS Modeler Premium để đọc dữ liệu trực tiếp từ một trang Facebook và tích hợp nó với một nguồn cấp dữ liệu Twitter trong SPSS Modeler để có được phối cảnh nhiều kênh truyền thông xã hội. Trong số các công cụ khai phá văn bản nguồn mở, RapidMiner và R dường như là hai công cụ phổ biến nhất. R có một cơ sở người dùng rộng hơn; một ngôn ngữ lập trình yêu cầu có mã nguồn trong đó, nó có một lựa chọn lớn về các thuật toán. Tuy nhiên, khả năng điều chỉnh quy mô là một vấn đề với R nên nó không phải là lý tưởng cho các tập dữ liệu lớn (big data) nếu không có các cách giải quyết. RapidMiner có một cơ sở người dùng nhỏ hơn, nhưng nó không đòi hỏi mã nguồn và có một giao diện người dùng (UI) mạnh mẽ. Nó cũng có khả năng điều chỉnh quy mô cao và có thể xử lý các cụm và lập trình trong cơ sở dữ liệu. IBM cung cấp một mô đun Jaql R có tích hợp dự án R trong các truy vấn, còn về phần mình dự án R lại cho phép các tác vụ MapReduce chạy tính toán R song song. Về đầu trang Các kho dữ liệu của môi trường truyền thông xã hội và Big Data Các tùy chọn NoSQL và SQL Vài lời ngắn gọn về các tùy chọn NoSQL và SQL (Structured Query Language – Ngôn ngữ truy vấn có cấu trúc) và quá trình lựa chồng công nghệ. Khi các nguồn dữ liệu trở nên khó xử lý, như vẫn thường thấy khi làm việc với dữ liệu của môi trường truyền thông xã hội, thì cần đến một sự kết hợp của các tùy chọn NoSQL thương mại (như IBM BigInsights InfoSphere), để tích hợp có hiệu quả với Hadoop và các công cụ nguồn mở có khả năng mở rộng khác. Các cơ sở dữ liệu đồ thị và các kho lưu trữ tài liệu và các cặp khóa-giá trị đã có sẵn và sự lựa chọn tối ưu dựa trên trường hợp sử dụng tại công ty. Các công ty đã quan tâm đến việc khai phá và phân tích văn bản thường chọn Hadoop và tích hợp với các công cụ nguồn mở khác như Apache Mahout, một công cụ máy học cung cấp việc phân loại, phân cụm và lọc cộng tác. Các bộ dữ liệu và các luồng dữ liệu của Storm quản lý phân tích thời gian thực để kiểm soát độ trễ cao của Hadoop. Khi bắt đầu áp dụng khai phá văn bản, có những thách thức đặc biệt riêng của dữ liệu của môi trường truyền thông xã hội. Dữ liệu, do các trang web mạng xã hội, các blog và các diễn đàn tạo ra, rơi vào thể loại của những thứ thường được gọi là big data. Dữ liệu thường không có cấu trúc và nửa cấu trúc, tạo ra rất nhiều petabyte dữ liệu hàng ngày xung quanh các nhãn hàng lớn và các cơ sở dữ liệu quan hệ truyền thống không thể mở rộng quy mô có hiệu quả để hỗ trợ phân tích thời gian thực dựa trên dữ liệu đó. Vì thế rất cần các giải pháp cơ sở dữ liệu NoSQL và big data. Dữ liệu của môi trường truyền thông xã hội, nếu không được thu thập và lưu trữ thích hợp theo định kỳ đều đặn, về cơ bản dễ mất đi. Hầu hết các công cụ nguồn mở lắng nghe mạng xã hội chỉ lưu lịch sử bình luận của môi trường truyền thông xã hội trong một vài ngày. Chỉ có Twitter mới đây đã thông báo rằng toàn bộ lịch sử của dữ liệu sẽ có sẵn, nhưng nó sẽ được giới hạn với các bình luận do chủ tài khoản đăng lên. Dữ liệu này có sẵn từ một số các nhà cung cấp dữ liệu xã hội lớn hơn đã nói ở trên, chẳng hạn như Gnip và DataSift và thông qua rất nhiều giao diện lập trình ứng dụng (các API) và các giao diện lập trình ứng dụng dựa trên cuộc gọi thông qua các công cụ khác. Tuy nhiên, ở nơi dữ liệu có sẵn (đối với Twitter), nó vẫn rất đắt với tất cả mọi người, trừ những doanh nghiệp lớn nhất. Mỗi trang web của môi trường truyền thông xã hội xử lý vấn đề này một cách khác nhau. Mỗi trang có thể sử dụng các yêu cầu tìm kiếm và có các đáp ứng theo định dạng JavaScript Object Notation (JSON), có dữ liệu chưa được phân tích cú pháp để đưa ngay vào một cơ sở dữ liệu MySQL hoặc cơ sở dữ liệu NoSQL, tùy thuộc vào khối lượng và tính chất của dữ liệu. Về đầu trang Các trường hợp sử dụng nghiệp vụ đối với khai phá văn bản Các doanh nghiệp có các mục tiêu khác nhau khi áp dụng khai phá văn bản:  Một công ty là Sears, trong Ví dụ 1, có thể quan tâm đến việc theo dõi tâm lý tiêu dùng của khách hàng thông qua các bình luận trên môi trường truyền thông xã hội và các tương tác trực tiếp của người hâm mộ trên trang Facebook sau sự ra mắt của dòng sản phẩm mới. Bằng cách này, có thể hiểu tâm lý tiêu dùng cơ bản qua các hình ảnh, các sản phẩm, các nhóm trò chuyện xảy ra xung quanh việc ra mắt sản phẩm. Thông tin phản hồi thời gian thực này cho phép cập nhật thông báo nhanh chóng và loại bỏ nội dung không được ưa chuộng và những người hâm mộ Facebook trở thành một nhóm tiêu điểm thời gian thực, cung cấp thông tin phản hồi ngay lập tức về các tính năng của sản phẩm.  Một công ty giải trí JACT đang kinh doanh về xây dựng các mối quan hệ giữa doanh nghiệp và những game thủ. Nó có một lớp phủ trong trò chơi cho phép các game thủ chơi các trò chơi thường xuyên của mình trong khi vẫn hiển thị một loạt nội dung có mục tiêu và đã lên lịch tới những người chơi. Các game thủ kiếm được tiền ảo của JACT và họ có thể đổi lại các BUX JACT này để lấy các phần thưởng, bao gồm các món hàng ảo và có thể tải về được. Nhưng người chơi tương tác với JACT trên trang Facebook hay Twitter và đề cập đến BUX JACT thường xuyên trên các diễn đàn trò chơi. Có thể thu được dữ liệu bình luận thô này từ các nguồn khác nhau và có thể lưu các ý kiến và các sở thích ở mức cá nhân. Ví dụ, nếu một người chơi rất phấn khích về một trò chơi video cụ thể hoặc các tin ngắn tweet nói về phần thưởng của người chơi, thì mục đích trong trò chơi dựa trên trò chơi và kiểu phần thưởng cụ thể có nhiều khả năng hướng tới làm tăng lòng trung thành với thương hiệu hơn so với những lời chào hàng ngẫu nhiên.  Các siêu thị có thể sử dụng dữ liệu của môi trường truyền thông xã hội để xác định những người mua hàng có giá trị hơn, các ấn tượng về dịch vụ khách hàng, môi trường của cửa hàng, sở thích về sản phẩm, sở thích đóng gói và giá cả. Việc hợp nhất kiểu thông tin này với dữ liệu vị trí hoặc do Twitter hoặc do các thiết bị di động cung cấp, các siêu thị có thể tùy chỉnh phù hợp với trải nghiệm mua hàng theo quan điểm địa phương hóa. Điều này có ảnh hưởng đến hàng tồn kho, giá cả, quảng cáo, tặng phiếu mua hàng trực tuyến và trực tiếp qua bưu điện cho cá nhân và nhiều hơn nữa. Ví dụ 1: Dữ liệu của môi trường truyền thông xã hội và khai phá văn bản trong SPSS Modeler Premium Ví dụ đầu tiên này cho thấy một trường hợp sử dụng SPSS Modeler Premium. Trong kịch bản này, công ty cho ra mắt một dòng sản phẩm mới và đang quan tâm theo dõi phản ứng của người tiêu dùng trong dữ liệu của môi trường truyền thông xã hội. Nút Facebook của SPSS Modeler Premium được sử dụng để theo dõi dòng sản phẩm Kardashian mới này trên trang Facebook Sears, được thể hiện trong Hình 1. Hình 1. Nhà bán lẻ ra mắt một dòng sản phẩm mới trên Facebook Bước đầu tiên trong việc theo dõi và phân tích dữ liệu bình luận đòi hỏi người sử dụng ghi rõ tên người dùng và số các trang tải về và chủ đề cần xem xét trong nút Facebook SPSS Modeler Premium, như trong Hình 2. Hình 2. Sử dụng SPSS Modeler để trích ra các bình luận trên tường của Facebook để nhận ra sự phân tích thông tin bình luận phản hồi sau khi ra mắt một dòng sản phẩm mới Sau đó trích ra dữ liệu bình luận từ trang Facebook Sears và tạo sẵn dữ liệu này để sử dụng trong SPSS Modeler, như trong Hình 3. Hình 3. Có thể xem dữ liệu bình luận thô trực tiếp thông qua nút Facebook của SPSS Modeler (Xem ảnh lớn hơn của Hình 3.) Bước tiếp theo đòi hỏi thêm các bộ lọc và tiến hành trích ra khái niệm, dẫn đến một sự hiển thị trực quan nhằm mô tả các thể loại nội dung xung quanh nhãn hàng đó. Giao diện người dùng đồ họa thân thiện với người dùng hướng dẫn người dùng qua quá trình này và không cần sử dụng các API nào để trích ra dữ liệu xã hội từ Twitter hay Facebook. Kết quả là một bản đồ khái niệm dễ hiểu và độ dày của đường nối biểu diễn độ nhạy cho các cụm khái niệm, như trong Hình 4. Hình 4. Bản đồ khái niệm cung cấp hiển thị trực quan các thể loại sức mạnh của khái niệm với nhãn hàng. (Xem ảnh lớn hơn của Hình 4.) Ví dụ 2: Ví dụ về sở thích sản phẩm của siêu thị khi sử dụng việc trích xuất và các từ phổ biến trong SPSS Statistics Base Quá trình lắp ráp quầy dữ liệu của môi trường truyền thông xã hội tiếp theo mô tả một quá trình khai phá văn bản thủ công đơn giản. Trong ví dụ này, chúng ta đang quan tâm đến việc sử dụng khai phá văn bản thông qua SPSS Statistics Base (Cơ sở thống kê của SPSS) để lấy ra và lưu trữ sở thích sản phẩm của từng cá nhân từ dữ liệu của môi trường truyền thông xã hội. Ví dụ này bao gồm một hướng dẫn từng bước để trích ra dữ liệu nhãn hàng của siêu thị từ Twitter và Facebook. Kiến trúc của quá trình được thể hiện trong Hình 5. Hình 5. Kiến trúc quầy dữ liệu của môi trường truyền thông xã hội BrandMeter (Xem ảnh lớn hơn của Hình 5.) Bước đầu tiên là xác định các nhãn hàng quan tâm. Một routine (thủ tục) được thiết lập để thu thập những bình luận liên quan đến nhãn hàng thông qua việc xử lý của API. Điều này được thực hiện bằng các yêu cầu tìm kiếm như những yêu cầu được mô tả trong Hình 6 và các kết quả được trả về dưới dạng JSON. Một thư viện JSON phân tích cú pháp dữ liệu và chia mỗi bản ghi thành nhiều trường có chứa các thông tin như ID (mã định danh) người dùng, dữ liệu và bình luận thông báo dạng văn bản chưa qua xử lý. Sau đó lưu trữ dữ liệu này trong một cơ sở dữ liệu và tạo sẵn nó cho việc khai phá văn bản. Hình 6. API ví dụ mẫu để truy cập dữ liệu bình luận thô của Twitter và Facebook (Xem ảnh lớn hơn của Hình 6.) Mục tiêu của bài tập khai phá văn bản đơn giản hóa này là xác định các sở thích sản phẩm của người tiêu dùng và các mẫu tiêu dùng cụ thể. Sau đó lưu trữ thông tin này trong một quầy dữ liệu môi trường truyền thông xã hội. Đối với ví dụ cụ thể này, giả sử bạn muốn xác định tất cả các khách hàng là những người tiêu dùng ngô. Hình 7 cho thấy việc sử dụng chức năng Character Index (Chỉ mục ký tự) để xác định tất cả các cá thể của từ ngô trong dữ liệu bình luận thô. Hình 7. Trích ra văn bản bằng chức năng SPSS Base Character Index (Xem ảnh lớn hơn của Hình 7.) Các kết quả nào cần phải tiếp tục lọc và cần áp dụng các từ