Tài liệu giảng dạy môn kỹ thuật máy tính: Phần mềm epidata

EpiData là phần mềm hỗ trợ nhập và quản lý số liệu, được lập trình bởi Bác sĩ Jens M.Lauritsen, người Đan Mạch. Phần mềm này đã được sử dụng lần đầu tiên cho một nghiên cứu dịch tễ học “Phòng chống tai nạn”.

pdf104 trang | Chia sẻ: haohao89 | Lượt xem: 4378 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Tài liệu giảng dạy môn kỹ thuật máy tính: Phần mềm epidata, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TRƯỜNG ĐẠI HỌC Y TẾ CÔNG CỘNG BỘ MÔN TIN HỌC – THỐNG KÊ TÀI LIỆU GIẢNG DẠY MÔN KỸ THUẬT MÁY TÍNH PHẦN MỀM EPIDATA HÀ NỘI, NĂM 2006 [Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 2 OOOOOOOOOOOOOOOOOOOOOOOOOOOOO CHỦ BIÊN Kỹ sư Phạm Việt Cường NHÓM BIÊN SOẠN Cử nhân Mạc Văn Huy Cử nhân Chử Việt Anh Cử nhân Trương Đức Tùng THƯ KÝ BIÊN SOẠN Cử nhân Mạc Văn Huy OOOOOOOOOOOOOOOOOOOOOOOOOOOOO [Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 3 MỤC LỤC BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU .......................... 6 1. Phần mềm Epidata là gì? ........................................................................................ 6 2. Đặc điểm của phần mềm Epidata ........................................................................... 6 3. Tiến trình thu thập và xử lý số liệu ....................................................................... 7 4. Chu trình của số liệu ............................................................................................... 8 5. Kiểu dữ liệu .......................................................................................................... 10 BÀI 2: CÀI ĐẶT VÀ LÀM QUEN VỚI EPIDATA .................................................. 16 1. Cài đặt Epidata ..................................................................................................... 16 1.1 Tải tệp chương trình cài đặt ............................................................................. 16 1.2 Cài đặt chương trình ........................................................................................ 20 2. Khởi động chương trình ....................................................................................... 25 3. Thiết lập tùy chọn chương trình .......................................................................... 29 4. Tệp liên đới ........................................................................................................... 37 BÀI 3: KHAI BÁO BỘ CÂU HỎI VÀ HẠN CHẾ LỖI SỐ LIỆU ............................ 40 1. Khai báo bộ câu hỏi .............................................................................................. 40 2. Hạn chế lỗi số liệu ................................................................................................ 52 2.1 Lỗi số liệu ........................................................................................................ 52 2.2 Phát hiện lỗi dữ liệu ......................................................................................... 53 2.3 Kiểm tra lỗi dữ liệu ......................................................................................... 54 3. Thiết lập ràng buộc số liệu với phần mềm Epidata .............................................. 55 4. Liên kết các tệp dữ liệu liên quan với lệnh RELATE .......................................... 64 BÀI 4: NHẬP DỮ LIỆU ............................................................................................. 71 1. Nhập số liệu .......................................................................................................... 71 2. Xem dữ liệu .......................................................................................................... 77 3. Xem cấu trúc tệp REC .......................................................................................... 77 [Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 4 4. Liệt kê số liệu ....................................................................................................... 78 5. Xem mô tả số liệu ................................................................................................. 79 BÀI 5: GHÉP VÀ CHUYỂN ĐỊNH DẠNG TỆP SỐ LIỆU ...................................... 82 1. Ghép tệp số liệu .................................................................................................... 82 2. Xuất nhập tệp số liệu ............................................................................................ 87 2.1 Xuất tệp số liệu ................................................................................................ 87 2.2 Nhập tệp số liệu ............................................................................................... 88 BÀI 6: CÁC CHỨC NĂNG TIỆN ÍCH ...................................................................... 90 1. Sửa tên trường ...................................................................................................... 90 2. Sao chép cấu trúc tệp REC ................................................................................... 91 3. Đếm bản ghi theo trường dữ liệu .......................................................................... 93 4. So sánh hai tệp dữ liệu .......................................................................................... 95 5. Đóng gói tệp số liệu .............................................................................................. 96 6. Tạo tệp QES từ tệp REC ...................................................................................... 97 BÀI TẬP TỔNG KẾT ................................................................................................. 98 [Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 5 LỜI GIỚI THIỆU Tài liệu này được viết bởi các cán bộ Bộ môn Tin học – Thống kê, Trường Đại học Y tế công cộng, được sử dụng làm giáo trình phục vụ cho giảng dạy và là tài liệu tham khảo cho sinh viên và học viên Y tế công cộng và các đối tượng tự học khác. Tài liệu cung cấp cho người học những kiến thức, kỹ thuật làm việc với số liệu sử dụng phần mềm Epidata. Nội dung tài liệu được chia làm 6 bài học, lần lượt cung cấp cho người học những kiến thức, kỹ thuật liên quan đến các bước trong tiến trình thu thập và xử lý số liệu trong gian đoạn trước phân tích thống kê số liệu. Tài liệu cũng cung cấp cho người học một cách tiếp cận đơn giản với các khái niệm về số liệu và hướng dẫn người học sử dụng phần mềm Epidata trong thu thập và xử lý số liệu. Tài liệu này cũng giúp người học hình dung được họ phải làm gì và làm như thế nào để có một bộ số liệu phục vụ cho thống kê phân tích số liệu. Tài liệu này được xây dựng lần đầu tiên nên khó tránh khỏi những thiếu sót. Chúng tôi mong muốn các học viên, giảng viên cũng như bạn đọc sẽ đưa ra các ý kiến đóng góp quý báu để tài liệu ngày càng hoàn thiện và phục vụ người đọc tốt hơn. Hà Nội, tháng 11 năm 2006 [Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 6 BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU Sẽ rất khó để có thể hình dung về mục đích, ý nghĩa của các công việc mà chúng ta thực hiện với Epidata, nếu như chúng chỉ được hướng dẫn thực hành với phần mềm. Vì vậy, mục tiêu của bài học này là giới thiệu về phần mềm Epidata, quá trính thu thập xử lý số liệu và những kiến thức liên quan đến dữ liệu (số liệu). 1. Phần mềm Epidata là gì? EpiData là phần mềm hỗ trợ nhập và quản lý số liệu, được lập trình bởi Bác sĩ Jens M.Lauritsen, người Đan Mạch. Phần mềm này đã được sử dụng lần đầu tiên cho một nghiên cứu dịch tễ học “Phòng chống tai nạn”. 2. Đặc điểm của phần mềm Epidata Trước khi EpiData ra đời, đã có những phần mềm được sử dụng để nhập liệu và thực hiện các công việc thống kê số liệu như EpiInfo (do Tổ chức Y tế Thế giới xây dựng) và những sản phẩm thương mại có sẵn khác. Tuy nhiên, những phần mềm đó không có nhiều ưu điểm như phần mềm Epidata. Phần mềm Epidata đơn giản, dễ sử dụng, có khả năng kiểm tra và hạn chế lỗi số liệu, đặc biệt là khả năng hỗ trợ tạo ra công cụ nhập liệu nhanh hơn nhiều so với các phần mềm khác. Ý tưởng của người phát triển phần mềm EpiData là việc tạo ra một phần mềm nhập liệu miễn phí, giao diện người dùng thân thiện, dễ sử dụng. Với Epidata, người sử dụng có thể nhập số liệu dưới dạng văn bản đơn giản và sau đó chuyển đổi số liệu sang các dạng khác nhau để phục vụ cho việc phân tích thống kê số liệu bằng các phần mềm khác nhau. Phần mềm Epidata có những đặc điểm sau: ƒ Epidata được phát triển nhằm phục vụ cho mục đích nghiên cứu và học tập, hỗ trợ cho quy trình quản trị số liệu. ƒ Epidata có giao diện người dùng thân thiện và tạo ra tiến trình làm việc đơn giản. Những người sử dụng có trình độ Tin học khác nhau đều có thể dễ dàng học tập và sử dụng được phần mềm này trong một thời gian rất ngắn. ƒ EpiData là sản phần hoàn toàn miễn phí, người sử dụng có thể tải chương trình cài đặt từ trang Web ƒ EpiData có thể chạy trên các máy tính cài đặt hệ điều hành Microsoft Windows hoặc Macintosh. [Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 7 ƒ Epidata có thể xuất số liệu sang nhiều dạng khác nhau để sử dụng cho phân tích số liệu bằng các phần mềm như Stata, Spss, .v.v. Những ưu điểm của Epidata đã khiến cho phần mềm này được nhiều người sử dụng trên thế giới lựa chọn. Tuy nhiên, Epidata không có phiên bản hỗ trợ tiếng Việt, vì vậy, cộng đồng sử dụng tiếng Việt nên sử dụng tiếng Việt không dấu khi làm việc với Epidata. 3. Tiến trình thu thập và xử lý số liệu Tiến trình thu thập và xử lý số liệu gồm nhiều bước nối tiếp nhau. Đây là công việc rất tỷ mỉ. Chất lượng của số liệu có ảnh hưởng quyết định đến tính chính xác của kết quả phân tích số liệu. Các bước của tiến trình thu thập và xử lý số liệu như sau: 1. Điều tra viên phỏng vấn, thu thập số liệu. 2. Điều tra viên kiểm tra thông tin trên phiếu đã phỏng vấn để xác định lỗi và sửa lỗi. 3. Giám sát viên kiểm tra lại các phiếu đã phỏng vấn, chọn ra một số phiếu trong số các phiếu đã phỏng vấn và thực hiện phỏng vấn lại để kiếm tra đánh giá tính chính xác của những thông tin đã phỏng vấn. 4. Nhập liệu viên nhập số liệu vào máy tính. 5. Nhập liệu viên khác hoặc một nhóm nhập liệu viên khác nhập lại số liệu lần thứ 2. 6. So sánh số liệu hai lần nhập để tìm lỗi số liệu sinh ra do quá trình nhập liệu và sửa lỗi. 7. Kiểm tra ràng buộc số liệu. Tính ràng buộc của số liệu thể hiện những quy luật của thông tin. Số liệu không thỏa mản các ràng buộc thì số liệu đó là không chính xác. Ví dụ, thông tin về một sự kiện mang thai phải thuộc vào những cá nhân có giới tính là nữ. Tuy nhiên, trong cơ sở dữ liệu lại có những trường hợp cá nhân có giới tính là nam có thông tin về việc mang thai và sinh đẻ. Đây chính là những số liệu không thỏa mãn ràng buộc số [Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 8 liệu. 8. Tạo các biến (biến số liệu còn gọi là trường số liệu) mới từ các biến có sẵn trong cơ sở dữ liệu (cơ sở dữ liệu là một tệp hoặc một tập hợp các tệp lưu trữ thông tin về số liệu và lưu trữ số liệu). Việc tạo ra biến mới thực chất là tạo ra các thông tin mới trong cơ sở dữ liệu từ những thông tin ban đầu. 9. Liên kết số liệu để tạo ra những bộ số liệu có đủ những biến mong muốn phục vụ cho mục đích phân tích tích thống kê số liệu. 10. Xuất tệp số liệu sang các dạng khác. Hiện nay có nhiều dạng tệp số liệu khác nhau như các dạng tệp số liệu của phần mềm Spss là dạng tệp .SAV, Stata là dạng tệp .DTA và Epi_info là dạng .REC, .v.v. Các phần mềm thường chỉ hiểu được dạng tệp mà nó tạo ra. Chẳng hạn, phần mềm Epi_info chỉ hiểu được tệp .REC, phần mềm Stata chỉ hiểu được tệp .DTA. Điều này có nghĩa là chỉ có thể chạy phân tích số liệu bằng phần mềm Epi_info với tệp .REC, phần mềm Stata với tệp .DTA. Chính vì vậy, khi số liệu được nhập vào tệp .REC với phần mềm Epidata chỉ sử dụng được cho phần mềm Epi_info. Để có thể phân tích số liệu với phần mềm Stata hay Spss cần chuyển tệp .REC thành tệp .DTA hoặc .SAV. Việc này gọi là xuất tệp số liệu sang các dạng khác nhau. 4. Chu trình của số liệu Số liệu được thu thập thông qua phỏng vấn, hoặc quan sát, hoặc đo đếm .v.v. trên các đối tượng nghiên cứu, sau đó được ghi lại trên một phiếu thu thập thông tin (phiếu thu thập thông tin còn được gọi là bộ câu hỏi). [Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 9 Hình 1: Mô tả biến và bản ghi Số liệu được thu thập và được điền vào các mục (các câu hỏi) tương ứng trên bộ câu hỏi. Qua qúa trình nhập liệu, số liệu được lưu vào cơ sở dữ liệu dưới dạng các bản ghi. Mỗi bản ghi thường là một tập hợp các số liệu trên một bộ câu hỏi, được lưu liền kề nhau và được gắn kết lại với nhau thành một khối trong cơ sở dữ liệu. Hinh 2: Mô tả tệp số liệu Tệp số liệu Bản ghi 2 Bản ghi 3 Bản ghi 1 Mã số : …………. Họ và tên:……………… Ngày sinh:……………… Giới tính:…………… Tình trạng hôn nhân:… Biến 1 Nhóm biến Một bản ghi (1 case) Biến 2 Biến 3 Biến 4 Biến 5 [Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 10 Các bản ghi số liệu của các bộ câu hỏi được xếp nối tiếp nhau trong cơ sở dữ liệu với cùng một cấu trúc. Cấu trúc đó cũng chính là cấu trúc dữ liệu. Ta có thể hình dung cầu trúc dữ liệu được sắp xếp giống như một bảng biểu gồm nhiều hàng nhiều cột, mỗi hàng là một bản ghi, mỗi cột là một trường số liệu (gọi là trường) hay còn gọi một biến số liệu (gọi là biến) và số liệu được lưu trong mỗi trường đều thuộc vào một dạng duy nhất nào đó đã được xác định trước. Ví dụ số liệu trong trường họ và tên là dạng số liệu văn bản và số liệu trong trường ngày sinh là số liệu dạng ngày tháng. Các quy định về cấu trúc số liệu cũng đảm bảo cho các tính toán trên số liệu cho ra kết quả chính xác. Hình 1 và 2 sau đây là minh họa cho liên quan giữa thông tin trên phiếu điều tra và các biến trong tệp số liệu, cấu trúc tệp số liệu. Bảng sau đây là ví dụ về số liệu trong một tệp số liệu có 4 trường (biến) và có 4 bản ghi. 5. Kiểu dữ liệu Tệp số liệu trong Epidata có cấu trúc gồm nhiều trường, trường có các thuộc tính là nhãn, kiểu và độ rộng. Nhãn biến là chú thích về biến, kiểu cho biết dạng số liệu (dạng ngày tháng, dạng số, dạng xâu chuỗi văn bản .v.v.) và độ rộng cho biết kích thước lớn nhất của số liệu mà biến có thể chứa được. Các dạng số liệu được thu thập ở các câu hỏi trên các bộ câu hỏi luôn thuộc vào một dạng số liệu nào đó. Vì vậy, khi xây dựng cơ sở dữ liệu để lưu trữ số liệu, người thực hiện công việc này cần nắm được các kiểu dữ liệu mà phần mềm hỗ trợ. bản ghi trường số liệu (biến) [Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 11 Hình 3: Kiểu dữ liệu trong Epidata Epidata hỗ trợ các kiểu dữ liệu gồm Numeric, ID Number, Text, Date, Boolean và Soundex. Những người sử dụng Epidata cần nắm được đặc điểm và cách sử dụng các kiểu dữ liệu này. 5.1.1. Kiểu ID number Kiểu ID number là kiểu dữ liệu số tự động và có các đặc điểm sau: ƒ Chuỗi định dạng là ƒ Một trường số liệu được khai báo kiểu ID number thì giá trị số liệu của trường sẽ được tự động nhập khi nhập số liệu. Người sử dụng không được nhập giá trị cho trường này. ƒ Kiểu ID number thường được sử dụng để khai báo cho trường khóa. Trường khóa là trường chứa số liệu định danh cho bản ghi. Đặc điểm của trường khóa là trong tất cả các bản ghi của một tệp dữ liệu sẽ không có cặp bản ghi nào có cùng giá trị tại trường khóa. Dựa vào số liệu của trường khóa, ta luôn tìm được bản ghi duy nhất tương ứng với nó trong tệp số liệu. Ví dụ: Kiểu biến Auto ID Number Text Numeric Boolean, Logic,Y/N Date Soundex [Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 12 Khai báo trường mã số phỏng vấn có tên trường là IDX, kiểu số tự động, có nhãn là “So thu tu phong van”, viết như sau: IDX So thu tu phong van 5.1.2. Kiểu Numeric Kiểu Numeric là kiểu dữ liệu số dùng để khai báo cho các trường số liệu dạng số như tuổi, thu nhập, chiều cao, cân nặng .v.v. Đặc điểm của kiểu này như sau: ƒ Chuỗi định dạng sử dụng kí tự #, ví dụ ###, hoặc ###.###, hoặc ########, hoặc ##.#### .v.v. ƒ Trường được khai báo kiểu số chỉ chấp nhận số liệu nhập vào ở dạng số. ƒ Độ rộng của trường được xác định bằng số kí tự # được khai báo. ƒ Kích cỡ lớn nhất số liệu nhập vào một trường có kiểu số là 14 chữ số gồm cả ký tự (“.”)ngăn cách phần số nguyên và phần thập phân với số thập phân. Ví dụ: Khai báo một trường có tên v1 và có 8 chữ số là số nguyên, có nhãn biến là “tong thu nhập” dùng để lưu thu nhập của hộ gia đình, viết như sau: V1 “Tong thu nhap” ######## Nếu khai báo trường số liệu trên dạng số thập phân với phần thập phân có hai số, viết như sau: V1 Tong thu nhap ########.## 5.1.3. Kiểu Text Kiểu Text là kiểu dữ liệu văn bản (còn gọi là kiểu chuỗi ký tự), thường được sử dụng khai báo cho các trường số liệu dạng văn bản như họ và tên, địa chỉ, ghi chú .v.v. ƒ Chuỗi định dạng là sử dụng ký tự “_” hoặc ƒ Chuỗi văn bản nhập vào có thể gồm các ký tự a, b, c, … và kể cả các chữ số. ƒ Độ rộng của trường lớn nhất là 80 kí tự. ƒ Khi khai báo mỗi dấu “_” tương ứng với khai báo cho một kí tự. Ví dụ 1: [Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 13 Khi khai báo trường họ tên với độ rộng 25 ký tự thì sẽ có 25 dấu “_” trong phần khai báo: V2 Ho ten _________________________ Ví dụ 2: Khi muốn khai báo trường V3 kiểu Text, có 7 ký tự, dữ liệu nhập được mã hóa và bảo mật, ta khai báo như sau: V3 “Mat khau” Số dấu cách (ký tự trắng) trong cặp “” là 7 tương ứng khai báo cho giá trị mật khẩu 7 kí tự. 5.1.4. Kiểu Upper-case text Đây cũng là một kiểu dữ liệu văn bản, kiểu này có các đặc tính sau: ƒ Chuỗi định dạng là , hoặc ƒ Trường được khai báo kiểu Upper-case text thì số liệu nhập vào trường này được hiểu là dạng văn bản và được tự động chuyển sang dạng kí tự viết hoa. ƒ Độ rộng của trường tương ứng với số kí tự “trống” (dấu cách) giữa hai dấu “<” và “>”. 5.1.5. Kiểu Boolean Đây là kiểu dữ liệu logic. Trường được khai báo kiểu này chỉ chấp nhận giá trị Y hoặc N (cũng có thể chấp nhận số 0 hoặc 1) và chuỗi định dạng là . Ví dụ: Khai báo biến giới tính có tên là V4, trong đó, giá trị Y thể hiện giới tính là nữ và N thể hiện giới tính là nam, ta viết như sau: V4 “Gioi tinh” 5.1.6. Kiểu Date Kiểu dữ liệu Date được sử dụng để khai báo cho các trường số liệu dạng ngày tháng, có các đặc điểm sau: ƒ Chuỗi định dạng là , hoặc , hoặc [Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 14 ƒ Trường được khai báo kiểu Date chỉ chấp nhận giá trị nhập vào dạng ngày tháng theo định dạng đã khai báo. ƒ Kiểu số liệu ngày tháng có độ rộng là 10 kí tự gồm cả ký tự ngăn cách (“/” hoặc “-“) giữ các thành phần ngày, tháng và năm. Ví dụ: Khai báo biến ngày sinh tên là V5 viết như sau: V5 “Ngay sinh” 5.1.7. Kiểu today’s date Đây cũng là một kiểu dữ liệu thể hiện số liệu ngày tháng. Các đặc điểm của kiểu dữ liệu này gồm như sau: ƒ Chuỗi định dạng là , hoặc , hoặc ƒ Một trường được khai báo kiểu Today’s date sẽ được tự động điền vào giá trị ngày hiện tại (ngày của máy tính) khi nhập liệu. Ví dụ: Khai báo ngày nhập số liệu tên là V6, ta viết như sau: V6 “Ngay nhap lieu” 5.1.8. Kiểu soundex Kiểu Soundex là kiểu dữ liệu mã hóa. Số liệu nhập vào trường này sẽ được Epidata tự động mã hóa (chuyển sang một giá trị khác) theo quy luật mã hóa của Epidata trước khi lưu vào cơ sở dữ liệu. ƒ Chuỗi định dạng là ƒ Trường số liệu kiểu Soundex chấp nhận tất cả các kí tự. Trừ kí tự đầu tiên, các kí tự còn lại sẽ được tự động mã hóa. ƒ Khuôn dạng của chuỗi mã hóa là A-999, tức là chuỗi mã hóa gồm một kí tự đầu và tiếp theo là dấu “-“ và ba chữ số. Khi chuỗi nhập vào là HOLMES, chữ H được giữ lại và chuỗi “OLMES” được mã hóa thành 452 và ta có chuỗi sau mã hóa là H-452. Ví dụ: Khai báo biến tên tỉnh có tên biến là V7, viết như sau: [Bộ môn Tin học – Đại học YTCC] |
Tài liệu liên quan