EpiData là phần mềm hỗ trợ nhập và quản lý số liệu, được lập trình bởi Bác sĩ Jens M.Lauritsen, người Đan Mạch. Phần mềm này đã được sử dụng lần đầu tiên cho một nghiên cứu dịch tễ học “Phòng chống tai nạn”.
104 trang |
Chia sẻ: haohao89 | Lượt xem: 4501 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Tài liệu giảng dạy môn kỹ thuật máy tính: Phần mềm epidata, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TRƯỜNG ĐẠI HỌC Y TẾ CÔNG CỘNG
BỘ MÔN TIN HỌC – THỐNG KÊ
TÀI LIỆU GIẢNG DẠY MÔN KỸ THUẬT MÁY TÍNH
PHẦN MỀM EPIDATA
HÀ NỘI, NĂM 2006
[Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 2
OOOOOOOOOOOOOOOOOOOOOOOOOOOOO
CHỦ BIÊN
Kỹ sư Phạm Việt Cường
NHÓM BIÊN SOẠN
Cử nhân Mạc Văn Huy
Cử nhân Chử Việt Anh
Cử nhân Trương Đức Tùng
THƯ KÝ BIÊN SOẠN
Cử nhân Mạc Văn Huy
OOOOOOOOOOOOOOOOOOOOOOOOOOOOO
[Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 3
MỤC LỤC
BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU .......................... 6
1. Phần mềm Epidata là gì? ........................................................................................ 6
2. Đặc điểm của phần mềm Epidata ........................................................................... 6
3. Tiến trình thu thập và xử lý số liệu ....................................................................... 7
4. Chu trình của số liệu ............................................................................................... 8
5. Kiểu dữ liệu .......................................................................................................... 10
BÀI 2: CÀI ĐẶT VÀ LÀM QUEN VỚI EPIDATA .................................................. 16
1. Cài đặt Epidata ..................................................................................................... 16
1.1 Tải tệp chương trình cài đặt ............................................................................. 16
1.2 Cài đặt chương trình ........................................................................................ 20
2. Khởi động chương trình ....................................................................................... 25
3. Thiết lập tùy chọn chương trình .......................................................................... 29
4. Tệp liên đới ........................................................................................................... 37
BÀI 3: KHAI BÁO BỘ CÂU HỎI VÀ HẠN CHẾ LỖI SỐ LIỆU ............................ 40
1. Khai báo bộ câu hỏi .............................................................................................. 40
2. Hạn chế lỗi số liệu ................................................................................................ 52
2.1 Lỗi số liệu ........................................................................................................ 52
2.2 Phát hiện lỗi dữ liệu ......................................................................................... 53
2.3 Kiểm tra lỗi dữ liệu ......................................................................................... 54
3. Thiết lập ràng buộc số liệu với phần mềm Epidata .............................................. 55
4. Liên kết các tệp dữ liệu liên quan với lệnh RELATE .......................................... 64
BÀI 4: NHẬP DỮ LIỆU ............................................................................................. 71
1. Nhập số liệu .......................................................................................................... 71
2. Xem dữ liệu .......................................................................................................... 77
3. Xem cấu trúc tệp REC .......................................................................................... 77
[Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 4
4. Liệt kê số liệu ....................................................................................................... 78
5. Xem mô tả số liệu ................................................................................................. 79
BÀI 5: GHÉP VÀ CHUYỂN ĐỊNH DẠNG TỆP SỐ LIỆU ...................................... 82
1. Ghép tệp số liệu .................................................................................................... 82
2. Xuất nhập tệp số liệu ............................................................................................ 87
2.1 Xuất tệp số liệu ................................................................................................ 87
2.2 Nhập tệp số liệu ............................................................................................... 88
BÀI 6: CÁC CHỨC NĂNG TIỆN ÍCH ...................................................................... 90
1. Sửa tên trường ...................................................................................................... 90
2. Sao chép cấu trúc tệp REC ................................................................................... 91
3. Đếm bản ghi theo trường dữ liệu .......................................................................... 93
4. So sánh hai tệp dữ liệu .......................................................................................... 95
5. Đóng gói tệp số liệu .............................................................................................. 96
6. Tạo tệp QES từ tệp REC ...................................................................................... 97
BÀI TẬP TỔNG KẾT ................................................................................................. 98
[Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 5
LỜI GIỚI THIỆU
Tài liệu này được viết bởi các cán bộ Bộ môn Tin học – Thống kê, Trường Đại học Y
tế công cộng, được sử dụng làm giáo trình phục vụ cho giảng dạy và là tài liệu tham
khảo cho sinh viên và học viên Y tế công cộng và các đối tượng tự học khác. Tài liệu
cung cấp cho người học những kiến thức, kỹ thuật làm việc với số liệu sử dụng phần
mềm Epidata.
Nội dung tài liệu được chia làm 6 bài học, lần lượt cung cấp cho người học những
kiến thức, kỹ thuật liên quan đến các bước trong tiến trình thu thập và xử lý số liệu
trong gian đoạn trước phân tích thống kê số liệu. Tài liệu cũng cung cấp cho người
học một cách tiếp cận đơn giản với các khái niệm về số liệu và hướng dẫn người học
sử dụng phần mềm Epidata trong thu thập và xử lý số liệu. Tài liệu này cũng giúp
người học hình dung được họ phải làm gì và làm như thế nào để có một bộ số liệu
phục vụ cho thống kê phân tích số liệu.
Tài liệu này được xây dựng lần đầu tiên nên khó tránh khỏi những thiếu sót. Chúng tôi
mong muốn các học viên, giảng viên cũng như bạn đọc sẽ đưa ra các ý kiến đóng góp
quý báu để tài liệu ngày càng hoàn thiện và phục vụ người đọc tốt hơn.
Hà Nội, tháng 11 năm 2006
[Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 6
BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU
Sẽ rất khó để có thể hình dung về mục đích, ý nghĩa của các công việc mà chúng ta
thực hiện với Epidata, nếu như chúng chỉ được hướng dẫn thực hành với phần mềm.
Vì vậy, mục tiêu của bài học này là giới thiệu về phần mềm Epidata, quá trính thu thập
xử lý số liệu và những kiến thức liên quan đến dữ liệu (số liệu).
1. Phần mềm Epidata là gì?
EpiData là phần mềm hỗ trợ nhập và quản lý số liệu, được lập trình bởi Bác sĩ Jens
M.Lauritsen, người Đan Mạch. Phần mềm này đã được sử dụng lần đầu tiên cho một
nghiên cứu dịch tễ học “Phòng chống tai nạn”.
2. Đặc điểm của phần mềm Epidata
Trước khi EpiData ra đời, đã có những phần mềm được sử dụng để nhập liệu và thực
hiện các công việc thống kê số liệu như EpiInfo (do Tổ chức Y tế Thế giới xây dựng)
và những sản phẩm thương mại có sẵn khác. Tuy nhiên, những phần mềm đó không có
nhiều ưu điểm như phần mềm Epidata. Phần mềm Epidata đơn giản, dễ sử dụng, có
khả năng kiểm tra và hạn chế lỗi số liệu, đặc biệt là khả năng hỗ trợ tạo ra công cụ
nhập liệu nhanh hơn nhiều so với các phần mềm khác.
Ý tưởng của người phát triển phần mềm EpiData là việc tạo ra một phần mềm nhập
liệu miễn phí, giao diện người dùng thân thiện, dễ sử dụng. Với Epidata, người sử
dụng có thể nhập số liệu dưới dạng văn bản đơn giản và sau đó chuyển đổi số liệu
sang các dạng khác nhau để phục vụ cho việc phân tích thống kê số liệu bằng các
phần mềm khác nhau. Phần mềm Epidata có những đặc điểm sau:
Epidata được phát triển nhằm phục vụ cho mục đích nghiên cứu và học tập, hỗ
trợ cho quy trình quản trị số liệu.
Epidata có giao diện người dùng thân thiện và tạo ra tiến trình làm việc đơn
giản. Những người sử dụng có trình độ Tin học khác nhau đều có thể dễ dàng
học tập và sử dụng được phần mềm này trong một thời gian rất ngắn.
EpiData là sản phần hoàn toàn miễn phí, người sử dụng có thể tải chương
trình cài đặt từ trang Web
EpiData có thể chạy trên các máy tính cài đặt hệ điều hành Microsoft Windows
hoặc Macintosh.
[Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 7
Epidata có thể xuất số liệu sang nhiều dạng khác nhau để sử dụng cho phân
tích số liệu bằng các phần mềm như Stata, Spss, .v.v.
Những ưu điểm của Epidata đã khiến cho phần mềm này được nhiều người sử dụng
trên thế giới lựa chọn. Tuy nhiên, Epidata không có phiên bản hỗ trợ tiếng Việt, vì
vậy, cộng đồng sử dụng tiếng Việt nên sử dụng tiếng Việt không dấu khi làm việc với
Epidata.
3. Tiến trình thu thập và xử lý số liệu
Tiến trình thu thập và xử lý số liệu gồm nhiều bước nối tiếp nhau. Đây là công việc rất
tỷ mỉ. Chất lượng của số liệu có ảnh hưởng quyết định đến tính chính xác của kết quả
phân tích số liệu. Các bước của tiến trình thu thập và xử lý số liệu như sau:
1. Điều tra viên phỏng vấn, thu thập số liệu.
2. Điều tra viên kiểm tra thông tin trên phiếu đã phỏng vấn để xác định lỗi
và sửa lỗi.
3. Giám sát viên kiểm tra lại các phiếu đã phỏng vấn, chọn ra một số phiếu
trong số các phiếu đã phỏng vấn và thực hiện phỏng vấn lại để kiếm tra
đánh giá tính chính xác của những thông tin đã phỏng vấn.
4. Nhập liệu viên nhập số liệu vào máy tính.
5. Nhập liệu viên khác hoặc một nhóm nhập liệu viên khác nhập lại số liệu
lần thứ 2.
6. So sánh số liệu hai lần nhập để tìm lỗi số liệu sinh ra do quá trình nhập
liệu và sửa lỗi.
7. Kiểm tra ràng buộc số liệu. Tính ràng buộc của số liệu thể hiện những
quy luật của thông tin. Số liệu không thỏa mản các ràng buộc thì số liệu đó
là không chính xác. Ví dụ, thông tin về một sự kiện mang thai phải thuộc
vào những cá nhân có giới tính là nữ. Tuy nhiên, trong cơ sở dữ liệu lại có
những trường hợp cá nhân có giới tính là nam có thông tin về việc mang
thai và sinh đẻ. Đây chính là những số liệu không thỏa mãn ràng buộc số
[Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 8
liệu.
8. Tạo các biến (biến số liệu còn gọi là trường số liệu) mới từ các biến có
sẵn trong cơ sở dữ liệu (cơ sở dữ liệu là một tệp hoặc một tập hợp các tệp
lưu trữ thông tin về số liệu và lưu trữ số liệu). Việc tạo ra biến mới thực
chất là tạo ra các thông tin mới trong cơ sở dữ liệu từ những thông tin ban
đầu.
9. Liên kết số liệu để tạo ra những bộ số liệu có đủ những biến mong muốn
phục vụ cho mục đích phân tích tích thống kê số liệu.
10. Xuất tệp số liệu sang các dạng khác. Hiện nay có nhiều dạng tệp số
liệu khác nhau như các dạng tệp số liệu của phần mềm Spss là dạng tệp
.SAV, Stata là dạng tệp .DTA và Epi_info là dạng .REC, .v.v. Các phần
mềm thường chỉ hiểu được dạng tệp mà nó tạo ra. Chẳng hạn, phần mềm
Epi_info chỉ hiểu được tệp .REC, phần mềm Stata chỉ hiểu được tệp .DTA.
Điều này có nghĩa là chỉ có thể chạy phân tích số liệu bằng phần mềm
Epi_info với tệp .REC, phần mềm Stata với tệp .DTA. Chính vì vậy, khi số
liệu được nhập vào tệp .REC với phần mềm Epidata chỉ sử dụng được cho
phần mềm Epi_info. Để có thể phân tích số liệu với phần mềm Stata hay
Spss cần chuyển tệp .REC thành tệp .DTA hoặc .SAV. Việc này gọi là xuất
tệp số liệu sang các dạng khác nhau.
4. Chu trình của số liệu
Số liệu được thu thập thông qua phỏng vấn, hoặc quan sát, hoặc đo đếm .v.v. trên các
đối tượng nghiên cứu, sau đó được ghi lại trên một phiếu thu thập thông tin (phiếu thu
thập thông tin còn được gọi là bộ câu hỏi).
[Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 9
Hình 1: Mô tả biến và bản ghi
Số liệu được thu thập và được điền vào các mục (các câu hỏi) tương ứng trên bộ câu
hỏi. Qua qúa trình nhập liệu, số liệu được lưu vào cơ sở dữ liệu dưới dạng các bản ghi.
Mỗi bản ghi thường là một tập hợp các số liệu trên một bộ câu hỏi, được lưu liền kề
nhau và được gắn kết lại với nhau thành một khối trong cơ sở dữ liệu.
Hinh 2: Mô tả tệp số liệu
Tệp số liệu
Bản ghi 2
Bản ghi 3
Bản ghi 1
Mã số : ………….
Họ và tên:………………
Ngày sinh:………………
Giới tính:……………
Tình trạng hôn nhân:…
Biến 1
Nhóm biến
Một bản ghi
(1 case)
Biến 2
Biến 3
Biến 4
Biến 5
[Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 10
Các bản ghi số liệu của các bộ câu hỏi được xếp nối tiếp nhau trong cơ sở dữ liệu với
cùng một cấu trúc. Cấu trúc đó cũng chính là cấu trúc dữ liệu. Ta có thể hình dung cầu
trúc dữ liệu được sắp xếp giống như một bảng biểu gồm nhiều hàng nhiều cột, mỗi
hàng là một bản ghi, mỗi cột là một trường số liệu (gọi là trường) hay còn gọi một biến
số liệu (gọi là biến) và số liệu được lưu trong mỗi trường đều thuộc vào một dạng duy
nhất nào đó đã được xác định trước. Ví dụ số liệu trong trường họ và tên là dạng số
liệu văn bản và số liệu trong trường ngày sinh là số liệu dạng ngày tháng. Các quy
định về cấu trúc số liệu cũng đảm bảo cho các tính toán trên số liệu cho ra kết quả
chính xác. Hình 1 và 2 sau đây là minh họa cho liên quan giữa thông tin trên phiếu
điều tra và các biến trong tệp số liệu, cấu trúc tệp số liệu. Bảng sau đây là ví dụ về số
liệu trong một tệp số liệu có 4 trường (biến) và có 4 bản ghi.
5. Kiểu dữ liệu
Tệp số liệu trong Epidata có cấu trúc gồm nhiều trường, trường có các thuộc tính là
nhãn, kiểu và độ rộng. Nhãn biến là chú thích về biến, kiểu cho biết dạng số liệu (dạng
ngày tháng, dạng số, dạng xâu chuỗi văn bản .v.v.) và độ rộng cho biết kích thước lớn
nhất của số liệu mà biến có thể chứa được. Các dạng số liệu được thu thập ở các câu hỏi
trên các bộ câu hỏi luôn thuộc vào một dạng số liệu nào đó. Vì vậy, khi xây dựng cơ sở
dữ liệu để lưu trữ số liệu, người thực hiện công việc này cần nắm được các kiểu dữ liệu
mà phần mềm hỗ trợ.
bản
ghi
trường số liệu (biến)
[Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 11
Hình 3: Kiểu dữ liệu trong Epidata
Epidata hỗ trợ các kiểu dữ liệu gồm Numeric, ID Number, Text, Date, Boolean và
Soundex. Những người sử dụng Epidata cần nắm được đặc điểm và cách sử dụng các
kiểu dữ liệu này.
5.1.1. Kiểu ID number
Kiểu ID number là kiểu dữ liệu số tự động và có các đặc điểm sau:
Chuỗi định dạng là
Một trường số liệu được khai báo kiểu ID number thì giá trị số liệu của trường
sẽ được tự động nhập khi nhập số liệu. Người sử dụng không được nhập giá trị
cho trường này.
Kiểu ID number thường được sử dụng để khai báo cho trường khóa. Trường
khóa là trường chứa số liệu định danh cho bản ghi. Đặc điểm của trường khóa
là trong tất cả các bản ghi của một tệp dữ liệu sẽ không có cặp bản ghi nào có
cùng giá trị tại trường khóa. Dựa vào số liệu của trường khóa, ta luôn tìm được
bản ghi duy nhất tương ứng với nó trong tệp số liệu.
Ví dụ:
Kiểu biến
Auto ID
Number
Text
Numeric
Boolean,
Logic,Y/N
Date
Soundex
[Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 12
Khai báo trường mã số phỏng vấn có tên trường là IDX, kiểu số tự động, có
nhãn là “So thu tu phong van”, viết như sau:
IDX So thu tu phong van
5.1.2. Kiểu Numeric
Kiểu Numeric là kiểu dữ liệu số dùng để khai báo cho các trường số liệu dạng số như
tuổi, thu nhập, chiều cao, cân nặng .v.v. Đặc điểm của kiểu này như sau:
Chuỗi định dạng sử dụng kí tự #, ví dụ ###, hoặc ###.###, hoặc ########,
hoặc ##.#### .v.v.
Trường được khai báo kiểu số chỉ chấp nhận số liệu nhập vào ở dạng số.
Độ rộng của trường được xác định bằng số kí tự # được khai báo.
Kích cỡ lớn nhất số liệu nhập vào một trường có kiểu số là 14 chữ số gồm cả ký
tự (“.”)ngăn cách phần số nguyên và phần thập phân với số thập phân.
Ví dụ:
Khai báo một trường có tên v1 và có 8 chữ số là số nguyên, có nhãn biến là
“tong thu nhập” dùng để lưu thu nhập của hộ gia đình, viết như sau:
V1 “Tong thu nhap” ########
Nếu khai báo trường số liệu trên dạng số thập phân với phần thập phân có hai
số, viết như sau:
V1 Tong thu nhap ########.##
5.1.3. Kiểu Text
Kiểu Text là kiểu dữ liệu văn bản (còn gọi là kiểu chuỗi ký tự), thường được sử dụng
khai báo cho các trường số liệu dạng văn bản như họ và tên, địa chỉ, ghi chú .v.v.
Chuỗi định dạng là sử dụng ký tự “_” hoặc
Chuỗi văn bản nhập vào có thể gồm các ký tự a, b, c, … và kể cả các chữ số.
Độ rộng của trường lớn nhất là 80 kí tự.
Khi khai báo mỗi dấu “_” tương ứng với khai báo cho một kí tự.
Ví dụ 1:
[Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 13
Khi khai báo trường họ tên với độ rộng 25 ký tự thì sẽ có 25 dấu “_” trong
phần khai báo:
V2 Ho ten _________________________
Ví dụ 2:
Khi muốn khai báo trường V3 kiểu Text, có 7 ký tự, dữ liệu nhập được mã hóa
và bảo mật, ta khai báo như sau:
V3 “Mat khau”
Số dấu cách (ký tự trắng) trong cặp “” là 7 tương ứng khai báo cho
giá trị mật khẩu 7 kí tự.
5.1.4. Kiểu Upper-case text
Đây cũng là một kiểu dữ liệu văn bản, kiểu này có các đặc tính sau:
Chuỗi định dạng là , hoặc
Trường được khai báo kiểu Upper-case text thì số liệu nhập vào trường này
được hiểu là dạng văn bản và được tự động chuyển sang dạng kí tự viết hoa.
Độ rộng của trường tương ứng với số kí tự “trống” (dấu cách) giữa hai dấu “<”
và “>”.
5.1.5. Kiểu Boolean
Đây là kiểu dữ liệu logic. Trường được khai báo kiểu này chỉ chấp nhận giá trị Y hoặc
N (cũng có thể chấp nhận số 0 hoặc 1) và chuỗi định dạng là .
Ví dụ:
Khai báo biến giới tính có tên là V4, trong đó, giá trị Y thể hiện giới tính là nữ
và N thể hiện giới tính là nam, ta viết như sau:
V4 “Gioi tinh”
5.1.6. Kiểu Date
Kiểu dữ liệu Date được sử dụng để khai báo cho các trường số liệu dạng ngày tháng,
có các đặc điểm sau:
Chuỗi định dạng là , hoặc , hoặc
[Bộ môn Tin học – Đại học YTCC] | BÀI 1: EPIDATA VÀ QUÁ TRÌNH THU THẬP XỬ LÝ SỐ LIỆU 14
Trường được khai báo kiểu Date chỉ chấp nhận giá trị nhập vào dạng ngày
tháng theo định dạng đã khai báo.
Kiểu số liệu ngày tháng có độ rộng là 10 kí tự gồm cả ký tự ngăn cách (“/” hoặc
“-“) giữ các thành phần ngày, tháng và năm.
Ví dụ:
Khai báo biến ngày sinh tên là V5 viết như sau:
V5 “Ngay sinh”
5.1.7. Kiểu today’s date
Đây cũng là một kiểu dữ liệu thể hiện số liệu ngày tháng. Các đặc điểm của kiểu dữ
liệu này gồm như sau:
Chuỗi định dạng là , hoặc , hoặc
Một trường được khai báo kiểu Today’s date sẽ được tự động điền vào giá trị
ngày hiện tại (ngày của máy tính) khi nhập liệu.
Ví dụ:
Khai báo ngày nhập số liệu tên là V6, ta viết như sau:
V6 “Ngay nhap lieu”
5.1.8. Kiểu soundex
Kiểu Soundex là kiểu dữ liệu mã hóa. Số liệu nhập vào trường này sẽ được Epidata tự
động mã hóa (chuyển sang một giá trị khác) theo quy luật mã hóa của Epidata trước
khi lưu vào cơ sở dữ liệu.
Chuỗi định dạng là
Trường số liệu kiểu Soundex chấp nhận tất cả các kí tự. Trừ kí tự đầu tiên, các
kí tự còn lại sẽ được tự động mã hóa.
Khuôn dạng của chuỗi mã hóa là A-999, tức là chuỗi mã hóa gồm một kí tự đầu
và tiếp theo là dấu “-“ và ba chữ số. Khi chuỗi nhập vào là HOLMES, chữ H
được giữ lại và chuỗi “OLMES” được mã hóa thành 452 và ta có chuỗi sau mã
hóa là H-452.
Ví dụ:
Khai báo biến tên tỉnh có tên biến là V7, viết như sau:
[Bộ môn Tin học – Đại học YTCC] |