Bài tập tin học ứng dụng - Lưu Thị Thảo - Tài liệu, ebook, giáo trình, hướng dẫn

Yếu tố thu nhập: Xét bảng giá trị ta thấy: Thu nhập lớn nhất là 1,8; thu nhập nhỏ nhất là 0,25; khoảng biến động là khá lớn = 1,55; Giá trị thu nhập trung bình là 0,7897727; Giá trị trung vị là 0,7; Độ lệch chuẩn của thu nhập là 0,4141424. + Yếu tố tiêu dùng: Tiêu dùng lớn nhất là 0,95 và nhỏ nhất là 0,18 với khoảng biến động là 0,77; tiêu dùng bình quân là 0,4538636; giá trị trung vị là 0,4 và độ lệch chuẩn của mẫu là 0,2030834.

21 trang | Chia sẻ: haohao89 | Lượt xem: 2129 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Bài tập tin học ứng dụng - Lưu Thị Thảo, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

BÀI 1 Ta lập bảng dữ liệu với 2 biến định lượng là tieudung và thunhap như sau: gen thunhap=0 label variable thunhap “thunhap” gen tieudung=1 label variable tieudung “tieudung” sau đó tiến hành nhập số liệu vào bảng Data editor a. Dùng lệnh tabstat lập bảng thống kê mô tả và vẽ biểu đồ * Lập bảng thống kê mô tả: Lệnh: tabstat tieudung thunhap, statistics(max min mean range var sd) Ta được kết quả như sau: stats | tieudung thunhap ---------+-------------------- max | .95 1.8 min | .18 .25 mean | .4538636 .7897727 range | .77 1.55 variance | .0412429 .1715139 sd | .2030834 .4141424 ------------------------------ Phân tích kết quả: + Yếu tố thu nhập: Xét bảng giá trị ta thấy: Thu nhập lớn nhất là 1,8; thu nhập nhỏ nhất là 0,25; khoảng biến động là khá lớn = 1,55; Giá trị thu nhập trung bình là 0,7897727; Giá trị trung vị là 0,7; Độ lệch chuẩn của thu nhập là 0,4141424. + Yếu tố tiêu dùng: Tiêu dùng lớn nhất là 0,95 và nhỏ nhất là 0,18 với khoảng biến động là 0,77; tiêu dùng bình quân là 0,4538636; giá trị trung vị là 0,4 và độ lệch chuẩn của mẫu là 0,2030834. * Vẽ biểu đồ mật độ của thu nhập trên đó có vẽ đường cong chuẩn và nhận xét: + Lệnh: hist thunhap, normal Ta được đồ thị như sau: Qua đồ thị ta thấy thu nhập phân bố lệch so với đường cong chuẩn. b. Ta tạo biến mới là lnthunhap và lntieudung: * Lệnh tạo biến: gen lnthunhap=ln(thunhap) gen lntieudung=ln(tieudung) * Vẽ đồ thị: + Biến thu nhập: ta vẽ biểu đồ của thu nhập sau khi loga hóa: Lệnh: histogram lnthunhap, normal Ta được đồ thị: Với đồ thị mới này thì ta thấy dạng phân bố chuẩn hơn so với trước khi loga hóa biến thu nhập, phân bố khá sát và đều so với đường cong chuẩn. + Biến tiêu dùng - Biểu đồ trước khi loga: Lệnh: histogram tieudung, normal Ta có đồ thị: - Sau khi loga hóa ta có đồ thị: Lệnh: histogram lntieudung, normal Như vậy nhìn vào đồ thị sau khi loga hóa thì dạng phân bố đồng đều quanh đường cong chuẩn hơn so với trước đó. BÀI 2 Ta lập bảng dữ liệu với biến định lượng là doanhthu và biến định tính là cuahang như sau: * Lệnh tạo biến và nhãn biến: gen doanhthu=1 label variable doanhthu “doanhthu” gen cuahang=1 + Ta đặt giá trị cho biến định tính với cuahang1= 1 và cuahang2 = 2 Lệnh: label define cuahang1 “cuahang1” 2 “cuahang2” label values cuahang cuahang * Nhập dữ liệu vào bảng theo các biến đã lập. * Tạo biến giả Lệnh: tab cuahang, gen(cuahang) ta có kết quả: là hai biến mới cuahang1 và cuahang2. cuahang | Freq. Percent Cum. ------------+----------------------------------- cua hang1 | 15 50.00 50.00 cua hang2 | 15 50.00 100.00 ------------+----------------------------------- Total | 30 100.00 * Để so sánh doanh thu của hai cửa hàng ta lập mô hình tương quan giữa doanh thu và cửa hàng 1 Lệnh: reg doanhthu cuahang1 Ta có kết quả: Source | SS df MS Number of obs = 30 -------------+------------------------------ F( 1, 28) = 2.49 Model | .92576341 1 .92576341 Prob > F = 0.1260 Residual | 10.4229733 28 .372249047 R-squared = 0.0816 -------------+------------------------------ Adj R-squared = 0.0488 Total | 11.3487367 29 .391335749 Root MSE = .61012 ------------------------------------------------------------------------------ thunhap | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- cuahang1 | .3513333 .2227851 1.58 0.126 -.1050213 .807688 _cons | 4.172 .1575329 26.48 0.000 3.849309 4.494691 ------------------------------------------------------------------------------ Phân tích kết quả: Sau khi tiến hành các thủ tục cần thiết ta có thể thấy Prob > F (0,1260 > 0,05) cho nên mô hình trên không có ý nghĩa thống kê. Tức là không thể so sánh được doanh thu của hai cửa hàng này với lượng mẫu như trên với giả thiết rằng doanh thu trong ngày có phân phối gần chuẩn. BÀI 3 Bước 1: Ta lập biến định lượng là lượng tiêu thụ và biến định tính là mùa *Lệnh: gen luongtieuthu=1 label variable luongtieuthu “luongtieuthu” gen mua=1 label variable mua “mua” + Ta quy ước biến định tính với 1= xuân, 2 = hạ, 3 = thu, 4 = đông. *Lệnh: label define mua 1 “xuan” 2 “ha” 3 “thu” 4 “dong” label values mua mua * Nhập dữ liệu vào bảng Bước 2: Để so sánh ảnh hưởng của mùa đến lượng tiêu thụ ta tiến hành lập biến giả của mùa như sau: *Lệnh: tab mua, gen(mua) Ta sẽ có bốn biến giả mới đó là mua1, mua2, mua3, mua4 tương ứng với xuân, hạ, thu, đông. mua | Freq. Percent Cum. ------------+----------------------------------- xuan | 20 25.00 25.00 ha | 20 25.00 50.00 thu | 20 25.00 75.00 dong | 20 25.00 100.00 ------------+----------------------------------- Total | 80 100.00 Bước 3: Ta lập mô hình hồi quy giữa luongtieuthu và các mùa để so sánh ảnh hưởng: Lệnh: reg luongtieuthu mua1 mua2 mua3 Ta có kết quả như sau: Source | SS df MS Number of obs = 80 -------------+------------------------------ F( 3, 76) = 6.53 Model | 9.48299947 3 3.16099982 Prob > F = 0.0005 Residual | 36.8089976 76 .484328916 R-squared = 0.2049 -------------+------------------------------ Adj R-squared = 0.1735 Total | 46.2919971 79 .585974647 Root MSE = .69594 ------------------------------------------------------------------------------ luongtieuthu | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- mua1 | .685 .2200747 3.11 0.003 .2466832 1.123317 mua2 | .925 .2200747 4.20 0.000 .4866831 1.363317 mua3 | .67 .2200747 3.04 0.003 .2316832 1.108317 _cons | 4.67 .1556163 30.01 0.000 4.360063 4.979937 ------------------------------------------------------------------------------ *Qua bảng kết quả ta thấy được: + Lượng tiêu thụ trung bình của mua4 tương ứng với mùa đông là nhỏ nhất với giá trị là 4,67. So với mùa đông thì: giá trị trung bình của mùa xuân cao hơn là 0,685; giá trị trung bình của mùa hạ cao hơn là 0,925; giá trị trung bình mùa thu cao hơn là 0,67. Tất cả các giá trị ở cột P>|t| đều nhỏ hơn 0,05 do đó tất cả các so sánh đều có ý nghĩa thống kê. Kết luận lượng tiêu thụ mùa hạ là lớn nhất, sau đó đến mùa xuân, mùa thu và thấp nhất là mùa đông. BÀI 5 Bước 1: Tạo biến định lượng là saisobeday và biến định tính là loaivan Saisobeday = beday - 10 nếu loại ván là 10mm và saisobeday = beday - 20 nếu loại ván là 20mm * Lệnh: gen saisobeday=1 gen loaivan=1 label variable saisobeday "saisobeday" label variable loaivan "loaivan" label define loaivan 1 "10mm" 2 "20mm" label value loaivan loaivan * Nhập số liệu tương ứng với các biến đã lập. Bước 2: Lập biến giả cho biến định tính là loại ván *Lệnh: tab loaivan, gen(loai) Ta có thêm hai biến là loai1 và loai2 với loai1 là ván 10 mm và loai2 tương ứng với ván 20 mm. loaivan | Freq. Percent Cum. ------------+----------------------------------- 1 | 20 50.00 50.00 2 | 20 50.00 100.00 ------------+----------------------------------- Total | 40 100.00 Bước 3: Xem xét mối quan hệ *Lệnh: reg saisobeday loai1 Ta có kết quả như sau: Source | SS df MS Number of obs = 40 -------------+------------------------------ F( 1, 38) = 0.80 Model | .011560001 1 .011560001 Prob > F = 0.3755 Residual | .546200009 38 .014373684 R-squared = 0.0207 -------------+------------------------------ Adj R-squared = -0.0050 Total | .55776001 39 .014301539 Root MSE = .11989 ------------------------------------------------------------------------------ saisobeday1 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- loai1 | .034 .0379126 0.90 0.375 -.0427501 .1107501 _cons | -.023 .0268083 -0.86 0.396 -.0772705 .0312705 ------------------------------------------------------------------------------ *Qua bảng kết quả ta thấy được: Ta thấy Prob>F lớn hơn 0,05 cho nên mô hình không có ý nghĩa thống kê. Ta có thể kết luận rằng sai số bề dày không phụ thuộc vào loại ván sản xuất *Lệnh: reg saisobeday loai2 Source | SS df MS Number of obs = 40 -------------+------------------------------ F( 1, 38) = 0.80 Model | .011560001 1 .011560001 Prob > F = 0.3755 Residual | .546200009 38 .014373684 R-squared = 0.0207 -------------+------------------------------ Adj R-squared = -0.0050 Total | .55776001 39 .014301539 Root MSE = .11989 ------------------------------------------------------------------------------ saisobeday1 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- loai2 | -.034 .0379126 -0.90 0.375 -.1107501 .0427501 _cons | .011 .0268083 0.41 0.684 -.0432705 .0652705 ------------------------------------------------------------------------------ *Qua bảng kết quả ta thấy được: Ta thấy Prob>F lớn hơn 0,05 cho nên mô hình không có ý nghĩa thống kê. Ta có thể kết luận rằng sai số bề dày không phụ thuộc vào loại ván sản xuất BÀI 8 Ta lập bảng dữ liệu với biến định lượng là thunhapbq và 2 biến định tính là congty và thanhpho như sau: * Lệnh tạo biến và nhãn biến: gen thunhapbq=1 label variable thunhapbq “thunhapbq” gen congty=1 label variable congty “congty” gen thanhpho=1 label variable thanhpho “thanhpho” + Ta gán giá trị cho biến định tính congty với 1-Cong ty 1, 2-Cong ty 2, 3-Cong ty 3, 4-Cong ty 4, 5-Cong ty 5. + Ta gán giá trị cho biến định tính thanhpho với 1- vinh, 2- hanoi, 3- haiphong Lệnh: - label define congty 1 "cong ty 1" - label define congty 2 "cong ty 2", add - label define congty 3 "cong ty 3", add - label define congty 4 "cong ty 4", add - label define congty 5 "cong ty 5", add - label values congty congty - label define thanhpho 1 "vinh" - label define thanhpho 2 "hanoi", add - label define thanhpho 3 "hai phong", add - label values thanhpho thanhpho * Nhập dữ liệu vào bảng theo các biến đã lập. * Tạo biến giả Lệnh: tab thanhpho, gen(tp) ta có kết quả: là 3 biến mới tp1, tp2 và tp3. thanhpho | Freq. Percent Cum. ------------+----------------------------------- vinh | 5 33.33 33.33 ha noi | 5 33.33 66.67 hai phong | 5 33.33 100.00 ------------+----------------------------------- Total | 15 100.00 Lệnh: tab congty, gen(cty) ta có kết quả: là 5 biến mới cty1, cty2, cty3, cty4 và cty5 congty | Freq. Percent Cum. ------------+----------------------------------- cong ty 1 | 3 20.00 20.00 cong ty 2 | 3 20.00 40.00 cong ty 3 | 3 20.00 60.00 cong ty 4 | 3 20.00 80.00 cong ty 5 | 3 20.00 100.00 ------------+----------------------------------- Total | 15 100.00 * Để so sánh thu nhập bình quân theo địa điểm ta lập mô hình tương quan giữa thu nhập bình quân và các thành phố. Ta thực hiện như sau: Lệnh: reg thunhapbq tp1 tp2 Source | SS df MS Number of obs = 15 -------------+------------------------------ F( 2, 12) = 0.04 Model | .354613377 2 .177306688 Prob > F = 0.9610 Residual | 53.2390864 12 4.43659053 R-squared = 0.0066 -------------+------------------------------ Adj R-squared = -0.1589 Total | 53.5936998 14 3.82812141 Root MSE = 2.1063 ------------------------------------------------------------------------------ thunhapbq | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- tp1 | -.3200001 1.332155 -0.24 0.814 -3.222516 2.582516 tp2 | .0119999 1.332155 0.01 0.993 -2.890516 2.914516 _cons | 13.48 .9419756 14.31 0.000 11.42761 15.53239 ------------------------------------------------------------------------------ Phân tích kết quả: Sau khi tiến hành các thủ tục cần thiết ta có thể thấy Prob > F (0,9610 > 0,05) cho nên mô hình trên không có ý nghĩa thống kê. Tức là không thể so sánh được thu nhập bình quân theo địa điểm hay chênh lệch về thu nhập bình quân là không có ý nghĩa về mặt thống kê. Tương ứng với hàng tp1 và tp2 ta có giá trị tại cột Coef. đều xấp xỉ bằng 0 và tương ứng với hàng tp1 và tp2 ta có giá trị tại cột P>|t| đều nhỏ hơn 0,05 có nghĩa rằng hệ số của 2 biến độc lập này không tồn tại trong tổng thể. * Để so sánh thu nhập bình quân theo công ty ta lập mô hình hồi qui biến phụ thuộc là thunhapbq với các biến độc lập là cty1, cty2, cty3, cty4 Lệnh: reg thunhapbq cty1 cty2 cty3 cty4 Source | SS df MS Number of obs = 15 -------------+------------------------------ F( 4, 10) = 118.01 Model | 52.4819003 4 13.1204751 Prob > F = 0.0000 Residual | 1.11179943 10 .111179943 R-squared = 0.9793 -------------+------------------------------ Adj R-squared = 0.9710 Total | 53.5936998 14 3.82812141 Root MSE = .33344 ------------------------------------------------------------------------------ thunhapbq | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- cty1 | 1.973334 .2722498 7.25 0.000 1.366723 2.579944 cty2 | 5.213334 .2722498 19.15 0.000 4.606723 5.819944 cty3 | 4.456667 .2722498 16.37 0.000 3.850057 5.063277 cty4 | 2.16 .2722498 7.93 0.000 1.55339 2.766611 _cons | 10.61667 .1925097 55.15 0.000 10.18773 11.0456 ------------------------------------------------------------------------------ Phân tích kết quả: Sau khi tiến hành các thủ tục cần thiết ta có thể thấy Prob > F (0,0000 < 0,05) cho nên mô hình trên có ý nghĩa thống kê. Căn cứ vào các giá trị ở cột Coef. cho ta phương trình biểu diễn quan hệ giữa thunhapbq và các biến cty như sau: Thunhapbq = 10.61667 + 1.97*cty1 + 5.21*cty2 + 4.46*cty3 + 2.16*cty4 Tương ứng với hàng cty1, cty2, cty3, cty4 và _cons ta có giá trị tại cột Coef. đều lớn hơn 1 và tương ứng với hàng cty1, cty2, , cty3, cty4 và _cons ta có giá trị tại cột P>|t| đều nhỏ hơn 0,05 có nghĩa rằng hệ số của các biến độc lập này tồn tại trong tổng thể. Tức là có thể so sánh được thu nhập bình quân theo các công ty hay chênh lệch về thu nhập bình quân là có ý nghĩa về mặt thống kê. Qua bảng kết quả ta thấy: - Thu nhập bình quân của nhân viên tại công ty 5 là nhỏ nhất - So với thu nhập bình quân của nhân viên tại công ty 5 thì: Thu nhập bình quân của nhân viên tại công ty 1 lớn hơn thu nhập bình quân của nhân viên tại công ty 5 là khoảng 1.93 triệu đồng Thu nhập bình quân của nhân viên tại công ty 2 lớn hơn thu nhập bình quân của nhân viên tại công ty 5 là khoảng 5.21 triệu đồng Thu nhập bình quân của nhân viên tại công ty 3 lớn hơn thu nhập bình quân của nhân viên tại công ty 5 là khoảng 4.46 triệu đồng Thu nhập bình quân của nhân viên tại công ty 4 lớn hơn thu nhập bình quân của nhân viên tại công ty 5 là khoảng 2.16 triệu đồng Kết luận: Thu nhập bình quân của nhân viên có sự chênh lệnh đáng kể giữa các công ty (công ty 1, công ty 2, … cụ thể thu nhập bình quân của các nhân viên tại công ty 2 là cao nhất, sau đó là tại công ty 3, công ty 4, công ty 1 và thấp nhất là tại công ty 5) mà không phụ thuộc vào địa điểm (thành phố Vinh, Hà Nội, Hải Phòng) nơi mở các chi nhánh của công ty. DATASET BÀI 9 a, Thăm dò quanhệ bằng đồ thị phân tán (scatter) giữa thu nhập và tiêu dùng ở VN Ta lập bảng dữ liệu với 2 biến định lượng là tieudung và thunhap với các bước sau: * Lệnh tạo biến và nhãn biến gen thunhap=0 label variable thunhap “thunhap” gen tieudung=1 label variable tieudung “tieudung” * Nhập dữ liệu vào bảng Lệnh: twoway (scatter tieudung thunhap) Ta có đồ thị phân tán như sau: Qua đồ thị ta thấy giữa thu nhập và tiêu dùng có một quan hệ tuyến tính khá chặt có chiều tăng. b, Phân tích hồi quy, diễn giải quan hệ giữa thu nhập và tiêu dùng. *Lệnh: reg tieudung thunhap Ta được bảng kết quả như sau: Source | SS df MS Number of obs = 44 -------------+------------------------------ F( 1, 42) = 808.80 Model | 1.68589672 1 1.68589672 Prob > F = 0.0000 Residual | .087546375 42 .002084438 R-squared = 0.9506 -------------+------------------------------ Adj R-squared = 0.9495 Total | 1.77344309 43 .041242863 Root MSE = .04566 ------------------------------------------------------------------------------ tieudung | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- thunhap | .4781142 .0168117 28.44 0.000 .4441869 .5120415 _cons | .0762621 .0149554 5.10 0.000 .046081 .1064432 ------------------------------------------------------------------------------ Phân tích kết quả Từ bảng trên ta thấy: + Prob>F nhỏ hơn 0,05 nên mô hình có ý nghĩa thống kê tức là tiêu dùng có phụ thuộc vào thu nhập. + R-squared= 0,9506 nói lên rằng 95,06 % sự thay đổi của tiêu dùng là do thu nhập. + Với hệ số Coef ta có phương trình hồi quy: tieudung = 0,4781142*thunhap + 0,0762621 Phương trình này nói lên rằng nếu thu nhập tăng 1 đơn vị sẽ kéo theo tiêu dùng tăng 0,47811242 đơn vị. + Tương ứng với hàng thu nhập ta có t=28.44 với P>|t| nhỏ hơn 0,05 chứng tỏ rằng hệ số của biến độc lập có tồn tại trong tổng thể (Bác bỏ giả thuyết Ho cho rằng không tồn tại hệ số của biến độc lập trong tổng thể). Tương ứng với hàng _cons ta có t =5,1 với P>|t| nhỏ hơn 0,05 chứng tỏ hằng số cũng có tồn tại trong tổng thể (Bác bỏ giả thuyết Ho cho rằng không tồn tại hằng số trong tổng thể). + Ta cũng thấy được rằng 95% giá trị của thu nhập nằm trong khoảng từ 0,4441869 đến 0,5120415 và 95% giá trị của hằng số nằm trong khoảng từ 0,046081 đến 0,1064432. c. Phân tích hồi quy, diễn giải quan hệ giữa thu nhập tiêu dùng sau khi đã loga hóa * chỉ loga hóa biến thu nhập gen lnthunhap=ln(thunhap) gen lntieudung=ln(tieudung) Lệnh: reg tieudung lnthunhap Ta được bảng kết quả Source | SS df MS Number of obs = 44 -------------+------------------------------ F( 1, 42) = 414.77 Model | 1.61037511 1 1.61037511 Prob > F = 0.0000 Residual | .163067978 42 .003882571 R-squared = 0.9081 -------------+------------------------------ Adj R-squared = 0.9059 Total | 1.77344309 43 .041242863 Root MSE = .06231 ------------------------------------------------------------------------------ tieudung | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- lnthunhap | .3733192 .0183306 20.37 0.000 .3363266 .4103118 _cons | .5905955 .0115462 51.15 0.000 .5672943 .6138967 ------------------------------------------------------------------------------ Phân tích kết quả + Ta thấy Prob>F nhỏ hơn 0,05 như vậy mô hình có ý nghĩa thống kê. + Ta có phương trình hồi quy: tieudung = 0,3733192*lnthunhap + 0,5905955 Phương trình này nói lên được rằng nếu thu nhập tăng 1% thì tiêu dùng tăng 0,003733192. + Tương ứng với hàng thu nhập và _cons thì P>|t| đều nhỏ hơn 0,05 cho nên cả hệ số và hằng số đều có ý nghĩa trong tổng thể. * Chỉ loga hóa biến tiêu dùng Lệnh: reg lntieudung thunhap Source | SS df MS Number of obs = 44 -------------+------------------------------ F( 1, 42) = 319.04 Model | 7.57090516 1 7.57090516 Prob > F = 0.0000 Residual | .996671154 42 .023730266 R-squared = 0.8837 -------------+------------------------------ Adj R-squared = 0.8809 Total | 8.56757631 43 .199245961 Root MSE = .15405 ------------------------------------------------------------------------------ lntieudung | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- thunhap | 1.013188 .0567241 17.86 0.000 .8987141 1.127662 _cons | -1.686281 .0504607 -33.42 0.000 -1.788115 -1.584447 ------------------------------------------------------------------------------ Phân tích kết quả: + Prob > F nhỏ hơn 0,05 cho nên mô hình có ý nghĩa thống kê. + Các giá trị P>|t| đều nhỏ hơn 0,05 cho nên các hệ số của biến thunhap và _cons đều có ý nghĩa thống kê. + Ta có phương trình tương quan: lntieudung = 1,013188*thunhap – 1,686281 Nếu thu nhập tăng một đơn vị thì kéo theo tiêu dùng thay đổi 101,3188 %. * Trường hợp loga hóa hai biến. Lệnh: reg lntieudung lnthunhap Source | SS df MS Num