Chương 3: Phân tích dữ liệu

? lệnh để truy xuất tập tin dữ liệu phải được ghi trong mỗi chương trình ứng dụng, nếu có thay đổi trong tập tin dữ liệu thì lệnh truy xuất cũng phải thay đổi cho mỗi chương trình ứng dụng; ? nếu cùng lúc có nhiều chương trình và nhiều người truy xuất và thay đổi trên cùng tập tin dữ liệu, thì cần có bộ phận kiểm tra, ai được truy xuất đến CSDL và loại thay đổi nào được phép thực hiện.

pdf35 trang | Chia sẻ: lylyngoc | Lượt xem: 1979 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Chương 3: Phân tích dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
19/10/2012 1 3.1 Khái niệm cở sở dữ liệu 3.2 Mô hình phân tích dữ liệu 3.3 Phân tích dữ liệu không gian 3.4 Mô hình dữ liệu thuộc tính 3.5 Phân tích tổng hợp Chương 3: PHÂN TÍCH DỮ LIỆU 19/10/2012 2 Cơ sở dữ liệu (CSDL) là một tập hợp thông tin về các sự kiện và các mối quan hệ của chúng. 3.1 KHÁI NIỆM CƠ SỞ DỮ LIỆU 19/10/2012 3 1. Các tập tin dữ liệu theo kiểu chia sẻ trong môi trường xử lý File dử liệu 1 File dử liệu 2 File dử liệu 3 Chương trình ứng dụng 1 Đầu ra 2 CƠ SỞ DỬ LIỆU Chương trình ứng dụng 2 Đầu ra 1  Có 2 cách tổ chức cơ sở dữ liệu để xử lý: Nhược điểm :  lệnh để truy xuất tập tin dữ liệu phải được ghi trong mỗi chương trình ứng dụng, nếu có thay đổi trong tập tin dữ liệu thì lệnh truy xuất cũng phải thay đổi cho mỗi chương trình ứng dụng;  nếu cùng lúc có nhiều chương trình và nhiều người truy xuất và thay đổi trên cùng tập tin dữ liệu, thì cần có bộ phận kiểm tra, ai được truy xuất đến CSDL và loại thay đổi nào được phép thực hiện. 19/10/2012 4 2. Các tập tin theo kiểu chia sẻ trong môi trường quản trị CSDL hệ quản trị CSDL bao gồm các chương trình thao tác và duy trì dữ liệu trong CSDL; hệ quản trị CSDL là một hệ điều khiển trung tâm trên toàn bộ các tương tác giữa CSDL và trình ứng dụng. 19/10/2012 5 Ưu điểm của CSDL: 1. điều khiển tập trung; 2. có thể được chia sẻ một cách hữu hiệu; 3. độc lập dữ liệu; 4. ứng dụng mới được thực thi dễ dàng; 5. truy xuất trực tiếp; 6. độ dư thừa được khống chế. Hạn chế của CSDL: 1. giá thành; 2. phức tạp hơn; 3. rủi ro mang tính tập trung. CƠ SỞ DỬ LIỆU Tên khách hàng và địa chỉ Thông tin bán hàng Dữ liệu kiểm kê Nhà cung cấp DBMS Item : Supplier : INVENTORY HISTORY MONTH JAN FEB MARCH APRIL UNITS SOLD UNITS RECEVED UNITS ON-HAND Date : Client Name : QTY UNIT PRICE ITEM TOTAL BALANCE Address : XEM THỰC HIỆN TÍNH TOÁN XEM QUẢN LÝ KIỂM KÊ B¶n ®å nỊn KhÝ hËu Thỉ nh-ìng HiƯn tr¹ng sư dơng ®Êt Nguån n-íc ®¸nh gi¸ vỊ kh¶ n¨ng thÝch nghi ®¸nh gi¸ vỊ kinh tÕ ®¸nh gi¸ vỊ chÝnh s¸ch x· héi ®¸nh gi¸ t¸c ®éng m«i tr-êng Sư dơng ®Êt thÝch hỵp nhÊt 19/10/2012 6 KHÁI NIỆM GEODATABASE Mơ hình Geodatabase: mơ hình dữ liệu với các tính năng ưu việt như: Lưu trữ các đối tượng khơng gian và các thuộc tính của chúng trong cùng hệ thống CSDL quan hệ - RDBMS (Relational Database Management System). Những lớp đối tượng cĩ thể độc lập hoặc thành nhĩm trong một tập dữ liệu như một Feature class. Các tập dữ liệu cĩ mối quan hệ khơng gian trong một Feature Dataset 19/10/2012 7 KHÁI NIỆM VỀ MÔ HÌNH PHÂN TÍCH GIS Mơ hình phân tích: Functions, Data, Numerical Models, Tools, etc tạo ra các chức năng khai thác thơng tin khơng gian và các thuộc tính trong hệ thống CSDL phục vụ cho từng ứng dụng cụ thể BINARY model: multiplies maps for Y/N solution RANKING model: adds maps for a range of solutions 19/10/2012 8 KHÁI NIỆM VỀ MÔ HÌNH PHÂN TÍCH GIS 19/10/2012 9 19/10/2012 10 3.2 PHÂN TÍCH DỮ LIỆU 19/10/2012 11 Chuyển đổi tọa độ dùng điểm khống chế (GCP) • Giả định: cĩ một bản đồ (hoặc ảnh) của vùng nghiên cứu và đã được nắn chỉnh. Xác định 2 hệ tọa độ (x,y) của bản đồ và (u,v) của ảnh cần nắn chỉnh, cùng 2 hàm biến đổi tọa độ u = f(x,y) v = g(x,y) x y 1 2 3 Map u v 1 2 3 Image master image slave images 19/10/2012 12 Chuyển đổi tọa độ dùng điểm khống chế (GCP)  NhËp ¶nh  Lùa chän phép biến đổi  Chän ®iĨm khèng chÕ  TÝnh to¸n phép biến đổi  KiĨm tra sai sè, chän l¹i ®iĨm (nÕu cÇn thiÕt) L-u ý: -Image to Image: sai sè cđa ®iĨm ®-ỵc tÝnh b»ng pixel - Sai sè X,Y vµ RMS cđa ®iĨm cÇn ®¹t < or = 0,5 x = 902.76 + 0.206i + 0.051j y = 152.579 − 0.044i + 0.199j 13 Colume Line Easting Northing 390 400 524,445 1,234,456 700 420 525,445 1,234,256 … … … … … … … … … … … … … … … … … … … … … … … … Image Coodinate Map Coordinate 2. Chän: Warp Image lµ ¶nh vƯ tinh cÇn n¾n chØnh (hiĨn thÞ ë cưa sỉ hiĨn thÞ Display #1) 1. Chän : Base Image lµ b¶n ®å ®· n¾n chØnh (hoỈc ¶nh ®· n¾n) (hiĨn thÞ ë cưa sỉ hiĨn thÞ Display #2) 3. BÊm OK: master image slave images 19/10/2012 14 MMU = 1 ha MMU = 9 ha *MMU = Minimum Mapping Unit 5 2 2 3 2 4 3 3 7 6 5 6 - = Precipitation Losses (Evaporation, Infiltration) Runoff 40 50 55 43 47 41 44 42 42 1 0 0 m 4 2 4 6 1 5 0 m 40-0.5*4 = 38 55-0.5*6 = 52 38 52 41 39 42-0.5*2 = 41 41-0.5*4 = 39 19/10/2012 15 Data manipulation Topological overlay Buffering Terrain analysis Network Analysis Áp dụng đối tượng là vùng (polygon) dựa trên thuộc tính. Gồm 3 bước:  Reclassify vùng cùng thuộc tính  Dissolve ranh giới vùng cùng loại (xĩa các arc giữa 2 polygons, nếu cĩ thuộc tính giống nhau);  Merge polygons thành vùng lớn hơn Và chỉ định new ID cho từng đối tượng. Loại đất A, B, C với tiềm năng phát triển d và f Soil types A, B and C Soil types A, B and C Ad Bd Cf Bf Cd Ad A B B C C A A B C A Reclassify Dissolve & merge Topological overlay  New intersection: được xác định khi cĩ 2 đường giao nhau. Đường giao với vùng sẽ tạo vùng mới.  Combined map mối quan hệ khơng gian của các vùng mới được cập nhât (updated for the new) Point in polygon ID Restaurant 1 McDonald 2 Pizza Hut 3 KFC 4 McDonald 5 Berger King ID Town A Shi Qi B Gang Kou C San Jiao ID Town Restaurant 1 Shi Qi McDonald 2 Gang Kou Pizza Hut 3 Gang Kou KFC 4 San Jiao McDonald 5 San Jiao Berger King Fast food restaurant Towns 1 2 3 4 5 1 2 3 4 5 A B C 19/10/2012 17 19/10/2012 18 Spatial Analysis 18 Polygon on polygon ID Watershed County 1 1 A 2 1 B 3 3 B 4 2 A 5 2 B 6 4 B 7 2 C 8 4 C Watershed County 1 2 3 4 A B C 1 2 3 4 5 6 7 8 19/10/2012 19 Spatial Analysis 19 Polygon on polygon ID Watershed County 1 1 A 2 1 B 3 3 B 4 2 A 5 2 B 6 4 B 7 2 C 8 4 C Watershed County 1 2 3 4 A B C 1 2 3 4 5 6 7 8 19/10/2012 20 20 Chồng lớp vùng (Polygon overlay) Identity Hợp nhất (Union) Phép giao (Intersection)  Tạo vùng đệm (Buffering) Fire station Question: Bao nhiêu nhà trong vịng 5km? Target: Trạm cứu hỏa (fire station) Neighbourhood: diện tích ứng bán kính 5km? Function: xác định số nhà? A 1 2 3 4 5 6 7 B 8 9 Vùng cĩ độ cao >50m? Cơng trình trong vùng? X Y Z A B U U = f (A, B) Phân tích dữ liệu Raster 1 0 1 0 1 0 2 + + = 2 Phép tốn số học trong phân tích dữ liệu Phân loại dữ liệu Raster 2 loại 3 cấp độ 4 hạng Tính trọng số trong phân loại Phân loại dữ liệu Raster Slice in equal intervals Slice in equal areas 2.0 2.0 2.0 1.5 2.0 1.5 2.0 2.0 2.0 1.5 0.75 2.0 0.5 0.5 0.75 0.75 4 4 4 3 4 3 4 4 4 3 2 4 1 1 2 2 >> Boolean 4 4 4 N 4 N 4 4 4 N N 4 N N N N 4 4 4 4 4 4 4 4 >>>> Phân tích bề mặt đất (Terrain analysis) Độ cao thẻ hiện theo Grid Gĩc nhìn 3D từ bên trái Trung tâm của 9 cells trong phân tích Runoff generation processes Infiltration excess overland flow aka Horton overland flow Partial area infiltration excess overland flow Saturation excess overland flow P P P qr qs qo P P P qo f P P P qo f f 5 2 2 3 2 4 3 3 7 6 5 6 - = Precipitation Losses (Evaporation, Infiltration) Runoff Lớp Precipitation grid Lớp hiện trạng sử dụng đất (land use) Lớp Runoff grid Tính tích lũy dịng chảy trong lưu vực (watersheds) Thành lập bản đồ nguy cơ ngập? a b c d e f g h i Xác định các yếu tố của bề mặt đất? 3D 2D cingx_mesh_spa * 8 i) 2f (c - g) 2d (a dx dz   acing y_mesh_sp* 8 c) 2b (a -i) 2h (g dy dz   22 dy dz dx dz run rise                     run rise atandeg Ví dụ 30 80 74 63 69 67 56 60 52 48 a b c d e f g h i 229.0 30*8 )2456*263()6069*280( cingx_mesh_spa * 8 i) 2f (c - g) 2d (a dx dz      329.0 30*8 )6374*280()4852*260( acing y_mesh_sp* 8 c) 2b (a -i) 2h (g dy dz      o8.21)401.0(atan  o8.34 329.0 229.0 atanAspect         o o 2.145 180   145.2o 401.0 329.0229.0Slope 22   80 74 63 69 67 56 60 52 48 80 74 63 69 67 56 60 52 48 45.0 230 4867   50.0 30 5267   Slope: 30 30 Xác định các yếu tố của bề mặt đất? 3D 2D 80 74 63 69 67 56 60 52 48  Network Analysis What is network? networks of streams and rivers Why use networks? What is the best route from a location to a given destination? Network data structure Nodes represent intersections, interchanges and confluence points. Links represent transportation facility segments between nodes. Network data models : Network Links, Network Links,.. Network analysis capabilities :finding shortest (or cheapest or quickest) route between locations Phân tích khả năng tiếp cận Tương đối Tổng hợp i j i 1 2 3 4 - Thời gian đến bện viện gần nhất? - Khoảng cách đến siêu thị? - Thời gian trung bình đến bệnh viên? - Thời gian trung bình đến các quận? iji CA  n C A ij i   Ảnh hưởng của 1 vị trí đến vị trí khác thì tỷ lệ thuận sự thu hút và tỷ lệ nghich với khoảng cách Điểm đến M1 M2 A B X u ấ t p h á t 0.5 0.7 1.6 2.1 Thu hút M1 M2 3.0 5.0 Chuyên dụng A B 2 3 Khoảng cách: km Siêu thị cĩ chỉ số thu hút (nổi tiếng) Siêu thị cĩ chỉ số chuyên dụng (điện máy) Nguyên tắc tính tốn:  Giả thiết, suy giảm theo khoảng cách là bậc 2  Khả năng tiếp cận của A đến M1 được tính như sau: Chỉ số thu hút của siêu thị (Khoảng cách đến siêu thị)2  Tính tổng khả năng tiếp cận: Pi :khả năng tiếp cận tại điểm i Wj : thu hút tại vị trí j dij :khoảng cách giữa i và j  : bậc lũy thừa suy giảm theo khoảng cách n : số vị trí trong khu vực được phân tích    n j ij j i d W P 1   Từ một vị trí đến nhiều vị trí khác nhau? Interaction = Chuyên dụng  mức độ thu hút (Khoảng cách giữa đểm xuất tới điểm đến)2 Điểm đến M1 M2 A B X u ấ t p h á t 24.0 20.4 3.5 3.4 Tương tác giữa 2 vị trí A và B đối với M1 và M2 được tạo ra trong ma trận 2x2. Tương tác khơng gian (Spatial interaction)