Chương 2: Xây dựng dữ liệu

Bản đồ là mô hình thu nhỏ của một phần hay toàn bộ bề mặt trái đất, phản ánh các hiện tượng tự nhiên, kinh tế và xã hội thông qua một hệ thống ký hiệu, thể hiện một cách có chọn lọc, khái quát hoá và dựa trên một cơ sở toán nhất định để đảm bảo tính chính xác.

pdf53 trang | Chia sẻ: lylyngoc | Lượt xem: 1757 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Chương 2: Xây dựng dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 2: XÂY DỰNG DỮ LIỆU 14/09/2012 1 2.1 Cơ sở toán học bản đồ 2.2 Nhập xuất dữ liệu 2.3 Chất lượng dữ liệu 2.1 CƠ SỞ TOÁN HỌC BẢN ĐỒ Bản đồ là mô hình thu nhỏ của một phần hay toàn bộ bề mặt trái đất, phản ánh các hiện tượng tự nhiên, kinh tế và xã hội thông qua một hệ thống ký hiệu, thể hiện một cách có chọn lọc, khái quát hoá và dựa trên một cơ sở toán nhất định để đảm bảo tính chính xác. Map Information Message Map distance Globe distance Globe distance Earth distance Tỷ lệ (Scale) 1: 42,000,000 Scale Factor 0.9996 (Hệ số biến dạng) Phép chiếu (Projection) Earth Globe Map Cartography Map reading 2.1 CƠ SỞ TOÁN HỌC BẢN ĐỒ Bản đồ: là mô hình thu nhỏ của bề mặt trái đất, theo một phép chiếu và tỷ lệ nhất định. Phép chiếu (Projection) Map Mặt nước gốc (The Geoid): bề mặt trọng trường (gravity field) thể hiện bởi bề mặt nước biển trung bình (the mean sea level). The ellipsoid: gần nhất với Geoid. Ellipsoid khác nhau: độ chính xác lập bản đồ khác nhau. TỶ LỆ BẢN ĐỒ Bản đồ địa hình VN thành lập với các tỉ lệ: 1: 100.000 1: 50.000 1: 25.000 1: 10.000 1: 5.000 1: 2.000 1: 1.000 1: 500 TP Q., HUYỆN P., XÃ Cơng trình Mẫu số tỉ lệ M=5.000, d = 1cm trên bản đồ tương ứng D = 50 m ngoài thực địa 1cm 2 tương ứng 50m x 50 m = 2.500 m 2 Độ chính xác của bản đồ: 1: M = d/D 0,1 x M x 10 -3 M=5000 tương ứng 0.5 m CÁC HÌNH THỨC KHÁI QUÁT HOÁ BẢN ĐỒ: - Chọn lọc đối tượng - Thay đổi thang số lượng – chất lượng - Khái quát hoá về mặt hình học sao cho phù hợp với nhiệm vụ, nội dung, tỉ lệ và đặc điểm của vùng thể hiện KÝ HIỆU BẢN ĐỒ Hệ thống ký hiệu Point representation Line representation Area representation Volumetric representation R ea l W or ld P he no m en a Po in t ob je ct s Li ne ob je ct s A re a ob je ct s V ol um et ric ob je ct s Tree Q X Airport Chemical spill  Open-pit mine R Highway Tel. poles Phone line Right of way Animals Animal range Stream Watershed Administrative division Housing density Road density Forest cover Proportional symbol Mountain range Valley N 14/09/2012 7 HỆ THAM CHIẾU (Datums) Mơ hình thể hiện mối quan hệ giữa gốc Hệ toạ độ và định hướng (origin & orientation) được sử dụng và bề mặt vật Lý của trái đất. Datum được xác định bởi: - Kích thước và hình dạng (Ellipsoid) - Vị trí và định hướng của mơ hình (Ellipsoid)  Mỗi quốc gia sử dụng hệ tham chiếu riêng  Hệ tham chiếu tồn cầu (global datum) được sử dụng chung HN72 VN 2000 WGS84 (GPS World-wide) Where is north on this map? World Geodetic System - 1984 The datum on which GPS coordinates are based and probably the most common datum for GIS data sets with global extent.  HỆ TOẠ ĐỘ ĐỊA LÝ Geographic Coordinate Systems: (Lat φ, Long λ, Ellipsoid height h) 1° longitude: – Equator= 111 km – 60° lat. = 55.8 km – 90° lat. = 0km Horizontal vs Vertical Datums • Horizontal datums are the reference values for a system of location measurements. • Vertical datums are the reference values for a system of elevation measurements. B LAB A A B SAB A B hAB Vertical Distance Horizontal Distance Slope Distance SAB L hBC A B C  tanαSh LCosα S ABBC AB   BCB BC hH h   C BC H HH H x Q Độ chênh cao Height and Elevation The Height is defined as the distance from a chosen reference system along the perpendicular to a surface: Geoid & ellipsoid * Ellipsoid (Ellipsoid height h): a mathematical reference Provides ellipsoidal height • The Geoid (Orthometric height H): - a physical reference - Provides Orthometric Heights (elevation)  GPS provides ellipsoidal heights Mean Sea Level (Geoid) Ellipsoid Terrain Mặt geoid hAB HA HB B HA A Mặt geoid Phương dây dọi Mặt biển Độ chênh cao giữa hai điểm (ký hiệu h). Nếu độ cao điểm A đã biết, đo được h AB độ cao điểm B: HB = HA + hAB 10.5 14.2 16.8 15.1 HA=10m a=1.65m b=1.25m HB=? unknown elevation 0 100 200 300 400 500 600 Horizontal Distance 900 898 896 894 892 890 888 886 884 882 880 Vertical Distance (Elevation)  PHÉP CHIẾU BẢN ĐỒ (Map Projection) Phương pháp tốn thể hiện các đối tượng trên mặt đất lên mặt phẳng bản đồ với sự biến dạng là tối thiểu. Kết quả: Hệ toạ độ tham chiếu y x l f 14 Universal Transverse Mercator (UTM) * Theo kinh tuyến chia trái đất thành 60 múi  Múi chiếu : 6 độ * Apply a custom Transverse Mercatorprojection to each strip and use false eastings and northings to make all projected coordinates positive. – Plane (azimuthal projections) – Cylinder (cylindrical projections) – Cone (conical projections) Cylinder and cone produce a line of intersection (standard parallel) rather than at a point Standard Parallel T’ UTM Zone is 6o wide Rotate in 6o increments (x) (y) y x (500,000m, 0) x y (500,000m, 10,000,000m) Standard Parallels 3o apart 14/09/2012 16 y x (500,000m, 0) 4  D A từ A thực  C   Số gia tọa độ yAB = SAB.sinAB xAB = SAB.cosAB  Toạ độ của điểm B xB = xA + xAB yB = yA + yAB SAB A B y yA yB yAB xB xA xAB AB 22 yxSAB  AB AB AB x y arctg    Digital Terrain Model (DTM) is a representation of terrain information Using discrete sampled digital values, like slope, aspect, etc. Digital Elevation Model (DEM) only represents the elevation data Digital Surface Model (DSM )  Đường thể hiện các điểm cĩ cùng độ cao.  Xác định hình dáng và độ dốc của mặt đất.  Contour lines khơng được cắt nhau. 2D (x, y) + attributes 3D (x, y, z) + attributes Mặt cắt ngang (Cross section ) Mặt cắt dọc (Profiles) Watershed management Sử dụng đường đồng mức Phân tích DEM 30 of 40 2 cách tính độ dốc (Slope ) Percentage = slope x100 Degree = arctan (slope) 14/09/2012 25 – Là quá trình mã hóa dữ liệu thành dạng có thể dùng trên máy tính. - Giá thành xây dựng CSDL ban đầu > phần cứng và phần mềm. - Tạo một CSDL chính xác và đầy đủ là quan trọng - Thông tin về chất lượng dữ liệu gồm:  ngày thu nhận;  độ chính xác vị trí;  độ chính xác phân loại;  tính toàn diện;  phương pháp sử dụng để thu thập và mã hóa dữ liệu. 2.2 Nhập xuất dữ liệu a. Nhập dữ liệu 14/09/2012 26 5 phương pháp nhập dữ liệu: nhập từ bàn phím và nhập tọa độ (COGO - coordinate geometry);  nhập từ bàn số hóa (digitizer); nhập bằng máy quét (scanner); nhập trực tiếp từ các tập tin hiện hữu (files); dữ liệu viễn thám (remotely sensed data). Phương pháp nhập dữ liệu 14/09/2012 * Nhập từ bàn phím và nhập tọa độ – Hầu hết dữ liệu thuộc tính được nhập từ bàn phím. – Một số dữ liệu thuộc tính có sẳn trong dạng số hoặc được nhập vào máy tính xách tay trong lúc khảo sát thực địa. – Quá trình nhập tọa độ được dùng để vào thông tin hồ sơ địa chính. Độ chính xác vị trí cao được thu nhận từ các thiết bị đo đạc. * Nhập từ bàn số hóa 14/09/2012 28 14/09/2012 29 Các loại sai số khi nhập dữ liệu Phương pháp nhập dữ liệu 14/09/2012 30 * Nhập bằng máy quyét 14/09/2012 31 Hai mô hình dữ liệu cơ bản của thông tin địa lý:  Mô hình vector  Mô hình raster 14/09/2012 32 - Mô hình vector:  các đối tượng được thể hiện dưới dạng điểm, đường, vùng như chúng được vẽ trên bản đồ;  vị trí của đối tượng có giá trị tọa độ duy nhất. - Mô hình raster:  ảnh raster được phân chia thành những cell (thường dạng hình vuông);  vị trí của đối tượng được xác định bởi vị trí dòng, cột của cell. 14/09/2012 33 MÔ HÌNH DỮ LIỆU RASTER & VECTOR A. Thế giớ thực R R R R R R R R R R R P P P P P H S SS 1 2 3 4 5 6 7 8 9 10 1 2 43 5 6 7 8 9 10 100 200 300 400 500 600 100 200 300 400 500 600 River House P S X-AXIS Y -A X IS B. Sự biểu diển Raster C. Sự biểu diển Vector 14/09/2012 34 Các loại mô hình vector:  mô hình dữ liệu Spaghetti;  mô hình dữ liệu topology;  mạng tam giác không đều (TIN). 14/09/2012 35 Trong cả 2 mô hình, thông tin không gian được thể hiện sử dụng đơn vị đồng nhất (VD: cell trong mô hình raster và điểm, đường, vùng của mô hình vector). Điểm Đường Vùng - Vị trí của cell (or pixel) được xác định bởi số dòng và cột của nó. - Giá trị của cell là giá trị thể hiện thuộc tính. Mỗi cell chỉ được gán 1 giá trị. - Cell thể hiện diện tích đất càng nhỏ thì độ phân giải càng cao và dữ liệu được lưu trữ càng lớn. Height PIXEL 0 1 2 3 X, Column Pixel No. 0 1 2 3 14/09/2012 36 10m 20m 40m 80m Spatial Resolution 14/09/2012 37 Temporal Resolution Phân giải phổ 0,45 - 0,52m Phân giải bức xạ 8-bit (0 - 255) Size of pixel 30x30m (Phân giải không gian) Quan sát cùng khu vực sau 16 ngày(Phân giải thới gian)  How often a given sensor obtains imagery of a particular area, e.g., 16 days, daily Radiometric Resolution  The sensitivity of a detector to differences in signal strength as it records the radiant flux reflected or emitted from the terrain 256 levels 16 levels 4 levels 2 levels 8 bit 4 bit 2 bit 1 bit 38 14/09/2012 MÔ HÌNH DỮ LIỆU THUỘC TÍNH - Có 3 mô hình dữ liệu thích hợp cho việc sử dụng trong môi trường GIS:  mô hình phân cấp;  mô hình lưới;  mô hình quan hệ. - Khái niệm về Record, Field và Key: record: + nhóm nhỏ dữ liệu quan hệ được lưu trữ trong 1 mẫu tin; + một dòng trong bảng. field: + một record được phân chia thành nhiều field, môãi field chứa 1 loại dữ liệu; + một cột trong bảng. key: + khóa bao gồm 1 hoặc nhiều field 14/09/2012 39 23 23 x 10 63 64 x 10 63 64 Original Map Map expressed in Cartesian Coordinates Mô Hình Dữ Liệu FEATURE Cấu Trúc Dữ Liệu NUMBER LOCATION Point 23 X,Y (Single Point)10 Line Polygon 63 64 X1 Y1,X2 Y2,.....Xn Yn (String) X1 Y1,X2 Y2,...X1 Y1(Closed Loop) X1 Y1,X2 Y2,...X1 Y1(Closed Loop) Mô Hình Dữ Liệu Spaggheti 14/09/2012 40 - Ảnh vệ tinh:  các vệ tinh viễn thám như: Landsat MSS, TM. ETM+ (Mỹ); SPOT (Pháp), ERS, ENVISAT (ESA), RADARSAT (Canada)… Ảnh vệ tinh độ phân giải cao như: SPOT5 (PAN: 2.5, XS: 10m), IKONOS (1, 4m), QuickBird (0.61, 2.44m), GeoEye (0.5m), WorldView-2 (0.5m), …  dữ liệu vệ tinh thường trong dạng số;  dùng lập bản đồ nhiệt độ bề mặt, sử dụng đất, ngập lụt, chất lượng nước, rừng,...  ảûnh vệ tinh SPOT 5 có thể dùng để lập mô hình số độ cao, bản đồ địa hình tỉ lệ 1:50.000, 1:25.000, cập nhật bản đồ địa hình tỉ lệ 1:10.000. 14/09/2012 41 Ảnh ERS đa thời gian tổ hợp màu 14/09/2012 42 Ảnh QuickBird độ phân giải 0,61m 14/09/2012 43 Xuất dữ liệu - Có ba dạng sau: hardcopy: thông tin được in ra giấy, mila, phim,... (VD: bản đồ giấy, bảng biểu);  softcopy: là dạng thông tin được xem trên màn hình máy tính (VD: văn bản, đồ họa đơn sắc hoặc màu), softcopy có thể thay đổi nhưng việc xem bị hạn chế do kích thước màn hình;  thông tin xuất trong dạng điện tử: gồm những tập tin máy tính. - Thiết bị xuất hardcopy: pen plotter - máy vẽ dùng bút;  Ink jet plotter - máy vẽ phun mực;  thermal plotter - máy vẽ nhiệt; electrostatic plotter - máy vẽ tĩnh điện; dot matrix printer - máy in kim;  lazer printer - máy in lazer; optical film writer - thiết bị ghi phim;  screen copy device - thiết bị copy màn hình. 14/09/2012 44 Thiết bị xuất hardcopy Pen plotter 14/09/2012 45 2.3 Chất lượng dữ liệu a. Các thành phần chất lượng dữ liệu - Gồm 9 thành phần, đượïc chia thành 3 nhóm: thành phần cấp vi mô; thành phần cấp vĩ mô; thành phần thông dụng. 14/09/2012 46 * Thành phần ở cấp vi mô - Độ chính xác vị trí:  độ chính xác vị trí của một đối tượng trên bản đồ so với ngoài thực địa;  trong trắc địa và trắc địa ảnh là sai số quân phương (RMS - root mean square error). - Độ chính xác dữ liệu thuộc tính: thuộc tính có thể là  những biến rời rạc, VD: loại sử dụng đất, độ xói mòn chia làm 4 cấp, chiều cao cây chia ra 5 mức;  những biến liên tục, VD: nhiệt độ, giá trị tài sản trung bình. - Tính nhất quán logic (logical consistency):  tính nhất quán liên quan đến mối quan hệ logic giữa những yếu tố dữ liệu được duy trì như thế nào;  VD: ranh giới khu rừng, mực nước trong hồ chứa, ranh giới chung của hai dữ liệu có sai lệch. - Độ phân giải:  độ phân giải của dữ liệu là đơn vị có thể nhận biết nhỏ nhất;  trong trường hợp ảnh máy bay và ảnh vệ tinh chính là độ phân giải không gian;  VD: độ phân giải ảnh Landsat ETM là 15, 30m và SPOT là 2.5, 5, 10, 20m;  đối với bản đồ chuyên đề, độ phân giải là kích thước nhỏ nhất của đối tượng được thể hiện trên bản đồ còn gọi là đơn vị bản đồ tối thiểu. Các thành phần chất lượng dữ liệu 14/09/2012 47 * Thành phần ở cấp vĩ mô - Tính toàn diện được nhóm thành 3 loại:  tính toàn diện về độ phủ;  tính toàn diện về phân loại;  tính toàn diện về kiểm tra. Tính toàn diện về phân loại và kiểm tra chính là yếu tố quan trọng về chất lượng dữ liệu. - Thời gian: là yếu tố quan trọng khi sử dụng nhiều loại thông tin địa lý, chẳng hạn như:  thông tin về dân số có thể thay đổi đáng kể trong một năm;  sử dụng đất thay đổi nhanh chóng trong vùng đô thị hóa;  trong vùng sản xuất nông nghiệp nhiều vụ mỗi năm. - Lý lịch dữ liẹäu: là lịch sử dữ liệu, dữ liệu gốc và những bước xữ lý dùng để sản xuất dữ liệu  dữ liệu gốc: gồm tài liệu ghi chép, sổ ghi thực địa, ảnh máy bay, bản đồ;  trong một số trường hợp hiểu biết về lý lịch dữ liệu là xem xét quan trọng trong việc chọn dữ liệu cho một ứng dụng nào đó. Các thành phần chất lượng dữ liệu 14/09/2012 48 Các thành phần chất lượng dữ liệu * Thành phần thông dụng - Tính tiếp cận: liên quan đến việc dễ dàng tiếp cận và sử dụng dữ liệu hay không  một số dữ liệu do tổ chức tư nhân quản lý, một số khác do nhà nước quản lý sẽ bị hạn chế tiếp cận vì lý do bảo mật. - Giá thành trực tiếp và gián tiếp:  giá thành trực tiếp là giá phải trả để mua dữ liệu;  giá thành gián tiếp bao gồm thời gian và vật liệu dùng để có thể khai thác dữ liệu đó, chẳng hạn như dữ liệu được mua không tương thích với tập hợp dữ liệu đang được sử dụng hoặc không trong dạng số. 14/09/2012 49 Các thành phần chất lượng dữ liệu: Lý lịch dữ liệu (metadata) 1. Thông tin nhận dạng 1.1. Tên của tập dữ liệu 1.2. Mô tả tóm tắt (kiểu dạng, nội dung chính…) 1.3. Mục đích xây dựng, các ứng dụng có thể 1.4. Phạm vi/ Vị trí không gian mà dữ liệu bao phủ (tên vùng, các điểm biên) 1.5. Xuất xứ của tập dữ liệu (nguồn gốc và phần mềm được sử dụng, format dữ liệu) 1.6. Ngôn ngữ sử dụng – font 1.7. Thời gian xây dựng dữ liệu (bắt đầu, kết thúc) 1.8. Hiện trạng (tình hình xây dựng – hoàn thành) 1.9. Kế hoạch cập nhật dữ liệu (chu kỳ cập nhật, ngày cập nhật cuối…) 1.10. Sử dụng dữ liệu (bản quyền, ràng buộc truy cập, ràng buộc sử dụng…) 1.11. Đơn vị xây dựng 1.12. Đơn vị quản lý (thông tin để liên lạc) 14/09/2012 50 Các thành phần chất lượng dữ liệu: Lý lịch dữ liệu (metadata) 2. Thông tin về chất lượng dữ liệu 2.1. Nguồn gốc dữ liệu (hình thức gốc, tỉ lệ gốc, phương thức xử lý…) 2.2. Độ chính xác vị trí 2.3. Độ chính xác thuộc tính 2.4. Tính toàn vẹn/ đầy đủ 3. Thông tin về tổ chức dữ liệu không gian 3.1. Mô hình và cấu trúc dữ liệu không gian (vector/raster; spaghetti/topology,…) 3.2. Tổ chức dữ liệu 4. Thông tin tham chiếu không gian 4.1. Hệ toạ độ (lưới chiếu, ellipsoid, đặc điểm sai số, đơn vị toạ độ…) 4.2. Hệ độ cao (Điểm mốc cao độ, đơn vị, độ phân giải…) 4.3. Hệ độ sâu (điểm mốc độ sâu, đơn vị, độ phân giải… 5. Thông tin về nội dung dữ liệu 5.1. Dữ lệu không gian (tên lớp, nhóm lớp, mô tả, loại đối tượng, số lượng) 5.2. Dữ liệu thuộc tính (tổng số field, tên, kiểu dữ liệu, dộ rộng, định nghĩa, đơn vị…) 5.3. Dữ liệu thời gian (tên field, mô tả, độ rộng…) 14/09/2012 51 Các thành phần chất lượng dữ liệu: Lý lịch dữ liệu (metadata) 6. Thông tin về lưu trữ và bảo dưỡng 6.1. Định dạng dữ liệu lưu trữ 6.2. Ngày được lưu 6.3. Chu kỳ cập nhật (dữ liệu không gian, dữ liệu thuộc tính) 6.4. Phân cấp lưu trữ (cấp được lưu trữ) 7. Thông tin về phân phối 7.1. Mô tả dữ liệu phân phối (format, kích thước, phương tiện…) 7.2. Điều kiện truy cập 7.3. Tính chất pháp lý 8. Tham chiếu metadata 8.1. Ngày tạo ra 8.2 Kế hoạch cập nhật 8.3. Đơn vị / cá nhân trách nhiệm. 14/09/2012 52 2.3 Chất lượng dữ liệu b. Các nguồn sai số Những nguồn sai số thường gặp trong sử dụng GIS: * Thu thập dữ liệu:  sai số thu thập dữ liệu tại thực địa;  sai số trong các bản đồ hiện hửu được dùng như bản đồ gốc;  sai số trong phân tích ảnh viễn thám. * Nhập dữ liệu:  sai số trong quá trình số hóa do con người và thiết bị;  sai số vốn có của đối tượng địa lý (VD: đường bờ, bìa rừng). * Lưu trữ dữ liệu:  chính xác về số không đủ;  chính xác không gian không đủ. 14/09/2012 53 2.2 Chất lượng dữ liệu b. Các nguồn sai số * Thao tác dữ liệu:  sai số ranh giới;  khoảng phân lớp không thích hợp;  sai số lan truyền khi chồng lớp dữ liệu;  sai lệch nhỏ (sliver) gây ra trong quá trình chồng các polygon. * Xuất dữ liệu:  không chính xác về tỉ lệ;  sai số gây ra do thiết bị xuất;  sai số gây ra do tính không ổn định của phương tiện lưu trữ;  sai số vốn có của đối tượng địa lý (VD: đường bờ, bìa rừng). * Sử dụng kết quả:  thông tin có thể được hiểu không chính xác;  thông tin có thể được sử dụng không thích hợp.