Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

CHƯƠNG I. TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM GOOGLE Như chúng ta đã biết, Google đã trở thành một công cụ hữu ích cho toàn bộ người dùng Internet nhờ vào khả năng tìm kiếm và xử lý thông tin một cách thông minh và dễ dàng. Trong chương này chúng ta sẽ tìm hiểu một cách khái quát về sự phát triển của Google, các giao diện và cách hoạt động của nó 1.1.Giới thiệu về Google và hệ thống tìm kiếm Google 1.1.1 Tổng quan về Google Khởi đầu Công ty Google đã đạt được nhiều thành tựu quan trọng cho dù thời gian hoạt động còn khá ngắn. Từ khi Google được sáng lập năm 1998, Google đã phát triển, phục vụ hàng trăm nghìn người dùng và khách hàng trên khắp thế giới. Đầu tiên (1996) Google là một công trình nghiên cứu của Larry Page và Sergey Brin, hai nghiên cứu sinh tại trường Đại học Stanford. Họ có giả thuyết cho rằng một công cụ tìm kiếm dựa vào phân tích các liên hệ giữa các website sẽ đem lại kết quả tốt hơn cách đang được hiện hành lúc bấy giờ (1996). Đầu tiên nó được gọi là BackRub (Gãi lưng) tại vì hệ thống này dùng các liên kết đến để ước tính tầm quan trọng của trang. Page và Brin tin rằng những trang có nhiều liên kết đến nhất từ các trang thích hợp khác sẽ là những trang thích hợp nhất. Họ đã quyết định thử nghiệm giả thuyết trong nghiên cứu của họ, tạo nền móng cho công cụ Google hiện đại bây giờ (http:/www.google.com). Tên miền www.google.com được đăng ký ngày 15 tháng 9 năm 1997. Họ chính thức thành lập công ty Google, Inc. ngày 7 tháng 9 năm 1998 tại một ga ra của nhà Esther Wojcicki (cũng là nhân viên thứ 16 của Google, Phó Chủ tịch cấp cao, phụ trách bộ phận quảng cáo) tại Menlo Park, California. Trong tháng 2 năm 1999, trụ sở dọn đến Palo Alto, là thành phố có nhiều trụ sở công ty công nghệ khác. Sau khi đổi chỗ hai lần nữa vì công ty quá lớn, trụ sở nay được đặt tại Mountain View, California tại địa chỉ 1600 Amphitheater Parkway vào năm 2003. Công cụ tìm kiếm Google được nhiều người ủng hộ và sử dụng vì nó có một cách trình bày gọn và đơn giản cũng như đem lại kết quả thích hợp và nâng cao. Trong năm 2000, Google đã bắt đầu bán quảng cáo bằng từ khóa để đem lại kết quả thích hợp hơn cho người dùng. Những quảng cáo này chỉ dùng văn chứ không dùng hình để giữ chất đơn giản của trang và tránh sự lộn xộn và đồng thời để trang được hiển thị nhanh hơn.

pdf70 trang | Chia sẻ: thanhle95 | Lượt xem: 394 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google. 1 MỤC LỤC DANH MỤC CÁC BẢNG ............................................................................................... 3 DANH MỤC CÁC HÌNH VẼ ......................................................................................... 4 LỜI NÓI ĐẦU ................................................................................................................. 6 CHƯƠNG I. TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM GOOGLE .......................... 7 1.1.Giới thiệu về Google và hệ thống tìm kiếm Google .................................................. 7 1.1.1 Tổng quan về Google ....................................................................................... 7 1.1.2. Giao diện các trang web của Google ............................................................. 11 1.1.3. Tìm kiếm thông thường ................................................................................ 12 1.1.4. Tìm kiếm nâng cao ....................................................................................... 17 1.2. Tầm quan trọng của hệ thống tìm kiếm Google .................................................... 22 1.3. Phương pháp khai thác thông tin qua hệ thống tìm kiếm Google. ....................... 23 1.3.1. Googlebot , máy thu thập trang web của Google. .......................................... 23 1.3.2. Indexer của Google ....................................................................................... 25 1.3.3.Bộ xử lý truy vấn của Google ........................................................................ 26 CHƯƠNG II: MỘT SỐ KỸ THUẬT KHAI THÁC THÔNG TIN BẬC CAO QUA HỆ THỐNG TÌM KIẾM GOOGLE VÀ CÁC PHƯƠNG PHÁP BẢO VỆ THÔNG TIN 27 2.1. Các cú pháp tìm kiếm nâng cao trong Google ....................................................... 27 2.1.1. Intitle and Allintitle ....................................................................................... 28 2.1.2.Inurl và Allinurl ............................................................................................. 30 2.1.3. Filetype ........................................................................................................ 31 2.1.4. Allintext ........................................................................................................ 33 2.1.5. Site ............................................................................................................... 33 2.1.6 .Link .............................................................................................................. 34 2.1.7. Cache ........................................................................................................... 35 2.1.8. Info ............................................................................................................... 35 2.1.9. Related ........................................................................................................ 36 2.1.10. Define ......................................................................................................... 37 2.1.11. Phonebook .................................................................................................. 38 2.1.12. Daterange ................................................................................................... 40 Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google. 2 2.1.13. Inanchor ..................................................................................................... 41 2.1.14. Numrange ................................................................................................... 41 2.1.15. Author ........................................................................................................ 41 2.1.16. Group ......................................................................................................... 44 2.1.17. Insubject ..................................................................................................... 44 2.1.18. Msgid ......................................................................................................... 45 2.1.19: Stocks ......................................................................................................... 47 2.2. Khai thác thông tin qua hệ thống tìm kiếm Google ............................................... 47 2.2.1. Liệt kê thư mục (Directory Listings) ............................................................. 48 2.2.2. Kỹ thuật thay thế gia tăng (Incremental Substitution) .................................... 51 2.2.3. Extension Walking ........................................................................................ 52 2.2.4. Ẩn danh khi truy cập site với bộ nhớ Caches (Anonymity with Caches) ........ 52 2.3. Các giải pháp bảo vệ thông tin ............................................................................... 55 2.3.1. Xây dựng chính sách bảo mật. ...................................................................... 55 2.3.2.Những biện pháp bảo vệ máy chủ web. .......................................................... 55 2.3.4. Trợ giúp từ Google ....................................................................................... 61 CHƯƠNG III: ÁP DỤNG MỘT SỐ KỸ THUẬT TẤN CÔNG VÀ KHAI THÁC THÔNG TIN BẬC CAO QUA HỆ THỐNG TÌM KIẾM GOOGLE. ......................... 63 3.1. Mục đích ................................................................................................................. 63 3.2.Mô hình triển khai ................................................................................................... 63 3.3.Các bước thực hiện .................................................................................................. 64 3.3.1. Áp dụng cú pháp bậc cao để tìm những trang web bị lỗi SQL injection .. 64 3.3.2. Áp dụng cú pháp bậc cao để khai thác thông tin nhạy cảm. ..................... 66 3.4.Kết quả ..................................................................................................................... 68 3.5.Đánh giá kết quả ...................................................................................................... 68 KẾT LUẬN .................................................................................................................... 69 TÀI LIỆU THAM KHẢO ............................................................................................. 70 Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google. 3 DANH MỤC CÁC BẢNG Bảng 1.1: Chi tiết về giao diện của Google ............................................................. 12 Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google. 4 DANH MỤC CÁC HÌNH VẼ Hình 1.1: Trụ sở Google tại Mountain View, California, USA .................................. 8 Hình 1.2: Giao diện chính của Google (www.google.com.vn) ................................ 11 Hình 1.3: Google Search với từ khóa "Youtube" ..................................................... 13 Hình 1.4: Google Search hình ảnh với từ khóa "youtube" ....................................... 14 Hình 1.5 Google Search video với từ khóa "youtube" ............................................. 15 Hình 1.6: Trang cài đặt tìm kiếm ............................................................................ 16 Hình 1.7: Google dịch ............................................................................................ 17 Hình 1.8: Trang tìm kiếm nâng cao (1) ................................................................... 20 Hình 1.9: Trang tìm kiếm nâng cao (2) ................................................................... 21 Hình 1.10: Trang thêm URL ................................................................................... 24 Hình 2.1: Tiêu đề của trang web ............................................................................. 28 Hình 2.3: Cú pháp intitle ........................................................................................ 29 Hình 2.4: So sánh kết quả allintitle ......................................................................... 30 Hình 2.5: Tìm kiếm với inurl .................................................................................. 30 Hình 2.6: So sánh kết quả với allinurl ..................................................................... 31 Hình 2.7: Một số loại tập tin phổ biến và phần mở rộng trong hệ thống tìm kiếm Google ................................................................................................................... 32 Hình 2.8: 25 loại tập tin phổ biến nhất .................................................................... 32 Hình 2.9: Cú pháp Site ........................................................................................... 33 Hình 2.10: Cú pháp nâng cao với Site .................................................................... 34 Hình 2.11: Cú pháp Link ........................................................................................ 35 Hình 2.12: Cú pháp info ......................................................................................... 36 Hình 2.13: Cú pháp Related ................................................................................... 37 Hình 2.14: Cú pháp define ...................................................................................... 38 Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google. 5 Hình 2.15: Cú pháp Phonebook .............................................................................. 39 Hình 2.16: Cú pháp Bphonebook............................................................................ 40 Hình 2.17: Cú pháp Author..................................................................................... 42 Hình 2.18: Cú pháp author: “Tống Đình Quỳ” ........................................................ 43 Hình 2.19: Cú pháp author:Tống Đình Quỳ ............................................................ 43 Hình 2.20: Cú pháp Group ..................................................................................... 44 Hình 2.21: Một dạng điển hình của Group Message ............................................... 46 Hình 2.22: Message ID của một cổng ..................................................................... 46 Hình 2.23: Cú pháp Stock ...................................................................................... 47 Hình 2.24: Kết quả của Directory Listings website 48 Hình 2.25: Kết quả tìm kiếm thư mục đặc biệt ........................................................ 49 Hình 2.26: Kết quả hiển thị danh sách thư mục cho đường dẫn/bpa/acadunits/admin/envr/bowman. ............................................................. 50 Hình 2.27: Tất cả đều được lưu trong Google cache ............................................... 53 Hình 2.28: Directory listing tiết lộ vị trí tập tin .htaccess ........................................ 56 Hình 2.29: Cú pháp tìm kiếm tập tin robots.txt ....................................................... 58 Hình 2.30: Nội dung của một tập tin roots.txt ......................................................... 59 Hình 2.31: Trang web của Google dành cho quản trị viên web ............................... 62 Hình 2.32: Trang web để loại bỏ URL .................................................................... 62 Hình 3.1: Mô hình mô tả quá trình tìm kiếm của Google ........................................ 64 Hình 3.2: Các trang web có thể bị lỗi SQL injection ............................................... 65 Hình 3.3: Trang web bị lỗi SQL injection ............................................................... 65 Hình 3.4: Một số thông tin của trang web bị lỗi SQL injection ............................... 66 Hình 3.5: Một số trang web có chứa thông tin nhạy cảm ........................................ 67 Hình 3.6: Nội dung của tập tin backup.sql .............................................................. 67 Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google. 6 LỜI NÓI ĐẦU Trong thời đại phát triển thông tin hiện nay, khi mà Internet đã phát triển toàn cầu thì việc tìm kiếm thông tin trên mạng là điều không thể thiếu. Có một công cụ tìm kiếm mà cả thế giới đều biết đến và sử dụng đó là Google. Từ thời điểm ra mắt tới giờ, Google đã phát triển trở thành một trong những công ty lớn nhất thế giới, phục vụ hàng triệu người mỗi ngày. Vậy tại sao nó lại có được những bước thành công to lớn đến như vậy, đó là nhờ việc áp dụng các thuật toán thông minh nhất với việc tích hợp đến hơn 200 thông tin ràng buộc để có thể đưa ra kết quả một cách nhanh nhất và chính xác nhất. Hơn nữa, nó cũng có khả năng chấp nhận những lệnh được định nghĩa sẵn mà khi nhập vào sẽ đưa lại những kết quả mà tìm kiếm thông thường không có được. Điều này cho phép những người dùng có ý xấu như tin tặc, cracker, script kiddies v.v.. sử dụng cỗ máy Google để thu thập những thông tin bí mật và nhạy cảm hay những thông tin không thể tìm thấy bằng những phương pháp tìm kiếm thông thường. Trong bản báo cáo nghiên cứu này,nhóm chúng em sẽ phân tích và làm rõ những đặc điểm, những phương pháp khai thác thông tin bằng Google mà những người quản trị hay chuyên gia bảo mật phải phòng chống để tránh cho những thông tin bí mật có thể bị tìm ra và khai thác:  Những cú pháp tìm kiếm nâng cao với Google.  Tìm kiếm những Site hoặc Server(máy chủ) dễ bị tấn công sử dụng những cú pháp nâng cao của Google.  Bảo mật cho servers hoặc sites khỏi sự tấn công của Google. Với sự hướng dẫn tận tình của thầy Phạm Minh Thuấn chúng em đã hoàn thành bài báo cáo này. Tuy đã cố gắng hết sức tìm hiểu, phân tích nhưng không thể tránh khỏi những thiếu sót. Chúng em rất mong nhận được sự thông cảm và góp ý của các thầy cô. Chúng em xin chân thành cảm ơn! Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google. 7 CHƯƠNG I. TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM GOOGLE Như chúng ta đã biết, Google đã trở thành một công cụ hữu ích cho toàn bộ người dùng Internet nhờ vào khả năng tìm kiếm và xử lý thông tin một cách thông minh và dễ dàng. Trong chương này chúng ta sẽ tìm hiểu một cách khái quát về sự phát triển của Google, các giao diện và cách hoạt động của nó 1.1.Giới thiệu về Google và hệ thống tìm kiếm Google 1.1.1 Tổng quan về Google Khởi đầu Công ty Google đã đạt được nhiều thành tựu quan trọng cho dù thời gian hoạt động còn khá ngắn. Từ khi Google được sáng lập năm 1998, Google đã phát triển, phục vụ hàng trăm nghìn người dùng và khách hàng trên khắp thế giới. Đầu tiên (1996) Google là một công trình nghiên cứu của Larry Page và Sergey Brin, hai nghiên cứu sinh tại trường Đại học Stanford. Họ có giả thuyết cho rằng một công cụ tìm kiếm dựa vào phân tích các liên hệ giữa các website sẽ đem lại kết quả tốt hơn cách đang được hiện hành lúc bấy giờ (1996). Đầu tiên nó được gọi là BackRub (Gãi lưng) tại vì hệ thống này dùng các liên kết đến để ước tính tầm quan trọng của trang. Page và Brin tin rằng những trang có nhiều liên kết đến nhất từ các trang thích hợp khác sẽ là những trang thích hợp nhất. Họ đã quyết định thử nghiệm giả thuyết trong nghiên cứu của họ, tạo nền móng cho công cụ Google hiện đại bây giờ ( Tên miền www.google.com được đăng ký ngày 15 tháng 9 năm 1997. Họ chính thức thành lập công ty Google, Inc. ngày 7 tháng 9 năm 1998 tại một ga ra của nhà Esther Wojcicki (cũng là nhân viên thứ 16 của Google, Phó Chủ tịch cấp cao, phụ trách bộ phận quảng cáo) tại Menlo Park, California. Trong tháng 2 năm 1999, trụ sở dọn đến Palo Alto, là thành phố có nhiều trụ sở công ty công nghệ khác. Sau khi đổi chỗ hai lần nữa vì công ty quá lớn, Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google. 8 trụ sở nay được đặt tại Mountain View, California tại địa chỉ 1600 Amphitheater Parkway vào năm 2003. Công cụ tìm kiếm Google được nhiều người ủng hộ và sử dụng vì nó có một cách trình bày gọn và đơn giản cũng như đem lại kết quả thích hợp và nâng cao. Trong năm 2000, Google đã bắt đầu bán quảng cáo bằng từ khóa để đem lại kết quả thích hợp hơn cho người dùng. Những quảng cáo này chỉ dùng văn chứ không dùng hình để giữ chất đơn giản của trang và tránh sự lộn xộn và đồng thời để trang được hiển thị nhanh hơn. Hình 1.1: Trụ sở Google tại Mountain View, California, USA Sự phát triển của Google Khi thị trường ban đầu của công ty là trên thị trường web, Google đã bắt đầu thử nghiệm ở một số thị trường khác, ví dụ như Phát thanh hoặc Xuất bản. Ngày 17- 1-2006, Google công bố rằng công ty đã mua lại công ty quảng cáo phát thanh dMarc, công ty đã sử dụng một hệ thống tự động, cho phép các công ty quảng cáo Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google. 9 trên radio. Điều này sẽ giúp Google kết hợp 2 kênh quảng cáo truyền thông là Internet và Radio, với khả năng của Google, nhắm thẳng vào tâm lý khách hàng. Google cũng bắt đầu thử nghiệm bán quảng cáo trên các kênh quảng cáo offline của công ty, như trên báo và tạp chí, với các quảng cáo được lựa chon trên Chicago-Sun Times. Họ đã lấp được một chỗ trống không bán được trên tờ báo mà trước đấy thường được dùng vào việc quảng cáo nhà. Google được đưa vào danh sách 500 S&P index ngày 30 tháng 3 năm 2006, chiếm vị trí của Burlington Resources, một nhà sản xuất dầu chính ở Houston. Google nổi tiếng bởi dịch vụ Tìm kiếm của nó, nhân tố chính dẫn đến thành công của Google. Vào tháng 12 năm 2006, Google là công cụ tìm kiếm được sử dụng nhiều nhất trên mạng chiếm 50,8% thị phần, vượt xa so với Yahoo (23,6 %) và Window Live Search (8,4%). Google liên kết với hàng tỷ trang web, vì thế người sử dụng có thể tìm kiếm thông tin mà họ muốn thông qua các từ khóa và các toán tử. Google cũng tận dụng công nghệ tìm kiếm của mình vào nhiều dịch vụ tìm kiếm khác, bao gồm Image Search (tìm kiếm ảnh), Google News, trang web so sánh giá cả Froogle, cộng đồng tương tác Google Groups, Google Maps và còn nhiều nữa. Năm 2004, Google ra mắt dịch vụ email trên nền web, gọi là Gmail. Gmail hỗ trợ công nghệ lọc thư rác và khả năng sử dụng Công nghệ tìm kiếm của Google để tìm kiếm thư. Dịch vụ này tạo ra thu nhập bằng cách hiển thị quảng cáo từ dịch vụ AdWords mà phù hợp với nội dung của email hiển thị trên màn hình. Đầu năm 2006, Google ra mắt dịch vụ Google Video, dịch vụ không chỉ cho phép người dùng tìm kiếm và xem miễn phí các video có sẵn mà còn cho người sử dụng hay các nhà phát hành khả năng phát hành nội dung mà họ muốn, kể cả các chương trình truyền hình trên CBS, NBA và các video ca nhạc. Nhưng đến tháng 8 năm 2007 , Google đã đóng cửa trang web này trước sự cạnh tranh của đối thủ Youtube cũng thuộc sở hữu của công ty Google cũng đã phát triển một số ứng dụng nhỏ gọn, bao gồm cả Google Earth, một chương trình tương tác sử dụng ảnh vệ tinh. Ngoài ra công ty còn phát Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google. 10 triển nhiều gói phần mềm văn phòng trên ứng dụng web tên là Google Docs nhằm cạnh tranh thị phần với Microsoft Office. Nhiều ứng dụng khác nữa có tại Google Labs, một bộ sưu tập những phần mềm chưa hoàn chỉnh. Chúng đang được thử nghiệm để có thể đưa ra sử dụng trong cộng đồ
Tài liệu liên quan