CHƯƠNG I. TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM
GOOGLE
Như chúng ta đã biết, Google đã trở thành một công cụ hữu ích cho toàn bộ
người dùng Internet nhờ vào khả năng tìm kiếm và xử lý thông tin một cách thông
minh và dễ dàng. Trong chương này chúng ta sẽ tìm hiểu một cách khái quát về sự
phát triển của Google, các giao diện và cách hoạt động của nó
1.1.Giới thiệu về Google và hệ thống tìm kiếm Google
1.1.1 Tổng quan về Google
Khởi đầu
Công ty Google đã đạt được nhiều thành tựu quan trọng cho dù thời gian
hoạt động còn khá ngắn. Từ khi Google được sáng lập năm 1998, Google đã phát
triển, phục vụ hàng trăm nghìn người dùng và khách hàng trên khắp thế giới.
Đầu tiên (1996) Google là một công trình nghiên cứu của Larry
Page và Sergey Brin, hai nghiên cứu sinh tại trường Đại học Stanford. Họ có giả
thuyết cho rằng một công cụ tìm kiếm dựa vào phân tích các liên hệ giữa các
website sẽ đem lại kết quả tốt hơn cách đang được hiện hành lúc bấy giờ (1996).
Đầu tiên nó được gọi là BackRub (Gãi lưng) tại vì hệ thống này dùng các liên kết
đến để ước tính tầm quan trọng của trang.
Page và Brin tin rằng những trang có nhiều liên kết đến nhất từ các trang
thích hợp khác sẽ là những trang thích hợp nhất. Họ đã quyết định thử nghiệm giả
thuyết trong nghiên cứu của họ, tạo nền móng cho công cụ Google hiện đại bây giờ
(http:/www.google.com). Tên miền www.google.com được đăng ký ngày 15 tháng
9 năm 1997. Họ chính thức thành lập công ty Google, Inc. ngày 7 tháng
9 năm 1998 tại một ga ra của nhà Esther Wojcicki (cũng là nhân viên thứ 16 của
Google, Phó Chủ tịch cấp cao, phụ trách bộ phận quảng cáo) tại Menlo Park,
California. Trong tháng 2 năm 1999, trụ sở dọn đến Palo Alto, là thành phố có
nhiều trụ sở công ty công nghệ khác. Sau khi đổi chỗ hai lần nữa vì công ty quá lớn,
trụ sở nay được đặt tại Mountain View, California tại địa chỉ 1600 Amphitheater
Parkway vào năm 2003.
Công cụ tìm kiếm Google được nhiều người ủng hộ và sử dụng vì nó có một
cách trình bày gọn và đơn giản cũng như đem lại kết quả thích hợp và nâng cao.
Trong năm 2000, Google đã bắt đầu bán quảng cáo bằng từ khóa để đem lại kết quả
thích hợp hơn cho người dùng. Những quảng cáo này chỉ dùng văn chứ không dùng
hình để giữ chất đơn giản của trang và tránh sự lộn xộn và đồng thời để trang được
hiển thị nhanh hơn.
70 trang |
Chia sẻ: thanhle95 | Lượt xem: 495 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm
kiếm Google.
1
MỤC LỤC
DANH MỤC CÁC BẢNG ............................................................................................... 3
DANH MỤC CÁC HÌNH VẼ ......................................................................................... 4
LỜI NÓI ĐẦU ................................................................................................................. 6
CHƯƠNG I. TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM GOOGLE .......................... 7
1.1.Giới thiệu về Google và hệ thống tìm kiếm Google .................................................. 7
1.1.1 Tổng quan về Google ....................................................................................... 7
1.1.2. Giao diện các trang web của Google ............................................................. 11
1.1.3. Tìm kiếm thông thường ................................................................................ 12
1.1.4. Tìm kiếm nâng cao ....................................................................................... 17
1.2. Tầm quan trọng của hệ thống tìm kiếm Google .................................................... 22
1.3. Phương pháp khai thác thông tin qua hệ thống tìm kiếm Google. ....................... 23
1.3.1. Googlebot , máy thu thập trang web của Google. .......................................... 23
1.3.2. Indexer của Google ....................................................................................... 25
1.3.3.Bộ xử lý truy vấn của Google ........................................................................ 26
CHƯƠNG II: MỘT SỐ KỸ THUẬT KHAI THÁC THÔNG TIN BẬC CAO QUA HỆ
THỐNG TÌM KIẾM GOOGLE VÀ CÁC PHƯƠNG PHÁP BẢO VỆ THÔNG TIN 27
2.1. Các cú pháp tìm kiếm nâng cao trong Google ....................................................... 27
2.1.1. Intitle and Allintitle ....................................................................................... 28
2.1.2.Inurl và Allinurl ............................................................................................. 30
2.1.3. Filetype ........................................................................................................ 31
2.1.4. Allintext ........................................................................................................ 33
2.1.5. Site ............................................................................................................... 33
2.1.6 .Link .............................................................................................................. 34
2.1.7. Cache ........................................................................................................... 35
2.1.8. Info ............................................................................................................... 35
2.1.9. Related ........................................................................................................ 36
2.1.10. Define ......................................................................................................... 37
2.1.11. Phonebook .................................................................................................. 38
2.1.12. Daterange ................................................................................................... 40
Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm
kiếm Google.
2
2.1.13. Inanchor ..................................................................................................... 41
2.1.14. Numrange ................................................................................................... 41
2.1.15. Author ........................................................................................................ 41
2.1.16. Group ......................................................................................................... 44
2.1.17. Insubject ..................................................................................................... 44
2.1.18. Msgid ......................................................................................................... 45
2.1.19: Stocks ......................................................................................................... 47
2.2. Khai thác thông tin qua hệ thống tìm kiếm Google ............................................... 47
2.2.1. Liệt kê thư mục (Directory Listings) ............................................................. 48
2.2.2. Kỹ thuật thay thế gia tăng (Incremental Substitution) .................................... 51
2.2.3. Extension Walking ........................................................................................ 52
2.2.4. Ẩn danh khi truy cập site với bộ nhớ Caches (Anonymity with Caches) ........ 52
2.3. Các giải pháp bảo vệ thông tin ............................................................................... 55
2.3.1. Xây dựng chính sách bảo mật. ...................................................................... 55
2.3.2.Những biện pháp bảo vệ máy chủ web. .......................................................... 55
2.3.4. Trợ giúp từ Google ....................................................................................... 61
CHƯƠNG III: ÁP DỤNG MỘT SỐ KỸ THUẬT TẤN CÔNG VÀ KHAI THÁC
THÔNG TIN BẬC CAO QUA HỆ THỐNG TÌM KIẾM GOOGLE. ......................... 63
3.1. Mục đích ................................................................................................................. 63
3.2.Mô hình triển khai ................................................................................................... 63
3.3.Các bước thực hiện .................................................................................................. 64
3.3.1. Áp dụng cú pháp bậc cao để tìm những trang web bị lỗi SQL injection .. 64
3.3.2. Áp dụng cú pháp bậc cao để khai thác thông tin nhạy cảm. ..................... 66
3.4.Kết quả ..................................................................................................................... 68
3.5.Đánh giá kết quả ...................................................................................................... 68
KẾT LUẬN .................................................................................................................... 69
TÀI LIỆU THAM KHẢO ............................................................................................. 70
Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm
kiếm Google.
3
DANH MỤC CÁC BẢNG
Bảng 1.1: Chi tiết về giao diện của Google ............................................................. 12
Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm
kiếm Google.
4
DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Trụ sở Google tại Mountain View, California, USA .................................. 8
Hình 1.2: Giao diện chính của Google (www.google.com.vn) ................................ 11
Hình 1.3: Google Search với từ khóa "Youtube" ..................................................... 13
Hình 1.4: Google Search hình ảnh với từ khóa "youtube" ....................................... 14
Hình 1.5 Google Search video với từ khóa "youtube" ............................................. 15
Hình 1.6: Trang cài đặt tìm kiếm ............................................................................ 16
Hình 1.7: Google dịch ............................................................................................ 17
Hình 1.8: Trang tìm kiếm nâng cao (1) ................................................................... 20
Hình 1.9: Trang tìm kiếm nâng cao (2) ................................................................... 21
Hình 1.10: Trang thêm URL ................................................................................... 24
Hình 2.1: Tiêu đề của trang web ............................................................................. 28
Hình 2.3: Cú pháp intitle ........................................................................................ 29
Hình 2.4: So sánh kết quả allintitle ......................................................................... 30
Hình 2.5: Tìm kiếm với inurl .................................................................................. 30
Hình 2.6: So sánh kết quả với allinurl ..................................................................... 31
Hình 2.7: Một số loại tập tin phổ biến và phần mở rộng trong hệ thống tìm kiếm
Google ................................................................................................................... 32
Hình 2.8: 25 loại tập tin phổ biến nhất .................................................................... 32
Hình 2.9: Cú pháp Site ........................................................................................... 33
Hình 2.10: Cú pháp nâng cao với Site .................................................................... 34
Hình 2.11: Cú pháp Link ........................................................................................ 35
Hình 2.12: Cú pháp info ......................................................................................... 36
Hình 2.13: Cú pháp Related ................................................................................... 37
Hình 2.14: Cú pháp define ...................................................................................... 38
Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm
kiếm Google.
5
Hình 2.15: Cú pháp Phonebook .............................................................................. 39
Hình 2.16: Cú pháp Bphonebook............................................................................ 40
Hình 2.17: Cú pháp Author..................................................................................... 42
Hình 2.18: Cú pháp author: “Tống Đình Quỳ” ........................................................ 43
Hình 2.19: Cú pháp author:Tống Đình Quỳ ............................................................ 43
Hình 2.20: Cú pháp Group ..................................................................................... 44
Hình 2.21: Một dạng điển hình của Group Message ............................................... 46
Hình 2.22: Message ID của một cổng ..................................................................... 46
Hình 2.23: Cú pháp Stock ...................................................................................... 47
Hình 2.24: Kết quả của Directory Listings website 48
Hình 2.25: Kết quả tìm kiếm thư mục đặc biệt ........................................................ 49
Hình 2.26: Kết quả hiển thị danh sách thư mục cho đường
dẫn/bpa/acadunits/admin/envr/bowman. ............................................................. 50
Hình 2.27: Tất cả đều được lưu trong Google cache ............................................... 53
Hình 2.28: Directory listing tiết lộ vị trí tập tin .htaccess ........................................ 56
Hình 2.29: Cú pháp tìm kiếm tập tin robots.txt ....................................................... 58
Hình 2.30: Nội dung của một tập tin roots.txt ......................................................... 59
Hình 2.31: Trang web của Google dành cho quản trị viên web ............................... 62
Hình 2.32: Trang web để loại bỏ URL .................................................................... 62
Hình 3.1: Mô hình mô tả quá trình tìm kiếm của Google ........................................ 64
Hình 3.2: Các trang web có thể bị lỗi SQL injection ............................................... 65
Hình 3.3: Trang web bị lỗi SQL injection ............................................................... 65
Hình 3.4: Một số thông tin của trang web bị lỗi SQL injection ............................... 66
Hình 3.5: Một số trang web có chứa thông tin nhạy cảm ........................................ 67
Hình 3.6: Nội dung của tập tin backup.sql .............................................................. 67
Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm
kiếm Google.
6
LỜI NÓI ĐẦU
Trong thời đại phát triển thông tin hiện nay, khi mà Internet đã phát triển toàn
cầu thì việc tìm kiếm thông tin trên mạng là điều không thể thiếu. Có một công cụ
tìm kiếm mà cả thế giới đều biết đến và sử dụng đó là Google. Từ thời điểm ra mắt
tới giờ, Google đã phát triển trở thành một trong những công ty lớn nhất thế giới,
phục vụ hàng triệu người mỗi ngày. Vậy tại sao nó lại có được những bước thành
công to lớn đến như vậy, đó là nhờ việc áp dụng các thuật toán thông minh nhất với
việc tích hợp đến hơn 200 thông tin ràng buộc để có thể đưa ra kết quả một cách
nhanh nhất và chính xác nhất. Hơn nữa, nó cũng có khả năng chấp nhận những lệnh
được định nghĩa sẵn mà khi nhập vào sẽ đưa lại những kết quả mà tìm kiếm thông
thường không có được. Điều này cho phép những người dùng có ý xấu như tin tặc,
cracker, script kiddies v.v.. sử dụng cỗ máy Google để thu thập những thông tin bí
mật và nhạy cảm hay những thông tin không thể tìm thấy bằng những phương pháp
tìm kiếm thông thường.
Trong bản báo cáo nghiên cứu này,nhóm chúng em sẽ phân tích và làm rõ
những đặc điểm, những phương pháp khai thác thông tin bằng Google mà những
người quản trị hay chuyên gia bảo mật phải phòng chống để tránh cho những thông
tin bí mật có thể bị tìm ra và khai thác:
Những cú pháp tìm kiếm nâng cao với Google.
Tìm kiếm những Site hoặc Server(máy chủ) dễ bị tấn công sử dụng những
cú pháp nâng cao của Google.
Bảo mật cho servers hoặc sites khỏi sự tấn công của Google.
Với sự hướng dẫn tận tình của thầy Phạm Minh Thuấn chúng em đã hoàn
thành bài báo cáo này. Tuy đã cố gắng hết sức tìm hiểu, phân tích nhưng không thể
tránh khỏi những thiếu sót. Chúng em rất mong nhận được sự thông cảm và góp ý
của các thầy cô.
Chúng em xin chân thành cảm ơn!
Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm
kiếm Google.
7
CHƯƠNG I. TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM
GOOGLE
Như chúng ta đã biết, Google đã trở thành một công cụ hữu ích cho toàn bộ
người dùng Internet nhờ vào khả năng tìm kiếm và xử lý thông tin một cách thông
minh và dễ dàng. Trong chương này chúng ta sẽ tìm hiểu một cách khái quát về sự
phát triển của Google, các giao diện và cách hoạt động của nó
1.1.Giới thiệu về Google và hệ thống tìm kiếm Google
1.1.1 Tổng quan về Google
Khởi đầu
Công ty Google đã đạt được nhiều thành tựu quan trọng cho dù thời gian
hoạt động còn khá ngắn. Từ khi Google được sáng lập năm 1998, Google đã phát
triển, phục vụ hàng trăm nghìn người dùng và khách hàng trên khắp thế giới.
Đầu tiên (1996) Google là một công trình nghiên cứu của Larry
Page và Sergey Brin, hai nghiên cứu sinh tại trường Đại học Stanford. Họ có giả
thuyết cho rằng một công cụ tìm kiếm dựa vào phân tích các liên hệ giữa các
website sẽ đem lại kết quả tốt hơn cách đang được hiện hành lúc bấy giờ (1996).
Đầu tiên nó được gọi là BackRub (Gãi lưng) tại vì hệ thống này dùng các liên kết
đến để ước tính tầm quan trọng của trang.
Page và Brin tin rằng những trang có nhiều liên kết đến nhất từ các trang
thích hợp khác sẽ là những trang thích hợp nhất. Họ đã quyết định thử nghiệm giả
thuyết trong nghiên cứu của họ, tạo nền móng cho công cụ Google hiện đại bây giờ
( Tên miền www.google.com được đăng ký ngày 15 tháng
9 năm 1997. Họ chính thức thành lập công ty Google, Inc. ngày 7 tháng
9 năm 1998 tại một ga ra của nhà Esther Wojcicki (cũng là nhân viên thứ 16 của
Google, Phó Chủ tịch cấp cao, phụ trách bộ phận quảng cáo) tại Menlo Park,
California. Trong tháng 2 năm 1999, trụ sở dọn đến Palo Alto, là thành phố có
nhiều trụ sở công ty công nghệ khác. Sau khi đổi chỗ hai lần nữa vì công ty quá lớn,
Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm
kiếm Google.
8
trụ sở nay được đặt tại Mountain View, California tại địa chỉ 1600 Amphitheater
Parkway vào năm 2003.
Công cụ tìm kiếm Google được nhiều người ủng hộ và sử dụng vì nó có một
cách trình bày gọn và đơn giản cũng như đem lại kết quả thích hợp và nâng cao.
Trong năm 2000, Google đã bắt đầu bán quảng cáo bằng từ khóa để đem lại kết quả
thích hợp hơn cho người dùng. Những quảng cáo này chỉ dùng văn chứ không dùng
hình để giữ chất đơn giản của trang và tránh sự lộn xộn và đồng thời để trang được
hiển thị nhanh hơn.
Hình 1.1: Trụ sở Google tại Mountain View, California, USA
Sự phát triển của Google
Khi thị trường ban đầu của công ty là trên thị trường web, Google đã bắt đầu
thử nghiệm ở một số thị trường khác, ví dụ như Phát thanh hoặc Xuất bản. Ngày 17-
1-2006, Google công bố rằng công ty đã mua lại công ty quảng cáo phát thanh
dMarc, công ty đã sử dụng một hệ thống tự động, cho phép các công ty quảng cáo
Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm
kiếm Google.
9
trên radio. Điều này sẽ giúp Google kết hợp 2 kênh quảng cáo truyền thông là
Internet và Radio, với khả năng của Google, nhắm thẳng vào tâm lý khách hàng.
Google cũng bắt đầu thử nghiệm bán quảng cáo trên các kênh quảng cáo offline của
công ty, như trên báo và tạp chí, với các quảng cáo được lựa chon trên Chicago-Sun
Times. Họ đã lấp được một chỗ trống không bán được trên tờ báo mà trước đấy
thường được dùng vào việc quảng cáo nhà.
Google được đưa vào danh sách 500 S&P index ngày 30 tháng 3 năm 2006,
chiếm vị trí của Burlington Resources, một nhà sản xuất dầu chính ở Houston.
Google nổi tiếng bởi dịch vụ Tìm kiếm của nó, nhân tố chính dẫn đến thành
công của Google. Vào tháng 12 năm 2006, Google là công cụ tìm kiếm được sử
dụng nhiều nhất trên mạng chiếm 50,8% thị phần, vượt xa so với Yahoo (23,6 %)
và Window Live Search (8,4%). Google liên kết với hàng tỷ trang web, vì thế người
sử dụng có thể tìm kiếm thông tin mà họ muốn thông qua các từ khóa và các toán
tử. Google cũng tận dụng công nghệ tìm kiếm của mình vào nhiều dịch vụ tìm kiếm
khác, bao gồm Image Search (tìm kiếm ảnh), Google News, trang web so sánh giá
cả Froogle, cộng đồng tương tác Google Groups, Google Maps và còn nhiều nữa.
Năm 2004, Google ra mắt dịch vụ email trên nền web, gọi là Gmail. Gmail
hỗ trợ công nghệ lọc thư rác và khả năng sử dụng Công nghệ tìm kiếm của Google
để tìm kiếm thư. Dịch vụ này tạo ra thu nhập bằng cách hiển thị quảng cáo từ dịch
vụ AdWords mà phù hợp với nội dung của email hiển thị trên màn hình.
Đầu năm 2006, Google ra mắt dịch vụ Google Video, dịch vụ không chỉ cho
phép người dùng tìm kiếm và xem miễn phí các video có sẵn mà còn cho người sử
dụng hay các nhà phát hành khả năng phát hành nội dung mà họ muốn, kể cả các
chương trình truyền hình trên CBS, NBA và các video ca nhạc. Nhưng đến tháng 8
năm 2007 , Google đã đóng cửa trang web này trước sự cạnh tranh của đối
thủ Youtube cũng thuộc sở hữu của công ty
Google cũng đã phát triển một số ứng dụng nhỏ gọn, bao gồm cả Google
Earth, một chương trình tương tác sử dụng ảnh vệ tinh. Ngoài ra công ty còn phát
Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm
kiếm Google.
10
triển nhiều gói phần mềm văn phòng trên ứng dụng web tên là Google Docs nhằm
cạnh tranh thị phần với Microsoft Office.
Nhiều ứng dụng khác nữa có tại Google Labs, một bộ sưu tập những phần
mềm chưa hoàn chỉnh. Chúng đang được thử nghiệm để có thể đưa ra sử dụng trong
cộng đồ