实验四  认识搜索引擎
一、实验目的
1、认识搜索引擎
2、了解搜索引擎原理及使用方法
3、在线查搜索引擎
学时安排:2学时
二、实验内容
1、在IE浏览器输入网址:-soft/web/searchengine.htm,或是利用Google搜索引擎查询【认识搜索引擎】,到该网页,了解搜索引擎的原理极其发展过程。
2、打开www.sowang/index.htmwww.sskb/,查看站点中文搜索引擎指南网(搜网)搜索快报,了解搜索引擎有关新闻、使用技巧、排名规则、以及在商业上的应用。
3、在线查搜索引擎,列出你所熟悉的中文引擎的前5名,英文引擎的前5
4、列出至少20个搜索引擎(包括一个能够搜索—搜索引擎的引擎,报告中请注明)
5、使用不同的英文搜索引擎分别给出歌德巴赫猜想(Goldbach's conjecture)和世界名画《蒙娜丽莎》(Mona Lisa )的英文详细介绍网址,并分别给出内容的英文简介。
6、针对你的选题自选检索词利用英文搜索引擎检索,记录检索结果
三、实验报告
1、搜索引擎的原理
搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。 
1.从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
2.建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
3.在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
 2、搜索引擎的使用技巧
对于搜索引擎的使用,简单的就是输入你的语言想法。通过提交获得,这中间就要求你懂
得搜索引擎的一个搜索因素。就是搜索关键字或关键词。这个一般不会被大众用户所了解,普通用户只是简单的思考就形成一种搜索习惯。比较准确一点的话就是关键词组,例如:考试模拟题,上海到北京线路等等这些就是关键词组,再比较专业一点的就是关键字,这个主要是一些特殊定义的词,例如:北京旅游,上海酒店,成人高考,一心一意等等。
另一方面就是搜索引擎的专业使用,主要是搜索引擎命令搜索和搜索引擎的分类搜索。搜索引擎的命令搜索主要有查看网站收录情况,使用site:命令;查看网站的外链情况,使用domain:或者link:命令等。搜索文档等,使用filetype:文档格式(DOC,PDF,XLS,PPT等);还有使用函数符号搜索,使用加号(+)或者减号(-)号等来匹配内容;其次还有很多函数符号的使用,如:&,intitle,inurl,tag,“”,(),related,url,image等等。另一方面就是类型搜索,如:百度文档搜索,百度音乐搜索,谷歌文档,字典搜索,地图,交通搜索等等。
搜索引擎的使用有很多比较巧妙的东西,很多都可以灵活运用,也可以综合使用。如:在指定的网站中搜索某一类的东西:site:lvmama 欢乐谷 ,这里是在驴妈妈网站搜索关于欢乐谷的东西;site:lvmama 欢乐谷&攻略 ,这里是在驴妈妈网站搜索包含欢乐谷
和攻略的信息。Inurl:bbs欢乐谷 这里是指在所有包含欢乐谷的信息,条件是同时要在url中出现bbs,这里还有一层意思是指,将bbs本身定义为论坛,这里总的意思也就是只在论坛中搜索包含欢乐谷的信息。
 3、中文引擎前5名:
                百度    www.baidu
                谷歌   
                Bing(必应) bing
                  搜搜    www.soso/
          雅虎全能搜索    www.yahoo/ 
英文引擎前5名:
                   
                    www.alltheweb
                    www.av
                    search.positiontech
                    www.openfind
4、不少于20个搜索引擎名称及链接地址
    (1)    百度              www.baidu
  (2)    Google中文       
      (3)    Alltheweb(Fast)  www.alltheweb
  (4)    Openfind中文      www.openfind/cn.web.php?u=cn
  (5)    北大天网          e.pku.edu/ 
      (6)    Google          
(7)    Alltheweb(Fast)      www.alltheweb
      (8)    Altavista            www.av
      (9)    Inktomi            search.positiontech
      (10)  Openfind          www.openfind
  (11)  Northernlight       
  (12)  Wisenut          www.wisenut
  (13)  Teoma             
  (14)  Gigablast          www.gigablast
      (15)  Inktomi/MSN        www.msn 
      (16)  搜狗              www.sogou/
      (17)  Bing(必应)         bing/
      (18)  雅虎全能搜索      www.yahoo/
      (19)  SOSO搜搜      www.soso/
      (20)  有道             
      (21)  即刻搜索          www.jike/
(22)  盘古搜索          www.panguso/
(23)    爱问搜索引擎    iask/
(24)  o123网址之家    www.hao123/
(25)  120ask有问必答    www.120ask/
 5Goldbach's conjecture的详细介绍网址及英文简介
中文网址baike.baidu/view/1808.htm
英文网址:/wiki/Goldbach's_conjecture
英文简介:Goldbach's conjecture is one of the oldest unsolved problems in number theory and in all of mathematics. It states:Every even integer greater than 2 can be expressed as the sum of two primes.[1] A Goldbach number is a number that can be expressed as the sum of two odd primes. Therefore, another statement of Goldbach's conjecture is that all even integers greater than 4 are Goldbach numbers.
The expression of a given even number as a sum of two primes is called a Goldbach partition of the number. For example,
  4 = 2 + 2
  6 = 3 + 3
  8 = 3 + 5
10 = 7 + 3 or 5 + 5
12 = 5 + 7
14 = 3 + 11 or 7 + 7
Mona Lisa的详细介绍网址及英文简介
中文网址:baike.baidu/view/27894.htm
英文网英文网址:/entry/Mona_Lisa
英文简介Mona Lisa (also known as La Gioconda) is a sixteenth century portrait painted in oil on a poplar panel by Leonardo da Vinci during the Italian Renaissance. The work is owned by the French government and hangs in the Musée du Louvre in Paris, France with the title Portrait of Lisa Gherardini, wife of Francesco del Giocondo.
    The painting is a half-length portrait and depicts a woman whose expression is often described as enigmatic. The ambiguity of the sitter's expression, the monumentality of the half-figure composition, and the subtle modeling of forms and atmospheric illusionism were novel qualities that have contributed to the painting's continuing fascination. Few other works of art have been subject to as much scrutiny, study, mythologizing and parod
y.