1.2 搜索引擎概述
所有搜索引擎的祖先,都是1990年由蒙特利尔(Montreal)的麦吉尔大学(McGill University)3名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)得来的。Alan Emtage等人想开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎,它只是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。由于Archie深受欢迎,受其启发,美国内华达州的System Computing Services于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。
1993年年初,斯坦福大学(Stanford University)的6名学生想利用分析字词关系,以对互联网上的大量信息作更有效地检索。到1993年年中,这已是一个完全投资项目,他们还发布了一个供Webmasters在自己网站上使用的搜索软件版本,后来被叫作Excite for Web Serv ers。
1993年,Matthew Gray开发了World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人”(Robot)程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。
1994年4月,斯坦福大学的两名博士生,美籍华人杨致远(Jerry Yang)和DavidFilo共同创办了Yahoo!(雅虎)。随着访问量和收录链接数的增长,Yahoo!目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。雅虎公司于2002年12月23日收购inktomi,2003年7月14日收购了包括Fast和Altavista在内的Overture,2003年11月,雅虎全资收购3721公司。
1994年年初,华盛顿大学(University of Washington)的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。Web-Crawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动提取正文的前100个字。
1994年7月,卡内基 梅隆大学(Carnegie Mellon University)的Michael Mauldin将John Leavitt的蜘蛛(Spider)程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其他搜索引擎的数据量。
1994年年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。
1995年,一种新的搜索引擎形式——元搜索引擎(Meta Search Engine)出现了。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。
第一个元搜索引擎是华盛顿大学硕士生Eric Selberg和Oren Etzioni的Metacrawler。元搜索引擎概念上非常好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。
1995年12月,美国DEC公司正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND、OR、NOT等)。用户可以用AltaVista搜索新闻组(newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,Alta-Vista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好地表达搜索式,这些小“tips”经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的有趣功能。这一系列功能,逐渐被其他搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的信息。
1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其他搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。
1996年8月,搜狐公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。为此2004年8月搜狐公司创建独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。
1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。
1998年10月之前,Google只是斯坦福大学的一个小项目Back-Rub。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don'tbe evil)的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google宣布其中文名称为“谷歌”,这是Google第一个在非英语国家起的名字。
2000年1月,两位北京大学的校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布百度搜索引擎Beta版(此前Baidu只为其他门户网站搜狐、新浪、Tom等提供搜索引擎),2001年10月22日,百度正式发布Baidu搜索引擎,专注于中文搜索。
Baidu搜索引擎的其他特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、MP3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,百度公司的技术升级明显加快。后推出百度贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品,深受网民欢迎。2005年8月5日,百度在纳斯达克上市,发行价为27.00美元,代号为BIDU。开盘价66.00美元,当日以122.54美元收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。
2003年12月23日,原慧聪搜索正式独立运作,成立了中国搜索。2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway)。
2005年6月,新浪正式推出自主研发的搜索引擎“爱问”。2007年起,新浪爱问使用Google搜索引擎。
2007年7月1日,中国主要门户网站之一网易公司全面采用自主研发的有道搜索技术,并且合并了原来的综合搜索和网页搜索。有道网页搜索、图片搜索和博客搜索为网易搜索提供服务。其中网页搜索使用了其自主研发的自然语言处理、分布式存储及计算技术;图片搜索首创根据拍摄相机品牌、型号,甚至季节等高级搜索功能;博客搜索相比同类产品具有抓取全面、更新及时的优势,提供“文章预览”“博客档案”等创新功能。
2009年,微软和Yahoo!达成协议,Yahoo!将逐步放弃自己的搜索技术,使用Bing数据。2010年8月,Yahoo!开始使用Bing搜索数据。
2011年,Google推出旨在减少搜索结果中低质量页面的Panda更新。