当你想在网上找某些资料的时候,一般都用搜索引擎。输入一些词或短语,就能找到你需要的结果。当然,也不一定能找到令人满意的结果。

在互联网早期,不是你现在所用到的那样。没有可交互的站点,只是用FTP上传下载文件而已。

用户可以通过搜索方便找到需要的文件。如果认识上传文件的人,通过他给的地址,你就很快能找到这个文件。

在网上寻找一个文件简直就是个痛苦的过程,极大的考验一个人的耐心,有几个McGill大学的学生决定寻找一个简单的途径。终于在1990年,Alan Emtage开发了第一个搜索工具。他的发明,就是文件的索引,叫做Archie.

Archie貌似是40年代处一个连环画的角色,很遗憾没啥关系。之所以叫做Archie是因为Archives这个单词比较长。。。。。

Archie实际上并不是今天所用到的搜索引擎,但是在那个时候,许多上网的人都会用到它,它会把下载文件的目录并排序。并把列表存在网站的数据库中。

Archie的搜索并不像今天的搜索引擎一样支持自然语言。它索引计算机的文件,并很容易的去定位。

在1991年,另一个名叫Mark McCahill的学生,想到了既然能搜索文件,也能搜索到在文件中无格式的文本。可是并没有这样的工具,所以他就写个程序叫做Gopher,用来索引无格式文本,之后就出现了第一个Web站点。

之后Archie的成员加入了这个项目,Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) 和 Jughead (Jonzy’s Universal Gopher Hierarchy Excavation and Display) 用来寻找文件并存储在Gopher Index System.

这些程序的实质都是一样的,允许用户通过关键字来寻找文件的索引信息。

至此,搜索已经变得成熟起来。直到1993年,类似于现在的搜索引擎出现了,那就是由Matthew Gray开发的Wandex。Wandex是第一个在WEB上索引文件,它是搜索索引页面的程序。这就是WEB爬虫。是所有后来爬虫的基础。从1993-1998,主要的搜索引擎就被建立起来了,下面有个列表:

  • Excite — 1993
  • Yahoo! — 1994
  • Web Crawler — 1994
  • Lycos — 1994
  • Infoseek — 1995
  • AltaVista — 1995
  • Inktomi — 1996
  • Ask Jeeves — 1997
  • Google — 1997
  • MSN Search — 1998

今天,搜索引擎是个复杂的程序,能用词或短语搜寻文件,相关文档等等,难以置信的是搜索引擎仅仅有15年的历史。 考虑看看能用它们来寻找到什么。。。

评论
glamey 2008-06-13
我现在就是做网页抓取,把网上很多的信息给抓取分析成一条一条的信息,最主要的还是用的是正则表达式。
风雪涟漪 2008-05-07
基本的方法就是:
1.正则表达式。
2.XPATH

你可以去看看网页爬虫的源代码,JAVA的开源很多了。www.open-open.com
yefeng 2008-05-07
LZ,有没有一些关于 网页分析的文章 能把网页里面的数据区分出来
发表评论

提醒: 该博客已发表在公共论坛,博客所有留言会成为论坛回贴,留言请注意遵守论坛发贴规则

您还没有登录,请登录后发表评论

风雪涟漪
搜索本博客
博客分类
我的相册
C2d533a8-feb7-3a7a-a837-da5caa009680-thumb
s_2393412238226
共 1 张
存档
最新评论