搜索引擎基础(Search Engine Basics)(一)
当你想在网上找某些资料的时候,一般都用搜索引擎。输入一些词或短语,就能找到你需要的结果。当然,也不一定能找到令人满意的结果。
在互联网早期,不是你现在所用到的那样。没有可交互的站点,只是用FTP上传下载文件而已。
用户可以通过搜索方便找到需要的文件。如果认识上传文件的人,通过他给的地址,你就很快能找到这个文件。
在网上寻找一个文件简直就是个痛苦的过程,极大的考验一个人的耐心,有几个McGill大学的学生决定寻找一个简单的途径。终于在1990年,Alan Emtage开发了第一个搜索工具。他的发明,就是文件的索引,叫做Archie.
Archie貌似是40年代处一个连环画的角色,很遗憾没啥关系。之所以叫做Archie是因为Archives这个单词比较长。。。。。
Archie实际上并不是今天所用到的搜索引擎,但是在那个时候,许多上网的人都会用到它,它会把下载文件的目录并排序。并把列表存在网站的数据库中。
Archie的搜索并不像今天的搜索引擎一样支持自然语言。它索引计算机的文件,并很容易的去定位。
在1991年,另一个名叫Mark McCahill的学生,想到了既然能搜索文件,也能搜索到在文件中无格式的文本。可是并没有这样的工具,所以他就写个程序叫做Gopher,用来索引无格式文本,之后就出现了第一个Web站点。
之后Archie的成员加入了这个项目,Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) 和 Jughead (Jonzy’s Universal Gopher Hierarchy Excavation and Display) 用来寻找文件并存储在Gopher Index System.
这些程序的实质都是一样的,允许用户通过关键字来寻找文件的索引信息。
至此,搜索已经变得成熟起来。直到1993年,类似于现在的搜索引擎出现了,那就是由Matthew Gray开发的Wandex。Wandex是第一个在WEB上索引文件,它是搜索索引页面的程序。这就是WEB爬虫。是所有后来爬虫的基础。从1993-1998,主要的搜索引擎就被建立起来了,下面有个列表:
- Excite — 1993
- Yahoo! — 1994
- Web Crawler — 1994
- Lycos — 1994
- Infoseek — 1995
- AltaVista — 1995
- Inktomi — 1996
- Ask Jeeves — 1997
- Google — 1997
- MSN Search — 1998
今天,搜索引擎是个复杂的程序,能用词或短语搜寻文件,相关文档等等,难以置信的是搜索引擎仅仅有15年的历史。 考虑看看能用它们来寻找到什么。。。
评论
1.正则表达式。
2.XPATH
你可以去看看网页爬虫的源代码,JAVA的开源很多了。www.open-open.com
发表评论
提醒: 该博客已发表在公共论坛,博客所有留言会成为论坛回贴,留言请注意遵守论坛发贴规则
- 浏览: 16437 次
- 性别:

- 来自: 大连

- 详细资料
搜索本博客
我的相册
共 1 张
最近加入圈子
最新评论
-
搜索引擎基础(Search Eng ...
我现在就是做网页抓取,把网上很多的信息给抓取分析成一条一条的信息,最主要的还是用 ...
-- by glamey -
创建一个SEO计划(一)
可以啊,楼主PM我你的联系方式咯。。呵呵
-- by 猫尾摆摆 -
创建一个SEO计划(一)
呵呵 我们也做SEO产品 有兴趣联系一下吧 。和我个人探讨也可以 没事 我不做广 ...
-- by 风雪涟漪 -
创建一个SEO计划(一)
曾经公司请了几个号称是香港某学院的专家来做seo培训,其实是来推销他们的产品。 ...
-- by 猫尾摆摆 -
创建一个SEO计划(一)
很奇怪。LZ为什么到这里来呢? 点石不是更好嘛?
-- by 卡拉阿风






评论排行榜