通常我们所说的互联网指的只是它的表面,在它的下方隐藏着一片巨大的未知海洋——暗网(Deep Web)。

暗网 暗网的庞大规模由于其自身特性而难以被计算。不过据一些顶尖大学的研究员表示,我们熟知的 Facebook、维基百科、各种新闻网站在整个万维网中所占比例不到1%。

当你在网上冲浪时,你的活动区域仅仅是停留在互联网的表面。而下面则藏有多数人从未见过的上万亿个页面,这其中包括着各种无聊数据甚至非法的人体器官买卖等众多领域。

尽管人们对暗网所知甚少,但其概念却相当简单。就搜索引擎而言,谷歌、雅虎和微软必应会不断的索引页面为用户提供搜索结果,为此,他们会像爬虫一样爬行到网页的数据并分析页面间的超链接。然而,该方法仅能收集静态页面,就像你现在正在访问的页面一样,并没有办法获取动态页面的信息。

“当网络爬虫爬到一个数据库,它们便无法爬到搜索框下面的更深内容,” Turbo10的运营者Nigel Hamilton说到。Turbo10是曾经一个能搜索到暗网的搜索引擎。

谷歌和其他搜索引擎也无法获取私人网络或者独立页面背后的页面,而这些也是暗网的一部分。

那么这背后到底藏有什么?这取决于你访问的网站。

多数暗网通常都包含着重要信息页面。据2001年的一份报告显示,54%的网页都是数据库。其中世界最大的数据库是美国国家海洋和大气管理局、美国国家航空航天局、美国专利与商标局和证券交易委员会的埃德加(EDGAR)搜索系统——这所有数据都是对外公开的。然而,也有数据库包含着收费的保密页面,例如律商联讯(LexisNexis)和万律(Westlaw)数据库里的政府文件以及爱思唯尔(Elsevier)里的学术期刊等。

另有13%的页面完全隐藏在企业内部网络。这些企业或者学校的内部网络可以访问信息板、人事档案以及负责开灯、关闭发电厂等功能的工业控制板等。

除此之外,就是互联网上最黑暗的领域Tor。Tor搜集的都是需要特殊软件才能访问的秘密网站。通常人们利用Tor来保护他们的网络行踪。Tor运行在中继系统(relay system),在支持Tor的电脑中传输信号。

Tor初次露面于美国海军研究实验室2002年发起的洋葱路由项目(The Onion Routing project ),当时人们通过该项目实现在线匿名通信,也有人借此来讨论政治纠纷等敏感话题。然而在过去十年,Tor也成为了黑市交易的枢纽。

尽管暗网在公众视野中并不常见,但其经济重要性却日益增加——搜索引擎可以准确快速的梳理对大数据采集有用的整个网页。

例如,斯坦福已建立一款名为 Hidden Web Exposer的原型引擎,而其他已公开的搜索引擎还有 Infoplease、PubMed以及加利福尼亚大学的Infomine等。

小林子打字好辛苦,麻烦转载注明: 转载自林枫紫涵

本文链接地址: http://www.lfzh.org/deepweb.html

作者: admin