STAKE中国官方网站

STAKE中国官方网站看法

搜索战略

宣布时间:2009-02-23

怎样凭证链接结构及对网络数据的剖析确定适用的会见战略, ,,,,,,,是信息收罗的要害。。。。。。常见的会见战略包括通例遍历算法和优化遍历算法两类。。。。。。

网络资源数目重大, ,,,,,,,种类多样。。。。。。任何搜索引擎要收罗所有的网络资源, ,,,,,,,既不可能, ,,,,,,,也没有须要。。。。。。怎样凭证链接结构及对网络数据的剖析确定适用的会见战略, ,,,,,,,是信息收罗的要害。。。。。。常见的会见战略包括通例遍历算法和优化遍历算法两类。。。。。。

通例遍历形式, ,,,,,,,通常包括广度优先算法、深度优先算法、IP地址搜索战略等。。。。。。

广度优先算法凭证链接的条理举行, ,,,,,,,在会见完一个条理后再举行下一条理的会见, ,,,,,,,云云由浅入深、逐级举行。。。。。。这一算法可以增添会见的广度, ,,,,,,,使得多个服务器的上层资源获得收罗, ,,,,,,,但链接结构中条理较后的有价值资源往往难于获得。。。。。。

深度优先算法从起始页面出发, ,,,,,,,沿页面上的某一个链接举行搜索, ,,,,,,,逐级深入, ,,,,,,,一直抵达底层网页, ,,,,,,,才返回起始页, ,,,,,,,选择其他链接举行类似的会见。。。。。。这种算法可以遍历一个站点F的深层页面, ,,,,,,,但会影响它的遍历广度或遍历的时间, ,,,,,,,有时尚有陷入循环状态的危险。。。。。。

IP地址搜索战略将会见限制在指定的IP地址规模中, ,,,,,,,不思量各文档中指向其他站点的链接。。。。。。这种算法能够有针对性地关于特定领域的资源举行收罗, ,,,,,,,适合于凭证特定目的体例的搜索引擎。。。。。。

上述种种方法在现实使用中也可以凭证需要, ,,,,,,,团结使用, ,,,,,,,例如将广度优先与深度优先团结等。。。。。。但一样平常情形下, ,,,,,,,这些通例遍历形式通常只提供一样平常的会见算法, ,,,,,,,并不可优化收罗的质量。。。。。。要刷新收罗质量, ,,,,,,,应当凭证使用的需要, ,,,,,,,选择与系统有较高相关性且质量较量高的网页, ,,,,,,,并团结接纳响应的优化收罗算法。。。。。。有些论文叙述了网络收罗中常用的一些优化算法, ,,,,,,,包括:

(1)兴趣驱动(Interest-driven)。。。。。。即以用户需求作为网页收罗的依据。。。。。。通常依据检索杏询与网络的匹配度确定, ,,,,,,,要领是依据选定的盘问词集作为网页收罗的依据, ,,,,,,,凭证盘问词与网页文本的匹配水平确定其相关性, ,,,,,,,同时团结该词在整个网页库中的反文献频率(idf), ,,,,,,,确定其主要性值。。。。。。由于使用idf项需要的全局信息在收罗历程中无法获得, ,,,,,,,可凭证已收罗到网页的平均值或以已往数据的估算值加以取代。。。。。。

(2)盛行驱动(Popularity-driven)。。。。。。即判断主要性水平或获得认可的普遍水平, ,,,,,,,要领是考察指向它的链接数目。。。。。。接纳这一方法, ,,,,,,,通常应盘算出网页获得的链接数目, ,,,,,,,并将这一数目作为是否收罗的依据。。。。。。越发周全地判断网页主要性的要领, ,,,,,,,是使用Google的PageRank算法, ,,,,,,,同时盘算链接该网页的其他网页的主要性, ,,,,,,,但这一要领需要涉及相关网页的链接情形, ,,,,,,,在收罗的情形下很难做到。。。。。。

(3)网址驱动(Location-driven)。。。。。。即不是以内容, ,,,,,,,而是将网址作为判断网页主要性的依据, ,,,,,,,包括, ,,,,,,,对特定域名付与高值, ,,,,,,,举行针对性收罗; ;;;;;;关于包括特定字串如"home"的地址付与高值; ;;;;;;选用带有较少斜线的网址等。。。。。。网址驱动容易操作, ,,,,,,,在特定系统中也十分有用。。。。。。例如在专业搜索引擎中, ,,,,,,,可以明确将选定的网站、域名作为网页收罗的界线。。。。。。

URL列表的排序控制是在收罗控制器中举行的, ,,,,,,,在未获得网页的情形下, ,,,,,,,网址驱动是一个可以直接加以接纳的方法, ,,,,,,,如北大天网在搜索中接纳这一要领; ;;;;;;但关于相关性判断或主要性判断, ,,,,,,,由于在会见历程中, ,,,,,,,不可能事先获得该网页数据, ,,,,,,,一样平常只能使用收罗器已收罗的信息作为依据。。。。。。例如, ,,,,,,,使用已收罗网页的锁定文本(Anchor Text)来预计特定网页可能包括的文本, ,,,,,,,甚至以“相近”网页的文本作为评估依据等。。。。。。某个文献纪录了接纳上述要领在有限规模中试验的情形。。。。。。一些论文讨论了团结数据挖掘举行收罗优化的问题, ,,,,,,,但现在仍缺乏大型搜索引擎现实应用的例子。。。。。。

tel 24小时免费服务咨询热线:400-080-3010

连忙咨询连忙咨询 联系STAKE中国官方网站联系STAKE中国官方网站
【网站地图】【sitemap】