常见的网页爬取方案主要包含深度优先搜索方案(Depth-First-Search)、广度优先搜索方案(Breadth-First-Search)、最好优先搜索方案(Best-First-Search),更多的爬取方案都是在这3种方案基础上改进而来的。 主题爬虫主要使用的是最好优先搜索方案,以获得与主题有关性最佳的URL进行爬取。 通用爬虫的爬取方案以深度优先搜索方案和广度优先搜索方案为主,主要应用在搜索引擎和指定站点信息搜索范围。