火车头采集器多页规则怎么写( 二 )


按照上一步的方法先填写内容页所在区域的起始和结束标志性代码,然后分析这个区域中包含的链接与我们说需要的内容页地址链接规律,添加过滤代码 。这里起始代码为“<!--显示-->”,结束代码为“page" style="float:right">”过滤代码为必须包含“read-”不得包含“#” 。
如图:需要注意的是这里文章比较多会有很多分页,所以需要填写“列表分页获取”规则 。通常只需要指定分页代码的区域,如有必要可以填写“组合生成列表页分页”规则 。
这里的列表分页规则其实代码为“

  • ”,结束代码为“title="下一页">” 。如果勾选“自动识别分页”的话,会自动提取a标签的href属性,如果不勾选自动识别的话,需要填写组合生成列表页分页”规则 。
    然后保存返回,可以通过“测试网址采集”来测试规则是否正确,不正确可以返回修改规则,正确的话可以开始编写“第二步采集内容规则” 。编写“第二步采集内容规则” 先打开内容页以及内容页的源码,找到需要提取的信息的前后代码特征 。
    以提取标题和内容为例 。首先复制文章标题,然后在源码中查看该标题出现的几处地方,找一处前后代码在每一篇文章都一样的地方,该例共出现了3处,第二处的代码没有其他干扰代码 。
    点击“添加”,标签名填“标题”,提取数据方式选择前后截取,前后代码分别为“”和“” 。如果采集的内容需要作进一步处理(如替换删除编码转换过滤html等),在下方“数据处理”点击添加填写相应规则 。
    再添加一个标签,标签名为“内容”,按照上述方法填写内容的前后代码片段,需要注意的是,前后代码片段最好不要出现不完整的标签(如:“”,一个完整的标签应该是以“<”开始,以“>”结束,如果<>之间的内容在各个内容页有一部分不一样,将不一样的部分用(*)代替即可),否则提取的内容会包含部分不完整的标签 。通常正文包含的HTML会比较多,可以添加HTML过滤功能,建议仅保留段落(p)、图片(img)、换行(br)等标签 。
    测试内容采集规则 保存规则后返回采集内容规则页面,在右侧“规则测试”的典型页面文本框填上一个内容页的地址,然后点击测试,如果下面显示到的内容符合预期说明可以了,如果未获取到内容或者获取到内容不正确,返回检查并修改规则 。开始采集 选择要采集的任务规则,勾选“采网址”和“采内容”复选框,点击工具栏“开始”按钮 。
    后续工作 采集到的数据保存在数据库,可以通过在任务名上点右键,选择“打开DATA下任务文件夹”打开数据库所在位置,该数据库可以通过ACCESS打开和编辑 。如果想要重新采集,需要通过右键选择“清空该任务网址库”和“清空任务所有采集数据” 。
    3.火车头采集规则,如果在列表页里面有多个参数,应该如何设置开始试了下,火车头确实不行,因为它起始网址的参数就一个*,没法对两个动态的数据描述 。
    那不妨换个角度来思考,为什么不把这些网址变成1级网址让火车头以采集的方式把它采集出来呢 。比如//i.html?_pgn=2&_skc=50&rt=nc把这个设置为起始网址(0级网址),那么你在设置采集网址的1级网址 。而//i.html?_pgn=2&_skc=50&rt=nc这个页面肯定会有下一页,那么下一页的网址应该就是://i.html?_pgn=3&_skc=100&rt=nc,这个页面的下一页的网址就是//i.html?_pgn=4&_skc=150&rt=nc,依次类推,层层采集,最终会把你要得网址采集完 。那么可能会问起始网址就一个,怎么会采集到那么多的“下一页”呢,这个可以用分页的效果来实现,因为你设置好了分页,火车头就会自动跳到下一页去采集,分页的功能就把一个起始网址扩展出N个起始网址了!