火车头采集规则怎么写( 二 )


现在需要获取内容页的地址 。先打开栏目页查看源码,查找内容页地址存在的区域及地址规律 。
按照上一步的方法先填写内容页所在区域的起始和结束标志性代码,然后分析这个区域中包含的链接与我们说需要的内容页地址链接规律,添加过滤代码 。这里起始代码为“<!--显示-->”,结束代码为“”过滤代码为必须包含“read-”不得包含“#” 。
如图:需要注意的是这里文章比较多会有很多分页,所以需要填写“列表分页获取”规则 。通常只需要指定分页代码的区域,如有必要可以填写“组合生成列表页分页”规则 。
这里的列表分页规则其实代码为“

  • ”,结束代码为“title="下一页">” 。如果勾选“自动识别分页”的话,会自动提取a标签的href属性,如果不勾选自动识别的话,需要填写组合生成列表页分页”规则 。
    然后保存返回,可以通过“测试网址采集”来测试规则是否正确,不正确可以返回修改规则,正确的话可以开始编写“第二步采集内容规则” 。编写“第二步采集内容规则” 先打开内容页以及内容页的源码,找到需要提取的信息的前后代码特征 。
    以提取标题和内容为例 。首先复制文章标题,然后在源码中查看该标题出现的几处地方,找一处前后代码在每一篇文章都一样的地方,该例共出现了3处,第二处的代码没有其他干扰代码 。
    点击“添加”,标签名填“标题”,提取数据方式选择前后截取,前后代码分别为“”和“” 。如果采集的内容需要作进一步处理(如替换删除编码转换过滤html等),在下方“数据处理”点击添加填写相应规则 。
    再添加一个标签,标签名为“内容”,按照上述方法填写内容的前后代码片段,需要注意的是,前后代码片段最好不要出现不完整的标签(如:“”,一个完整的标签应该是以“<”开始,以“>”结束,如果<>之间的内容在各个内容页有一部分不一样,将不一样的部分用(*)代替即可),否则提取的内容会包含部分不完整的标签 。通常正文包含的HTML会比较多,可以添加HTML过滤功能,建议仅保留段落(p)、图片(img)、换行(br)等标签 。
    测试内容采集规则 保存规则后返回采集内容规则页面,在右侧“规则测试”的典型页面文本框填上一个内容页的地址,然后点击测试,如果下面显示到的内容符合预期说明可以了,如果未获取到内容或者获取到内容不正确,返回检查并修改规则 。开始采集 选择要采集的任务规则,勾选“采网址”和“采内容”复选框,点击工具栏“开始”按钮 。
    后续工作 采集到的数据保存在数据库,可以通过在任务名上点右键,选择“打开DATA下任务文件夹”打开数据库所在位置,该数据库可以通过ACCESS打开和编辑 。如果想要重新采集,需要通过右键选择“清空该任务网址库”和“清空任务所有采集数据” 。
    3.火车头采集怎么设置采集网址规则啊“我采集一个网页的地址,起始找的是一个层,终止也找了一个层 这样不行啊 。如果没有数字的网址怎么采集呢!如某个网址是list_50.html。上图 才 。”
    ----------------------------
    有些网站的列表页翻页参数中,第一个参数是无效的,利用数值变化就无法访问列表页的第一页 。
    我不知道在火车头里面怎样解决这个问题的 。在熊猫采集里面是可以忽略这个问题的,只需要鼠标选择列表页中指向下一页的链接,就能翻页访问 。因为熊猫使用的是机器训练的采集设置方式 。不需要用户手工设置这些 。
    少数没有下一页的列表页中,遇到这种情况,可以使用参数列表方式解决 。你可以在火车采集器里面找找是否有“参数列表”的翻页方式 。