怎么写爬虫python _爬虫

1. 如何用python写爬虫知乎学习基本的爬虫工作原理基本的 = page.read()html = html.decode('GBK')return htmldef getMeg(html):reg = re.compile(r'******')meglist = re.findall(reg,html)for meg in meglist:with open('out.txt',mode='a',encoding='utf-8') as file:file.write('%s\n' % meg)if __name__ == "__main__":html = getHtml(url)getMeg(html) 。
4. 为什么python适合写爬虫有更加成熟的一种爬虫脚本语言，而非框架。是通用的爬虫软件ForeSpider，内部自带了一套爬虫脚本语言。
从一个专业C++程序猿的角度说，网上流传的各种Java爬虫，Python爬虫，Java需要运行于C++开发的虚拟机上，Python只是脚本语言，采集效率和性能如何能与强大的C++相提并论？C++直接控制系统的底层，对内存空间的控制和节省都是其他语言无法竞争的。首先，forespider的开发语言是C++，而且C++几乎没有现成的框架可以用，而火车采集器是用的C# 。先从业界水平和良心来说，这个软件可以做到从底层到上层都是他们的技术人员自己写的，而非运用现成的框架结构。
其次，因为抓取金融行业的数据，数据量大，动态性强，而采集对象一般反爬虫策略又很严格。所以，专门建立团队开发不现实。请外包人员开发太贵。买现成的软件，要考虑性价比。因为很多数据需要登录，需要验证码，是JS生成的数据，是ajax，是文档）其次呢，因为你要跟网页的源码打交道，尤其是解析HTML文档，所以你最好对HTML和浏览器通信有点简单的了解，会使用Firebug查看源码定位信息在源码中的位置。落实到题主给出的示例/topic/19554091/questions?page=1这是知乎数学话题全部问题的URL构成。
【怎么写爬虫python】可以看到我们只要修改最后的数字就可以访问到不同的页数。数学话题下一共有1254页。
所以你可以通过简单的对page做循环遍历获得所有问题。（这种做法是直接构造了地址，或者你可以在爬取每一页以后从页面中得到下一页的链接，这样更像是一个爬虫）。

文章插图