第1个回答 2021-02-04
Python很适合做爬虫,丰富的第三方库十分强大,几行代码便可实现你想要的功能,常用的架构有以下几个:
1、Scrapy
提取结构性数据而编写的应用框架Scrapy。 主要应用在数据挖掘,信息处理、存储历史数据等程序。
2、Beautiful Soup(bs4)
可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档。
3、selenium
自动化测试工具Selenium,它支持各种浏览器,包括 Chrome,Safari,Firefox等主流浏览器。
4、Portia
可视化爬虫工具Portia,基于scrapy内核,可视化爬取内容。
5、cola
分布式的爬虫框架cola,任务会自动分配到多台机器上。
6、PySpider
纯国产框架PySpider