python爬虫
文章平均质量分 57
本专栏分享下python爬虫小技巧
zjlwdqca
做一个有价值的人,做一些有意义的事,让人生可以多做些选择
展开
-
教你创建一个免费的代理IP池(txt存储版本)
教你创建一个免费的代理IP池(txt存储版本)很多人可能会为爬虫被ban,IP被封等反爬机制苦恼,接下来我就教给大家如何白嫖做一个代理IP池。准备工作首先是准备工作,因为是第一个版本,因此我打算先用txt存储爬取到的ip,下面是用到的一些变量。# UA池user_agents = [ 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537原创 2021-08-27 00:11:20 · 2341 阅读 · 3 评论 -
教你如何mysql远程访问数据库
教你如何mysql远程访问数据库最近在帮助生物学院的大佬爬取一些数据,大概有几万条,我把爬虫部署到服务器一天才能爬1000多条(服务器性能差,一条数据所涉及的内容多),全部爬完得到了猴年马月了,因此只能利用本地+服务器双线爬虫,所以就涉及到了今天要聊到的利用mysql远程访问数据库,下面就讲一下完成这个功能的全部过程。开启服务器3306端口开启服务器mysql数据库允许其他主机访问首先使用命令行登录mysql数据库(我使用的是phpStudy,因此需要切换路径)mysql -u root -原创 2021-05-30 19:49:58 · 6088 阅读 · 3 评论 -
Python操作Excel(读 and 存)
Python库环境准备使用Python xlrd和openpyxl库直接pip安装或者pycharmIDE安装注意:xlrd的2.0.1版本已经不支持xlsx,所以读取xlsx文件需要限制xlrd的版本为1.2.0Python读Excel文件1.打开xlsx文件data = xlrd.open_workbook('**.xlsx')2.获取sheet的名字(返回值为List类型)SheetNames = data.sheet_names()3.锁定你要操作的sheetsheet_da原创 2021-05-18 08:41:38 · 208 阅读 · 2 评论 -
爬虫时会遇到的那些事
爬虫时会遇到的那些事爬虫被反爬封锁原因同一个IP大规模地、长时间地获取数据,会被服务器发现后进行封锁等一系列操作,导致无法获取爬虫数据。解决方案1.user_agent伪装和轮换因为不同浏览器的不同版本都有不同的user_agent,因此在选择user_agent时,不要一直使用一个user_agent,而是在多个user_agent中随机使用其中一个。下面提供一个user_agent列表https://blog.csdn.net/qq_43612275/article/details/86原创 2021-03-31 17:48:07 · 225 阅读 · 1 评论