![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
I'm_Jenson
毕业于曾正理工学院
精通python,mysql,linux,wxpython
精通各种爬虫框架(scrapy,selenium,requests)
具有2年爬虫开发工作经验
熟悉数据分析模块pandas,numpy,pyecharts
精通photoshop精细修图
展开
-
scrapy爬虫实战 - 51job爬虫职位爬取
思路: 首先爬取所有内容页的链接存储到数据库 然后再新建一个scrapy 爬取这些链接 需要用到的模块:scrapy urllib pymysql 内容页链接爬取 这里使用scrapy的通用爬虫框架 创建命令:scrapy genspider -t crawl [name] [domains] # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spid..原创 2020-07-18 16:05:15 · 1217 阅读 · 0 评论 -
Python - 分布式爬取百度贴吧
Environment Configure: Scrapy settings.py middlewares.py tieba.py Selenium Redis MongoDB Linux step 1:scrapy startproject name windows写好的爬虫文件整个传进linux无法辨识settings.py属于哪个爬虫 linux中创建scrapy爬虫 windows中编写好scrapy爬虫文件对应覆盖linux中scrapy爬虫文件即可 step 2:settings.py原创 2020-07-16 16:14:33 · 158 阅读 · 1 评论 -
Python分布式爬虫实战 - 豆瓣读书
01.是否为整数 >>> str="1234567890" >>> str.isdigit() True 02.是否为字母 >>> str.isalpha() False原创 2019-08-06 15:26:55 · 934 阅读 · 1 评论