爬虫
6点就起床
一个人
展开
-
Scrapy模块爬取中华英才网招聘信息(分页)
import scrapyfrom fenye.items import FenyeItemimport requestsclass ZhfySpider(scrapy.Spider): name = 'zhfy' # allowed_domains = ['www.xxx.com'] start_urls = ['http://www.chinahr.com/channel/rizhao/pn1/'] # 分页操作 urls = 'http://www.chi原创 2020-12-06 16:03:56 · 435 阅读 · 2 评论 -
scrapy框架基于管道的持久化存储,将数据存储到Mysql数据库
import scrapyfrom kjpro2.items import Kjpro2Itemclass A58tcSpider(scrapy.Spider): name = '58tc' # allowed_domains = ['www.xxx.com'] start_urls = ['http://www.chinahr.com/channel/rizhao/pn2/'] def parse(self, response): li_list=res原创 2020-12-05 21:49:37 · 344 阅读 · 0 评论 -
Scrapy模块爬取中华英才网招聘信息(未分页)
import scrapyimport timefrom kjPro.items import KjproItemclass ZhhSpider(scrapy.Spider): name = 'zhh' # allowed_domains = ['www.xxx.com'] start_urls = ['http://www.chinahr.com/channel/rizhao/'] def parse(self, response): li_list=原创 2020-12-04 22:37:20 · 392 阅读 · 0 评论 -
基于selenium框架爬取国家药品监督总局化妆品生产许可证信息(python)
#首页截图f12查看网页源码,网页中的数据是动态加载出来的,所以用selenium框架进行进行操作。(可根据需求进行分页操作),在这里我只爬取了首页中的化妆品公司的详情信息。这是要进行爬取的信息截图from selenium import webdriverfrom lxml import etreeimport time#导入类 实现让selenium规避被检测到的风险from selenium.webdriver import ChromeOptions#实现让selenium规避被原创 2020-11-22 22:42:49 · 1144 阅读 · 0 评论 -
selenium 模拟登录qq空间
from lxml import etreefrom selenium import webdriverfrom time import sleep#模拟登录qq空间#加载谷歌驱动程序bro=webdriver.Chrome('./chromedriver.exe')#访问qq空间bro.get('https://qzone.qq.com/')#切换作用域bro.switch_to.frame('login_frame')#标签定位 账号密码登录a_tag=bro.find_ele原创 2020-11-01 21:46:34 · 3599 阅读 · 0 评论 -
站长之家网页模板爬取(未分页)
#下载站长之家网站模板import requestsfrom lxml import etreeimport osif not os.path.exists('./moban1'): os.mkdir('./moban1')if __name__=="__main__": headers={ 'user-agent':'user-agent: Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) Apple原创 2020-11-01 19:41:32 · 666 阅读 · 0 评论