![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python(学习)
python爬虫和知识(记录自己的学习过程)
东菇
这个作者很懒,什么都没留下…
展开
-
python中编码(encode())和解码(decode())
个人笔记和刚好七夕看到这个,皮一下这几个是常用的编码表,有时候编译器会发出错误,也是因为编码表不同的问题。下图是各个编码标的适用性范围编码(encode())和解码(decode())使用事例:#编码可以查到下一句的那个码print("我爱你".encode('utf-8'))#这个就是解码,可以到编译器运行一下哈哈,给你一种向不解风情的程序员委婉地表白的方式...原创 2019-08-07 11:30:30 · 4481 阅读 · 2 评论 -
python的爬虫(十)(适合新手)
——个人笔记我们可以爬虫框架Scrapy,Scrapy的整个结构:下面大概介绍一下结构:Scheduler(调度器)部门主要负责处理引擎发送过来的requests对象(即网页请求的相关信息集合,包括params,data,cookies,request headers…等),会把请求的url以有序的方式排列成队,并等待引擎来提取(功能上类似于gevent库的queue模块)。Dow...原创 2019-08-29 17:34:33 · 425 阅读 · 0 评论 -
python的爬虫(九)(适合新手)
爬虫如果按照之前是按照顺序执行的,那么当我们要爬取很多数据时那么就会很慢。相信大家可能会知道有协程(类似多线程,但是是有区别的),但是当协程数量多,我们就要对多协程控制执行数量。同样我们要实现多协程,那么我们同样要引入gevent库,和之前一样,在终端输入pip install gevent运行,然后我们就可以开始了。首先我们要在开头申明这个程序是协作式执行的:from gevent imp...原创 2019-08-28 11:22:51 · 278 阅读 · 0 评论 -
python的爬虫(八)(适合新手)
——个人笔记这次想把爬取信息用邮件的方式发送给别人,那么实现就要自动发送邮件(这里就不再复述),而且可以实现定时发送,这里主要说定时这个功能。要用到schedule这个库,我们要先导入pip install schedule,然后下面代码是介绍这个库的功能:import scheduleimport time#引入schedule和timedef job(): print(...原创 2019-08-27 16:08:32 · 342 阅读 · 0 评论 -
python的爬虫(七)(适合新手)
——个人笔记一系列:python爬虫(一)python爬虫(二)python爬虫(三)python爬虫(四)python爬虫(五)python爬虫(六)使用selenium准备工作selenium可以控制浏览器,做出自动打开、输入、点击等操作,就像是有一个真正的用户在操作一样。首先我们要做一些准备工作,首先要用pip安装,pip install selenium # Win...原创 2019-08-26 15:55:52 · 466 阅读 · 0 评论 -
python的爬虫(六)(适合新手)
——个人笔记原创 2019-08-21 11:20:56 · 193 阅读 · 1 评论 -
python的爬虫(五)(适合新手)
—— 个人笔记一系列:python爬虫(一)python爬虫(二)python爬虫(三)python爬虫(四)这一次学习csv写入读取和Excel写入读取(普通文本,图片的可以参考爬虫一),可以用csv或者excel把我们爬到的数据做成表格存储。csv写入#csv写入的代码:import csvcsv_file = open('demo.csv','w',newli...原创 2019-08-15 18:10:04 · 362 阅读 · 0 评论 -
python的爬虫(四)(适合新手)
—— 个人笔记一系列:python爬虫(一)python爬虫(二)我们爬取时,首先查看网页信息所在的URL,然后看其XHR哪个才是包含我们所需信息,然后我们可以看其Query String Parametres(network中点开相关的XHR,里面的headers),有什么属性时变化的根据变化值可以进行翻页,继续爬取的操作,必要时我们还要对Request Headers(和Qu...原创 2019-08-14 18:24:53 · 265 阅读 · 1 评论 -
python的爬虫(三)(适合新手)
—— 个人笔记一系列:python爬虫(一)python爬虫(二)原创 2019-08-14 11:40:20 · 465 阅读 · 4 评论 -
python的爬虫(二)(适合新手)
——个人笔记一系列:python爬虫(一) 解析数据原创 2019-08-11 11:05:37 · 325 阅读 · 0 评论 -
python的爬虫(一)(适合新手)
第0步:获取数据。爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。第1步:解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。第2步:提取数据。爬虫程序再从中提取出我们需要的数据。第3步:储存数据。爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析。...原创 2019-08-08 17:50:07 · 659 阅读 · 3 评论 -
用python发邮件
——个人笔记流程主要过程建立与你所用邮箱的服务器连接(这个要去查一下,如果用SMTP,默认断口就是25),然后登录邮箱,发送邮件,退出服务器,其实就是多了连接服务器和断开服务器,其余和手动发送过程一致。各函数的详细用法(要import smtplib)connect(host, port)host是指定连接的邮箱服务器,你可以指定服务器的域名。通过搜索“xx邮箱服务器地...原创 2019-08-07 17:24:20 · 256 阅读 · 0 评论 -
python的爬虫(十一)(适合新手)
——个人笔记Scrapy存储方式csv存储方式存储成csv文件的方法比较简单,只需在settings.py文件里,添加如下的代码即可。FEED_URI='./storage/data/%(name)s.csv'FEED_FORMAT='CSV'FEED_EXPORT_ENCODING='ansi'FEED_URI是导出文件的路径。'./storage/data/%(name)...原创 2019-08-29 21:08:51 · 451 阅读 · 0 评论