笔记
山河锦绣放眼好风光
I cannot choose the best .the best chooses me.
展开
-
2021-06-29
音乐(尤克里里),编程(python),语言(汉语,日语,英语),体育运动(跑步,排球 ,游泳)原创 2021-06-29 09:08:51 · 65 阅读 · 0 评论 -
六月你好,五月再见!
人的生命是有限的,所以时间之于人是宝贵的。我们要把这有限的生命运作起来,投入到无限的事业中去。什么是无限的事业 ? 我认为对社会的责任和奉献是无限的,没有止境的。人是社会的动物,没有社会就没有个人,社会对个人的帮助是极大的,每一个有良知的人都应该感恩回馈社会。就社会最大的概念来说,那是全世界的人类,就社会最实际的概念来说,是我们的祖国。我们应该感恩回馈我们的祖国,活在这盛世,每个人都能读书学习孜孜向上,我们不愁吃穿,我们享有充分的人身安全,从互联网上能攫取无尽的学习资源。作为个人如何回馈祖国 ? 我想,只有原创 2021-06-01 07:30:45 · 99 阅读 · 0 评论 -
2021-03-06
最近学的东西有点杂整理一下,包括:scrapy框架(www.toscrape.com)(yuedu.baidu.com)。在前一个案例中,主要练习的是,爬取所有页面的书籍的名字,价格,最终结果是只实现了爬取首页所有书籍的功能,后面的书籍完全的不能被爬取到。在百度阅读案例中,主要学习的是,分析页面结构,然后选择合适的策略,我认为,这个案例中的代码编写方法具有普适性,整篇代码要分成两部分,翻页的功能和解析的功能。在一个页面中最重要的是,确定我们究竟想要什么?当我们知道了我们想要什么,剩下的就是逻辑就是:解析一原创 2021-03-06 17:23:22 · 71 阅读 · 1 评论 -
scrapy-我的第一个scrapy爬虫
import scrapyfrom scrapy.linkextractors import LinkExtractor #linkExtractor是用来指定页面提取规则的extract_links()是用来获取连接的from ..items import BaiduyueduItem #这是我的用来封装数据的items.py文件中的自定义类的名字。#..代表此文件和spider文件在同一文件夹中class BaiduyueduSpider(scrapy.Spider): name =原创 2021-03-03 22:36:56 · 81 阅读 · 1 评论 -
scrapy-使用item封装数据
1.用户提供了两个类,分别是item基类和Field类。其中Field用来描述自定义数据包含哪些数据2.为什么要使用item来封装数据,直接使用字典简单粗暴他不香吗?下面介绍使用item封装数据的优势。当你使用一般的字典的形式来组织管理数据时,很有可能因为笔误而导致莫名其妙的错误,但是当你使用Item时会报错,便于你发现问题方便使用与阅读源代码,当你再items.py中写好了字段管理代码时,你在Spider中只需要引入文件,然后创建对象,之后便可以像使用字典一样的方法使用Itme来组织管理数据了3.原创 2021-03-02 16:55:42 · 330 阅读 · 0 评论 -
field(),字段,元数据,
1.什么是元数据?元数据就是用来描述数据的数据,内容包括数据的分类,管理,加工等等。2.元数据被引用与什么地方?随着互联网的蓬勃发展,网络信息资源爆炸,此时使用元数据,对互联网上的海量信息进行分类整理加工处理,以便于信息更有效地为人类服务。这项技术被广泛的引用于:网络资源,文献资料,人文科学,档案库于资源集合,社会科学数据集。注意:元数据比一定就一定是数据形式,它还可以来自不同的资源。3.什么是field?field是科技术语字段的英文称谓,通常一个数据库总每一行的信息称为一个记录,而字段就是比原创 2021-03-02 09:30:48 · 1654 阅读 · 0 评论 -
爬虫基础-urlencode
1.什么是urlencode?urlencode是一个可以将字符串以url的形式编码的模块(在爬虫当中这个字符串通常为作为请求参数的头部信息,这种参数直接可以在链接当中发现)from urllib.parse import urlencodefrom urllib.parse import urlencodedata = { 'name' : 'Lantern Festival', 'time' : '2021.2.26', }print(urlencode(data)原创 2021-02-26 16:10:39 · 221 阅读 · 0 评论 -
爬虫基础-爬取豆瓣音乐人及热度
本文创作思想:1.确定我们要爬取的页面2.确定要爬取的数据(这里是音乐创作者的名称和喜爱人数)3.用xpath定位获取每一页的所有我们想要的数据(name_list和attribute_list,分别是音乐人的姓名和喜爱人数)4.遍历提取数据5.按照一个名字紧跟着一个喜爱人数的数字进行打印和存储注意,不要让此程序一直运行,否者会被封ip,因为爬取速度过快import requestsfrom lxml import etreefile = open('./music.txt','w',encodin原创 2021-02-25 12:36:55 · 211 阅读 · 2 评论 -
爬虫基础-浅谈代理的基本原理
什么是代理?通俗的来接,代理就是介于客户端浏览器和服务器之间的桥梁,原先是客户端自己想服务器发送request请求,然后解析响应的数据,现在是委托代理服务器,让他去服务器取得自己想要的数据。我们为什么要使用代理?直接通过浏览器发送请求到服务器的简单操作他不香吗?为什么要委托代理服务器来替自己完成这件事情呢?我能提供的答案如下:很多网站采用了反爬虫技术,动不动就封你的ip,你爽不爽?此时你就得换个ip来访问这个网页使用代理可以提速啊,你想想,这等于给你添置了一台服务器,帮你干活,它能进行数据的缓存原创 2021-02-23 22:44:59 · 138 阅读 · 1 评论 -
爬虫基础-会话和cookie
什么是会话?Session: [ˈseʃ(ə)n]会话,指浏览器客户端与服务器端(交互系统)进行通讯的过程。会话一旦建立就应当一直存在,直到用户空闲时间超过了某一个时间界限,容器才应当释放该会话资源。(l来自百度百科)打个比方,你有优酷的vip会员,你登录网页观看乡村爱情,第一次他不知道你是尊贵的vip所以你需要登录,你看了两集不想看了,关闭了网页,过了几天你又想看了于是你打开网页发现自己不许要在登录它就知道自己的身份,这就是cookie发挥了作用,是cookie一直在维持会话过程,会话(Session原创 2021-02-23 10:05:59 · 129 阅读 · 0 评论 -
爬虫基础-爬虫的基本原理
爬虫就是代替人类的手工来自动化的采集页面数据的程序蜘蛛和互联网,爬虫在互联网上穿行,互联网上的一个个节点对应着一个个网页,当这些虫子从一个节点爬到另一个节点时,就像从一个网页的链接跳转到另一个网页。爬虫工作的完整流程获取网页:你必须确定你要获取的资源存在哪一个网页当中,你要做的就是得到资源存在页面的源代码,只要你拿到了源代码就能得到自己想要的数据。我们当然不必手动的去采取网页的源代码,Python中提供了这样的模块,例如Requests,和urllib。提取信息:从网页中精准的定位自己想要的数据资原创 2021-02-23 09:25:15 · 85 阅读 · 0 评论 -
爬虫基础-网页的基本结构
网页的基本结构网页是存放在服务器端某个文件夹内的文件,它可以使静态的(可以包含Javascript,但是客户端访问这个网页时,他不是被程序加载出来的,而是像下载某个图片那样下载过来的。这貌似就是以前的网页的通用操作),也可以是动态的。当我们使用Wordpress来创建自己的网站时,里面的网页就都是PHP程序动态加载出来的。网页可以分为三大部分,即老生常谈的HTML,Javascript,和CSS。HTML是规定了一个页面的总体布局,它既然包含了页面内的所有元素,就必须具有高度的概括性。一个常用的比喻原创 2021-02-23 08:13:41 · 262 阅读 · 0 评论 -
读书笔记-微精通(罗伯特`-特威格尔)
First reading如果我们对周围的一切都非常熟悉,看见了也只不过是扫一眼,只知道个轮廓,这样以来我们周围的事物就在我们的头脑中没有精确的印象,日复一日,我们将生活在一个只知道大概不知道细节的世界里。与其浅尝辄止,每个新的兴趣点都该转化为一个充满激情的,走向精通的新课题。事实上,你可以沉迷任何东西,去做实现,沉迷一个具有游戏性的技能训练,拥抱微精通理念,这样你就再也不会无聊当今时代,人们错误的认为学习要以书本为前提,忽视了探索和观察的重要作用,学习中遇到的最大困难时如何把握每一部分的相对重原创 2021-02-22 16:53:10 · 155 阅读 · 0 评论 -
爬虫心得
目前使用requests来模拟浏览器发送请求然后解析数据,最后再进行持久化存储,遇到了诸多的问题现在我对爬虫使用流程的理解1. 导入requests模块2. 导入xpath模块3. UA伪装4. 确定要爬取的链接5. 用requests发送请求6. 使用xpath提取数据7. 持久化存储数据 遇到的暂未解决的问题页面的URL怎么确定,或者说怎么确定我们要的数据就在这个URL里?为什么有的页面请求需要参数有的页面直接通过URL就可以获得为什么同样的代码上一次可以运行一会儿就不可运行原创 2021-02-22 13:22:14 · 101 阅读 · 0 评论 -
2021-02-21
Traceback (most recent call last): File "F:/python_code/Shujujiexi/58Tongcheng.py", line 17, in <module> file.write(result)TypeError: write() argument must be str, not list解决办法import requestsfrom lxml import etreerequest_headers ={ '原创 2021-02-21 13:17:10 · 54 阅读 · 0 评论 -
Python中的json和json.dump
1.什么是JSON?json是一种数据结构2.json有什么特点?和xml相比,它小巧,但是描述能力差,在网络数据的传输过程中使用它可以加快访问速度,因此备受欢迎JSON就是一串字符串 只不过元素会使用特定的符号标注。{} 双括号表示对象[] 中括号表示数组"" 双引号内是属性或值: 冒号表示后者是前者的值(这个值可以是字符串、数字、也可以是另一个数组或对象)所以 {"name": "Michael"} 可以理解为是一个包含name为Michael的对象而[{"name":原创 2021-02-20 14:42:11 · 609 阅读 · 2 评论 -
Python中的with open的使用方法
with open (file = "你要打开的路径名(或保存内容的地址)",mode = "r/w/a",encoding = "utf-8") as f1: data = f1.read #f1这个文件进行只读操作,并将结果交给data print(data)作者:爱吃泡芙的小杨同学链接:https://www.jianshu.com/p/ce2d30f7ec26来源:简书著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。r:只读 用转载 2021-02-20 11:21:19 · 32021 阅读 · 1 评论 -
2021-02-20
Requests模块作用模拟浏览器发送请求使用方法:1.指定URL2.发起请求(Http或者Https)3.获取响应数据4. 持久化存储响应数据原创 2021-02-20 10:55:28 · 48 阅读 · 0 评论 -
爬虫基础--requests,.content的基本使用
首先导入模块import requests其次设置请求头(以知乎某用户为例)request_headers = { 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Encoding':'gzip, deflate, sdch, br', 'Accept-Language':'zh-CN,zh;q=0.8', 'Cache-Con原创 2021-02-20 09:47:44 · 6137 阅读 · 0 评论 -
2021-02-17
# encoding = utf-8# 引用自https://github.com/wistbean/learn_python3_spider/blob/master/meizitu.py# 仅供个人学习使用import concurrentimport osfrom concurrent.futures import ThreadPoolExecutorimport requestsfrom bs4 import BeautifulSoupdef header(referer):转载 2021-02-17 16:18:51 · 65 阅读 · 0 评论 -
用python爬取海量美女图片
import requestsimport urllib.parse # 网页解析工具import json # 网页解析工具import jsonpath # 网页解析工具 #json数据提取工具if __name__ == '__main__': #注意此处的缩进,python是以缩进区分代码块的 # 指定网址 kw = '美女' kw = urllib.parse.quote(kw) print(kw) num = 0 for inde原创 2021-02-17 10:39:30 · 137 阅读 · 0 评论 -
Python爬虫笔记
崔庆祝才python3网络爬虫开发实战原创 2021-02-17 10:01:14 · 140 阅读 · 0 评论