![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
学会自律
这个作者很懒,什么都没留下…
展开
-
爬取豆瓣出版社信息|迭代器
1.抓取首页def get_one_page(url): try: headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36' } response =requests.get(url,headers=header原创 2020-06-07 16:47:55 · 126 阅读 · 0 评论 -
数据分析|你和女朋友的聊天记录
数据分析|你和女朋友的聊天记录1.提取朋友聊天记录备份到电脑2.将电脑的聊天记录备份到模拟器。首先,下载夜神模拟器在夜神模拟器下载微信使用windows客户端版的微信进行备份,如图3.打开夜神模拟器的root权限4.用模拟器的浏览器搜索RE文件管理器,下载安装后打开,会弹出对话框让你给予root权限,选择永久给予,打开RE文件管理器,进入文件夹, 这是应用存放数据的地方。 /data/data/com.tencent.mm/MicroMsg!5.将这个文件复制到相应位置。共享文件夹原创 2020-06-03 19:42:53 · 913 阅读 · 0 评论 -
第三章 3.2设置HTTP的方法
第三章 3.2设置HTTP的方法HTTP的请求方式除了GET与POST外,还包括PUT、HEAD、DELETE、OPTIONS、TRACE、CONNECT。其中最常用请求方式是GET与POST,各类型主要作用如表所示。GET个和POST最常用...原创 2020-05-07 23:31:49 · 714 阅读 · 0 评论 -
第三章 3.1 Urlib库
第三章 学习目标3.1.1urllib库的概念urllib库是Python编写爬虫程序操作URL的常用内置库。在不同的Python解释器版本下,使用方法也稍有不同,本书采用Python3.x来讲解urllib库,具体版本是Python 3.6.1。 需要说明的是,在Python 2.x中urllib库包含urllib2和urllib两个版本,而在Python 3.x中urllib2合并到了u...原创 2020-04-26 22:58:39 · 209 阅读 · 0 评论 -
第二章 2.8BeautifulSoup(详细)
BeautifulSoup2.6.1安装BeautifulSoup概念:BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库,它能够通过转换器实现大家惯用的文档导航、查找、修改文档等功能。使用BeautifulSoup可以快速实现一个完整的爬虫应用程序。由于BeautifulSoup并不是Python标准库,因此需要单独安装。本书推荐安装BeautifulSo...原创 2020-04-26 20:17:43 · 139 阅读 · 0 评论 -
第二章 2.7 XPath|JSON
XPath实例:xml文件读取xml文件中的信息原创 2020-04-25 11:13:16 · 81 阅读 · 0 评论 -
第二章 2.2正则表达式
第二章 2.2正则表达式比如图中密码,手机号,账号都是利用正则表达式完成的。2.2.2 正则表达式的详解1.普通字符2.非打印字符3.通用字符4.原子表字符 描述\ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。例如,‘n’ 匹配字符 “n”。’\n’ 匹配一个换行符。序列 ‘\’ 匹配 “” 而 “(” 则匹配 “(”。^...原创 2020-04-18 13:58:20 · 129 阅读 · 0 评论 -
第二章 2.3爬虫(使用cookiejar处理Cookie)
第二章 2.3爬虫(使用cookiejar处理Cookie) 利用cookiejar处理Cookie.登录网址:http://account.chinaunix.net/login/login代码:import urllib.requestimport http.cookiejarimport urllib.parse#parse是对传入的数据转化url='http://acc...原创 2020-04-18 10:32:46 · 550 阅读 · 1 评论