python
文章平均质量分 90
玛卡巴卡巴巴亚卡
这个作者很懒,什么都没留下…
展开
-
python爬虫学习记录(7)数据存储——文件存储a
一、TXT文本存储1、基本思路先用request方法提取,再用python提供的open方法打开file,获取一个文件操作对象,这里赋值为 file,接着利用 file 对象的 write 方法将提取的内容写入文件,最后调用 close 方法将其关闭,这样抓取的内容即可成功写入文本中了。2、打开方式r:以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。 rb:以二进制只读方式打开一个文件。文件指针将会放在文件的开头。 r+:以读写方式打开一个文件。文件指针将会放在文件的开头原创 2021-07-27 10:03:35 · 192 阅读 · 0 评论 -
python爬虫学习记录(6)解析库的使用——pyquery
一、简介CSS选择器,jQuery二、初始化1、字符串初始化from pyquery import PyQuery as pqhtml = """<div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></l原创 2021-07-26 15:51:05 · 326 阅读 · 0 评论 -
python爬虫学习记录(4)解析库的使用——BeautifulSoup
一、概述python中的一个html或xml解析器,可以从网页中提取数据。beautifulsoup解析依赖解析器,除了python标准库中的HTML解析器,还有lxml,xml,htmllib用法:BeautifulSoup(markup,“html.parser/lxml/xml/html5lib”)二、基本用法from bs4 import BeautifulSouphtml = """<html><head><title>The D原创 2021-07-20 15:02:07 · 255 阅读 · 0 评论 -
python爬虫学习记录(3)基本库的使用——正则表达式
正则表达式测试工具:http://tool.oschina.net/regex1、常见语法https://www.runoob.com/regexp/regexp-syntax.html2、match()用match传入要匹配的字符串以及正则表达式,就可以及检测这个正则表达式是否匹配字符串。import recontent = 'Hello 123 4567 World_This is a Regex Demo'print(len(content))result = re.ma原创 2021-07-19 14:00:41 · 170 阅读 · 0 评论 -
python爬虫学习记录(2)基本库的使用——requests
一、基本用法urllib库中的urlopen方法实际是用GET方式请求网页,而requests中相应的方法是get()我们用get方法实现与urlopen相同的操作,得到一个response对象,分别输出response类型,状态码,响应体以及cookieimport requestsr = requests.get('https://www.baidu.com')print(type(r))print(r.status_code)print(type(r.text))print(原创 2021-07-17 08:49:30 · 1235 阅读 · 0 评论 -
python爬虫学习记录(1)基本库的使用——urllib
一、使用urllib库python内置HTTP请求库,包含如下四个模块:request:模拟发送请求error:异常处理模块parse:工具模块,提供url处理方法robotparser:识别网站robots.txt文件,判断哪些网站可爬取1、发送请求(1)urlopen()模拟浏览器请求发起过程如下代码可以爬取python官网源代码from urllib import requesturl = 'https://www.python.org'response原创 2021-07-12 13:59:19 · 637 阅读 · 0 评论