爬虫
weixin_43960465
这个作者很懒,什么都没留下…
展开
-
爬虫学习笔记-多线程(1)
一个线程只属于一个进程一个进程可以有多个线程在进程内部,如果要干多个事情,就需要运行多个子任务,这些子任务叫线程,线程共享所属进程地内存空间模块:1,_thrad模块 低级模块2,threading模块 高级模块,对低级模块进行封装普通实例import threading,timedef run(num): print('子线程(%s)开始'%(threading.c...原创 2020-03-09 10:19:18 · 110 阅读 · 0 评论 -
爬虫学习笔记-selenium库的使用
from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom seleni...原创 2020-03-06 13:07:28 · 154 阅读 · 0 评论 -
爬虫学习笔记-json
json 一种数据交换格式,看起来像python的字符串(列表、字典)html_str=response.content.decode(json字符串)#把json字符串转为python的字符串import json #不用安装dect_ret=json.loads(html_str)print(dict_ret)print(type(dect_ret))json_ret=js...原创 2020-03-06 10:20:09 · 106 阅读 · 0 评论 -
爬虫学习笔记-认识网页中的内容
基础科普(1)爬虫就是模拟客户端(浏览器)发送网络请求,获取响应(2)爬出的数据,展示在网页或者app上(呈现),需要进行数据分析, 从数据中找到一些规律(3)基础语法(字符串,列表字典,判断和循环);函数(函数的创建和调用);面向对象(如何创建一个类,如何使用一个类)(4)url 在chrome中点击检查,点到network。url=请求的协议+网站域名+资源的路径+参...原创 2020-03-05 10:58:06 · 102 阅读 · 0 评论 -
爬虫学习笔记-正则表达式
正则表达式reimport re全称:regular expression首先,简单表达一组字符串'PN','PYN','PYTN','PYTHN','PYTHON'regex="P(Y|YT|YTH|YTHO)?N"P=re.compile(regex)re的作用:1,表达文本类型的特征2,同时查找或者替换一组字符串3,匹配字符串的全部部分编译:将符合正则表达式语的字符串...原创 2020-03-04 13:26:48 · 137 阅读 · 0 评论 -
爬虫学习笔记-BeautifuSoup
from bs4 import BeautifulSoupsoup=BeautifulSoup(‘data’,解析器)解析器常用的,包括:‘html,parser’:html解析器‘lxml’:lxml解析器BS对内容上进行遍历:.content 子节点的列表.children 子节点的迭代类型.descendants 子孙节点的迭代类型.parent 节点的父亲标签.p...原创 2020-03-01 19:47:16 · 95 阅读 · 0 评论 -
爬虫学习笔记-requsets的基本知识。
```pythonr=requests.get(url,params=None,**kwargs)其中:r为response,即get请求返回的响应。`r.status_code` :HTTP请求的返回状态,200表示成功,404表示失败(只要不是200,都表示失败)`r.text`: 相应内容的字符串形式。`r.encoding`:猜测的编码形式`r.apparent_enc...原创 2020-03-01 18:57:37 · 250 阅读 · 0 评论