爬虫日记
文章平均质量分 60
鸭脖没了
这个作者很懒,什么都没留下…
展开
-
爬虫日记之07正则表达式(手把手教你区分贪婪匹配和惰性匹配)
爬虫日记之07正则表达式2022-3-7正则表达式Regular Expression,正则表达式,一种使用表达式的方式对字符串进行匹配的语法规则我们可以把抓取到的网页源代码看成一个超长的字符串,通过正则来从这个超长的字符串提取内容。由于正则对于新手来说难度有点高,可以借助一些开源的在线工具。在线正则表达式测试常见的元字符. 匹配除换行符以外的任意字符\w 匹配字母或数字或下划线\s 匹配任意的空白符\d 匹配数字\n 匹配一个换行符\t 匹配一个制表符原创 2022-03-07 01:04:02 · 179 阅读 · 0 评论 -
爬虫日记之06HTTP协议
HTTP协议简单描述原创 2022-03-05 11:14:15 · 2280 阅读 · 0 评论 -
爬虫日记之05两种Web请求渲染过程(附图解和网站实例)
两种web请求渲染过程,内附图解和网站实例原创 2022-03-05 10:01:33 · 1246 阅读 · 0 评论 -
爬虫日记之04urllib包初体验附爬虫工作构建流程
爬虫日记之urllib包初体验附爬虫工作构建流程2021-3-4一、获取一个get请求:import urllib.requestresponse=urllib.request.urlopen("https://www.baidu.com")print(response)#此时的response中包含了百度网站的所有信息,成功读取。运行结果为<http.client.HTTPResponse object at 0x00000228C3E4DDA0>print(respons原创 2021-03-04 01:20:45 · 231 阅读 · 1 评论 -
爬虫日记之03更改Jupyter Notebook的主题和字体
爬虫日记之更改Jupyter Notebook的主题和字体2021-1-21一、为什么要换其实我是一个比较随意的人,没啥强迫症,对于各种界面主题和字体要求都不高,但是,这次更改主题和字体我有以下理由:1、Jupyter太香了 作为一个python刚用了没几天的小小白,对于一个环境、编译器的评价标准其实非常简单——好不好上手,能不能提高我的学习效率。 面对网上铺天盖地的python环境安装教程其实我是很懵的,但是由于我已经安装了Anaconda,抱着试一试的态度,我便打开了Jupyte原创 2021-01-21 19:07:54 · 1183 阅读 · 0 评论 -
爬虫日记之02自定义代码模块 File and Code Templates
爬虫日记2021-1-20pycharm自定义代码模块1、点击左上角File->Settings->Editor->Code Style->File and Code Templates可以看到在HTML File中已经有了一些初始的代码模块我们可以选中Python Script进行.py文件的初始化。我对照的是b站上的这个视频教程:传送门1也可以自行查找更多的Templates参数变量,如传送门22、我的自定义代码模块设置如下#-*- codeing = u原创 2021-01-20 17:53:19 · 386 阅读 · 0 评论 -
爬虫日记之01编辑系统环境变量
爬虫日记2021-1-19一、配置pip和python的环境报错一: from bs4 import BeautifulSoupwith open('D:/Coding/pycharm/jike/2021-1-18/html1/Untitled-1.html','r') as wb_data: Soup = BeautifulSoup(wb_data,'xlml') print(Soup)其实这里还有一个错误,就是‘xlml’我也是错的,应该是‘lxml’才对,这里下一步也是原创 2021-01-19 23:50:53 · 241 阅读 · 0 评论