爬虫基础知识
苦练插画的摄影师Christine
这个作者很懒,什么都没留下…
展开
-
爬虫-5-URL格式和http格式
URL格式说明:协议URL地址都有协议,有的看不到,但是在网址栏复制后粘贴到浏览器搜索框就可以看到参数?开头&结尾的就是URL参数,很多时候参数没用,可以删掉,不影响页面内容。anchor锚点(主播)后面爬取直播网址,可以用anchor爬取主播名字,前端讲过。带锚点的URL,实现页面跳转,跳转到对应的位置。带锚点和不带锚点请求的URL对应的响应是一致的。后面爬虫的时候...原创 2019-08-13 10:48:00 · 531 阅读 · 0 评论 -
爬虫-6-字符串知识复习
字符串类型byte传输过程中都是二进制传输的,爬虫中用到最多的就是字符串,url提取,数据入库等。str肉眼不方便看二进制,比较方便查看str类型bytes和str互相转换在ipython3交互模式中查看字符串类型type(字符串)a = “你好”b = a.encode()str转bytesa.encode()bytes转strb.decode() --...原创 2019-08-13 10:48:12 · 79 阅读 · 0 评论 -
爬虫-1-基本概念
1、复习2、用request模块发送请求接收响应,从响应中提取数据。3、数据提取方法。静态HTML页面4、动态网页提取数据。前端、flask讲过静态HTML页面:不是通过js加载上去的动态HTML页面:通过js加载上去的5、mogdb6、scrapy爬虫框架 ,通过框架可以使爬虫跟快一些7、scrapy redis爬虫框架基础知识:1、爬虫应用场景数据呈现、数据分析大数...原创 2019-08-13 10:46:47 · 95 阅读 · 0 评论 -
爬虫-2-爬虫的流程及工作原理
爬虫的分类通用爬虫:搜索引擎的爬虫,整个互联网聚焦爬虫:针对特定网址的爬虫如果要实现一个和百度新闻一样的网站应该如何做?把天天生鲜的数据替换成新闻数据。用爬虫爬取新浪新闻后,用django项目呈现出来即可。聚焦爬虫工作原理URL地址 ,如果有多个URL,放到列表中 url list响应内容:发送请求:request模块,静态、动态HTML,接收HTML数据 含有标签不需要,还有一...原创 2019-08-13 10:47:16 · 258 阅读 · 0 评论 -
爬虫-3- GitHub markdown
#越多,字号越小下载一个增强版插件:Markdown Preview Enhanced,可实现左边写,右边预览的功能#:#越多,字号越小“- ”横线加空格,就会出现前面有小黑点的列表`反引号,三个反引号连起来,中间可以写代码以上功能跟本编辑器中的功能相同。...原创 2019-08-13 10:47:30 · 113 阅读 · 0 评论 -
爬虫-4-浏览器发送http的过程
复习:http和https,django flask中讲到过为了更好的模拟浏览器发送请求http概念超文本传输协议,协议:客户端向服务端请求数据,要有一定的格式,每行都有特定的格式。数据都是明文进行传输默认端口号:80在搜索引擎地址栏中输入网址,有的网址是http://,如果请求网站时不写端口,会默认是80,写上80效果也是一样的,例如:http://news.ifeng.com...原创 2019-08-13 10:47:44 · 92 阅读 · 0 评论