隐秀居士-CSDN博客

原创爬虫之规则获取全站图片

本文仅限于技术学习，不能用于商业用途。与网上众多的爬取图片程序不同，我对网站的图片类型，网页数量，作品页数，去重处理都做了规则的操作，确保了质量直接上代码，import requestsimport re import osimport randomimport timefrom lxml import etreefrom bs4 import BeautifulSoupip...

2020-03-22 16:55:01 1676

起初学习PYthon完全是想爬取一些电影动漫来看看，学习了一阵子了，慢慢发现了PYthon的爬虫意义。其实爬虫通俗开说就是获取某个页面的HTML内部信息，无非就是各种库，慢慢学习了WEB才发现，其实PYTHON和HTML,JS,CSS密不可分，通过JS我对PYTHON爬虫的理解更进一步。爬虫说简单不简单，说难不难，但是就好比爬取个美图录，我相信大部分都是仅仅获取图片而已，很难做到系统的，规则的...

2020-03-22 15:40:16 1561

原创利用Python发邮件

今天写的是用python发送邮件。import smtplibfrom email.mime.text import MIMEText msg_from = '' # 发送方邮箱地址。password = '' # 发送方QQ邮箱授权码，不是QQ邮箱密码。msg_to = '' # 收件人邮箱地址。 subject = "你好" # 主题。content = "我是" ...

2020-03-16 14:40:56 1573

原创指针，指针运算的记录

对于指针，我有自己的一些通俗的理解，是将变量地址作为运算的一种指示。#include<stdio.h>void swap(int *pa,int *pb);int main(){ int a=5; int b=6; swap(&a,&b); printf("%d,%d",a,b); return 0;}void swap(int *pa,in...

2020-03-11 20:20:03 1536

原创关于python的CSV保存以及join函数的运用

关于如何将列表变为字符串，要用到join函数例如s=[‘1’,‘2’]a=’ '.join(s)，可将其变为a=12CSV文件的保存with open('douban.csv','a',encoding = 'utf-8',newline='')as f1: csv_write=csv.writer(f1,dialect='excel') csv_write.writerow([...

2020-03-10 18:19:42 1765

原创豆瓣电影信息写入CSV文件保存

一个比较简单的爬虫，用到BS4库存和requests库，话不多说，上代码import requestsimport csvimport osimport randomfrom bs4 import BeautifulSoupActors=[]Title=[]Actorss=[]SengM=[]headers={'User-Agent':'Mozilla/5.0 (Windo...

2020-03-10 18:16:18 2050

原创 Linux系统的一些命令记录

目录创建命令：例如：mkdir /tmp 创建一个名为tmp的目录 mkdir -p:递归创建，例如：mkdir -p /tmp/Q目录切换命令：cd /tmp 切换到tmp目录下，值得注意的是，若直接输入cd，则直接进入根目录，且cd命令必须遵循绝对路径规则。pwd 为显示当前所在目录。删除目录文件：注意为删除空目录，例如rmdir /tmp为删除tmp目录，若非空则失败复制命...

2020-03-09 17:06:08 1514

原创写爬虫时候记录的一些记录和框架

爬虫代码获取URL状态码基本框架：import requestsdef getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() #如果状态码不是200，引发HTTPError异常 return r.text ex...

2020-03-09 17:01:06 1479

原创 Bs4库的一些小记录

BeautifulSoup4使用方法：soup=BeautifulSoup(demo,“html.parser”)soup.head (head标签)soup.head.contents (head标签的儿子节点)soup.body.contents(body标签的儿子节点)len(soup.body.contents) (获取儿子节点的数量，可用列表类型的下标获取相关元素)soup....

2020-03-09 16:46:14 1523

原创基于Scrapy爬虫框架的运行原理

Scrapy是一个非常强大的第三方库，也是一个提高爬虫效率的框架，入门较难。Requests和Scrapy两个有所不同，requests为网页级爬虫，而SCrapy为网站级，Requests注重页面下载，Scrapy注重爬虫结构，能够对多个网站发起请求，并发性高，因此是网络爬虫的重要部分。框架内部包含模块可以描述为“5+2”模块，包含:Spiders,Item PiplinesEngi...

2020-03-09 16:44:42 1796

原创常用到的User-agent

agents=['Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0','Mozill...

2020-03-09 16:41:39 1717

原创关于正则表达式的一些记录

正则表达式：操作符说明实例. 表示任何单个字符[] 字符集，对单个字符给出取值范围 [abc]表示a,b,c[a-z]表示a到z单个字符[^] ...

2020-03-09 16:38:59 1508

原创记录一下学习方向和进度

学习Python,linux,C一段时间了，其实自身基础知识这部分的短板渐渐显露出来了，起初学习爬虫的一部分初衷是因为爬虫的好玩，但是后来我才发现自己对于编程的兴趣非常大，这也是自己长期坚持下来的一个原因吧。我觉得对于我来说，爬虫还是放一放吧，先吧C语言复习完，在对Linux学习。所以今后会以C语言为主更新博客，坚持吧，每天进步一点，希望自己也能每天更新一下博客，当然我觉得除了自己要锻炼编程能...

2020-03-09 13:48:16 1628

原创关于在vm15pro的配置Centos7图文教程，Linux

关于虚拟机镜像的下载可以去官网https://www.centos.org/下载现在讲的是centos7版本，链接如下：http://isoredirect.centos.org/centos/7/isos/x86_64/众多站点中，可以随意选择一个下载好镜像后，直接解压就行，这里不多赘述，打开我们的VM虚拟机，然后选择稍后安装操作系统，这里我们选择接下来就是按照默认推荐就行，这里...

2020-03-06 21:59:14 1607

原创 IP池构建爬虫

今天来学习一下如何构建IP池爬虫爬取网站时有可能会遇到反爬虫机制，所以我们这时候单纯是伪造Headers是不够的，若是爬取频繁，容易封了IP。国内有很多代理网站，我们今天就拿西刺代理来做IP池子构建的网站。https://www.xicidaili.com/nn/https://www.xicidaili.com/nn/2，通过构造网址最后的数字可以获得页数，所以翻页爬取就解决了。点...

2020-03-06 17:16:12 2312

原创新闻网简要爬取

今天练习爬取中国新闻网的爬虫，比较适合爬虫新手进行练习本文仅用于技术交流，不得用于商业用途。不遵守者，与本文作者无关。首先来看看中国新闻网 http://www.chinanews.com/有很多新闻页面的链接，我们点开F12进行分析：网站新闻分别在好几个标签，今天做个简要版本的，我们从中就拿其中一个来进行获取吧。用到的第三方库有Requestss库，Beautiful...

2020-03-06 16:28:30 1929

weixin_45596008的博客