自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 爬虫之规则获取全站图片

本文仅限于技术学习,不能用于商业用途。与网上众多的爬取图片程序不同,我对网站的图片类型,网页数量,作品页数,去重处理都做了规则的操作,确保了质量直接上代码,import requestsimport re import osimport randomimport timefrom lxml import etreefrom bs4 import BeautifulSoupip...

2020-03-22 16:55:01 1647

原创 一些记录

起初学习PYthon完全是想爬取一些电影动漫来看看,学习了一阵子了,慢慢发现了PYthon的爬虫意义。其实爬虫通俗开说就是获取某个页面的HTML内部信息,无非就是各种库,慢慢学习了WEB才发现,其实PYTHON和HTML,JS,CSS密不可分,通过JS我对PYTHON爬虫的理解更进一步。爬虫说简单不简单,说难不难,但是就好比爬取个美图录,我相信大部分都是仅仅获取图片而已,很难做到系统的,规则的...

2020-03-22 15:40:16 1545

原创 利用Python发邮件

今天写的是用python发送邮件。import smtplibfrom email.mime.text import MIMEText msg_from = '' # 发送方邮箱地址。password = '' # 发送方QQ邮箱授权码,不是QQ邮箱密码。msg_to = '' # 收件人邮箱地址。 subject = "你好" # 主题。content = "我是" ...

2020-03-16 14:40:56 1539

原创 指针,指针运算的记录

对于指针,我有自己的一些通俗的理解,是将变量地址作为运算的一种指示。#include<stdio.h>void swap(int *pa,int *pb);int main(){ int a=5; int b=6; swap(&a,&b); printf("%d,%d",a,b); return 0;}void swap(int *pa,in...

2020-03-11 20:20:03 1521

原创 关于python的CSV保存以及join函数的运用

关于如何将列表变为字符串,要用到join函数例如s=[‘1’,‘2’]a=’ '.join(s),可将其变为a=12CSV文件的保存with open('douban.csv','a',encoding = 'utf-8',newline='')as f1: csv_write=csv.writer(f1,dialect='excel') csv_write.writerow([...

2020-03-10 18:19:42 1732

原创 豆瓣电影信息写入CSV文件保存

一个比较简单的爬虫,用到BS4库存和requests库,话不多说,上代码import requestsimport csvimport osimport randomfrom bs4 import BeautifulSoupActors=[]Title=[]Actorss=[]SengM=[]headers={'User-Agent':'Mozilla/5.0 (Windo...

2020-03-10 18:16:18 2001

原创 Linux系统的一些命令记录

目录创建命令:例如:mkdir /tmp 创建一个 名为tmp的目录 mkdir -p:递归创建,例如:mkdir -p /tmp/Q目录切换命令:cd /tmp 切换到tmp目录下,值得注意的是,若直接输入cd,则直接进入根目录,且cd命令必须遵循绝对路径规则。pwd 为显示当前所在目录。删除目录文件:注意为删除空目录,例如rmdir /tmp为删除tmp目录,若非空则失败复制命...

2020-03-09 17:06:08 1500

原创 写爬虫时候记录的一些记录和框架

爬虫代码获取URL状态码基本框架:import requestsdef getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() #如果状态码不是200,引发HTTPError异常 return r.text ex...

2020-03-09 17:01:06 1469

原创 Bs4库的一些小记录

BeautifulSoup4使用方法:soup=BeautifulSoup(demo,“html.parser”)soup.head (head标签)soup.head.contents (head标签的儿子节点)soup.body.contents(body标签的儿子节点)len(soup.body.contents) (获取儿子节点的数量,可用列表类型的下标获取相关元素)soup....

2020-03-09 16:46:14 1513

原创 基于Scrapy爬虫框架的运行原理

Scrapy是一个非常强大的第三方库,也是一个提高爬虫效率的框架,入门较难。Requests和Scrapy两个有所不同,requests为网页级爬虫,而SCrapy为网站级,Requests注重页面下载,Scrapy注重爬虫结构,能够对多个网站发起请求,并发性高,因此是网络爬虫的重要部分。框架内部包含模块可以描述为“5+2”模块,包含:Spiders,Item PiplinesEngi...

2020-03-09 16:44:42 1756

原创 常用到的User-agent

agents=['Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0','Mozill...

2020-03-09 16:41:39 1699

原创 关于正则表达式的一些记录

正则表达式:操作符 说明 实例. 表示任何单个字符[] 字符集,对单个字符给出取值范围 [abc]表示a,b,c[a-z]表示a到z单个字符[^] ...

2020-03-09 16:38:59 1480

原创 记录一下学习方向和进度

学习Python,linux,C一段时间了,其实自身基础知识这部分的短板渐渐显露出来了,起初学习爬虫的一部分初衷是因为爬虫的好玩,但是后来我才发现自己对于编程的兴趣非常大,这也是自己长期坚持下来的一个原因吧。我觉得对于我来说,爬虫还是放一放吧,先吧C语言复习完,在对Linux学习。所以今后会以C语言为主更新博客,坚持吧,每天进步一点,希望自己也能每天更新一下博客,当然我觉得除了自己要锻炼编程能...

2020-03-09 13:48:16 1577

原创 关于在vm15pro的配置Centos7图文教程,Linux

关于虚拟机镜像的下载可以去官网https://www.centos.org/下载现在讲的是centos7版本,链接如下:http://isoredirect.centos.org/centos/7/isos/x86_64/众多站点中,可以随意选择一个下载好镜像后,直接解压就行,这里不多赘述,打开我们的VM虚拟机,然后选择稍后安装操作系统,这里我们选择接下来就是按照默认推荐就行,这里...

2020-03-06 21:59:14 1594

原创 IP池构建爬虫

今天来学习一下如何构建IP池爬虫爬取网站时有可能会遇到反爬虫机制,所以我们这时候单纯是伪造Headers是不够的,若是爬取频繁,容易封了IP。国内有很多代理网站,我们今天就拿西刺代理来做IP池子构建的网站。https://www.xicidaili.com/nn/https://www.xicidaili.com/nn/2,通过构造网址最后的数字可以获得页数,所以翻页爬取就解决了。点...

2020-03-06 17:16:12 2268

原创 新闻网简要爬取

今天练习爬取中国新闻网的爬虫,比较适合爬虫新手进行练习本文仅用于技术交流,不得用于商业用途。不遵守者,与本文作者无关。首先来看看中国新闻网 http://www.chinanews.com/有很多新闻页面的链接,我们点开F12进行分析:网站新闻分别在好几个标签,今天做个简要版本的,我们从中就拿其中一个来进行获取吧。用到的第三方库有Requestss库,Beautiful...

2020-03-06 16:28:30 1877

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除