自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

转载 python网络爬虫教程(五):使用正则表达式提取数据

正则表达式是处理字符串的强大工具,它有自己特定的语法结构,对于爬虫来说,它可以帮我们从HTML例提取我们想要的信息,实际上正则表达式应用非常广泛,如数据挖掘、数据分析、网络爬虫、输入有效性验证等。在python中我们可以用re模块来实现正则表达式。正则表达式的功能非常强大,短短一节是讲不完的,对于新手来说,学习正则表达式可以浏览廖雪峰的官方网站。这里列出了常用的几个匹配规则:模式描述\w匹配字母、数字及下划线\W匹配不是字母、数字及下划线的字符\s匹配任意空白字符

2020-05-29 16:20:52 791

原创 python如何在个人QQ后端部署图灵机器人

因为腾讯官方加强了各方面的检查,目前许多QQAPI接口库都已经不能用了,所,想写一个QQ机器人,查找了很多资料,却不得要领。今天终于找到了一个神奇的插件酷Q,它可以将qq信息转成http形式。发送,接收信息的时候,只需要使用http请求,即可和server进行交互,非常方便,也非常适用python。当然,插件运行基于酷Q,需要用酷Q加载插件才能正常使用。要实现用python发送/接收消息,除了要用requests发送http请求之外,还要用flask在本地搭建一个flask服务端,告知插件flask服务器

2020-05-27 20:13:48 1060

原创 python轻松实现与图灵机器人的人机交互

要实现与图灵机器人的交互,首先就要调用图灵机器人的API接口,我们首先创建一个机器人,步骤如下:到图灵机器人官网,登陆注册成为用户。登陆后点击创建机器人,每个用户可免费申请5个机器人,创建成功后如图所示:点击机器人可以进入机器人设置页面。但现在我们不必关心机器人的设置。下一步就是调用机器人的API接口,首先可以查看机器人的API文档,其中编码、接口、请求方式都是特别重要的:请求示例如下:{ "reqType":0, "perception": { "inputText"

2020-05-27 16:58:11 1591

原创 python网络爬虫教程(四):强大便捷的请求库requests详解与编程实战

上一章中,我们了解了urllib的基本用法,详情可浏览如下链接python网络爬虫教程(三):详解urllib库,但其中确实有不方便的地方,为此,我们可以使用更方便更简洁的HTTP请求库requests来帮我们完成爬虫任务。如果你没有安装requests,无论是Windows、Linux还是Mac,都可以在命令行界面中运行如下命令,即可完成requests库的安装:pip install requests如果你没有安装pip,可参考以下文章:写给初学者的Python与pip安装教程。基本用法1.

2020-05-26 20:23:59 13291

原创 python网络爬虫教程(三):最全的请求库urllib详解与编程实战

前面带大家了解了当我们访问一个网站背后发生了什么事情,了解了网页的构成以及爬虫的基本原理,学习了这些以后,就可以开始写代码了。学习爬虫,最初的操作就是模拟浏览器向服务器发出请求,幸运的是,python为我们提供了强大且便捷的类库来完成这些请求,本章我们先来详细了解一下python自带的urllib库,他是python内置的HTTP请求库,不需要额外安装即可使用。在python2中,有urllib和urllib2两个库来实现请求的发送,而在python3中统一为了urllib,作者使用的是python3.7

2020-05-25 16:31:24 920

原创 python网络爬虫教程(二):最通俗易懂的网页基础教程

上一章我们介绍了网络基础,了解了HTTP的基本原理以及浏览器与服务器之间的收发机制,本章我们就来学习网页基础,了解网络的组成和结构等内容。网页的组成网页可以分为三大部分:HTML、CSS和javaScript。如果把网页比作一个人的话,HTML就相当于骨架,javaScript相当于肌肉,CSS相当于皮肤。三者结合起来才能形成一个完整的网页。1. HTMLHTML是用来描述网页的一种语言,其全称叫做作Hyper Text Markup Language,翻译过来就是超文本标记语言。HTML是一种标签

2020-05-25 16:25:06 734

原创 python网络爬虫教程(一):一篇文章轻松搞定网络基础

网络爬虫是一种高效的信息采集利器,利用她可以快速、准确地采集我们想要的各种数据资源,在这个充满各种信息的时代,大数据深刻地改变着我们的工作和生活,而数据的获取很大程度上依赖于爬虫的爬取。在开始系统地学习网络爬虫之前,我们需要对网络基础有一定的了解,如 服务器请求的收发原理、HTTP原理、爬虫的基本原理等,在本章中我们就对这些基础知识做一个简单的总结。URL概念URL是Uniform Resource Locator的简称,翻译过来就是“统一资源定位符”,在访问网络资源时,我们可以用它来唯一指定它的访

2020-05-25 16:18:40 1264

meta.dat

meta.dat

2021-11-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除