Jude'-CSDN博客

转载 python网络爬虫教程(五)：使用正则表达式提取数据

正则表达式是处理字符串的强大工具，它有自己特定的语法结构，对于爬虫来说，它可以帮我们从HTML例提取我们想要的信息，实际上正则表达式应用非常广泛，如数据挖掘、数据分析、网络爬虫、输入有效性验证等。在python中我们可以用re模块来实现正则表达式。正则表达式的功能非常强大，短短一节是讲不完的，对于新手来说，学习正则表达式可以浏览廖雪峰的官方网站。这里列出了常用的几个匹配规则：模式描述\w匹配字母、数字及下划线\W匹配不是字母、数字及下划线的字符\s匹配任意空白字符

2020-05-29 16:20:52 813

原创 python如何在个人QQ后端部署图灵机器人

因为腾讯官方加强了各方面的检查，目前许多QQAPI接口库都已经不能用了，所，想写一个QQ机器人，查找了很多资料，却不得要领。今天终于找到了一个神奇的插件酷Q，它可以将qq信息转成http形式。发送，接收信息的时候，只需要使用http请求，即可和server进行交互，非常方便，也非常适用python。当然，插件运行基于酷Q，需要用酷Q加载插件才能正常使用。要实现用python发送/接收消息，除了要用requests发送http请求之外，还要用flask在本地搭建一个flask服务端，告知插件flask服务器

2020-05-27 20:13:48 1102

原创 python轻松实现与图灵机器人的人机交互

要实现与图灵机器人的交互，首先就要调用图灵机器人的API接口，我们首先创建一个机器人，步骤如下：到图灵机器人官网，登陆注册成为用户。登陆后点击创建机器人，每个用户可免费申请5个机器人，创建成功后如图所示：点击机器人可以进入机器人设置页面。但现在我们不必关心机器人的设置。下一步就是调用机器人的API接口，首先可以查看机器人的API文档，其中编码、接口、请求方式都是特别重要的：请求示例如下：{ "reqType":0, "perception": { "inputText"

2020-05-27 16:58:11 1650

原创 python网络爬虫教程(四)：强大便捷的请求库requests详解与编程实战

上一章中，我们了解了urllib的基本用法，详情可浏览如下链接python网络爬虫教程(三)：详解urllib库，但其中确实有不方便的地方，为此，我们可以使用更方便更简洁的HTTP请求库requests来帮我们完成爬虫任务。如果你没有安装requests，无论是Windows、Linux还是Mac，都可以在命令行界面中运行如下命令，即可完成requests库的安装：pip install requests如果你没有安装pip，可参考以下文章：写给初学者的Python与pip安装教程。基本用法1.

2020-05-26 20:23:59 13591

原创 python网络爬虫教程(三)：最全的请求库urllib详解与编程实战

前面带大家了解了当我们访问一个网站背后发生了什么事情，了解了网页的构成以及爬虫的基本原理，学习了这些以后，就可以开始写代码了。学习爬虫，最初的操作就是模拟浏览器向服务器发出请求，幸运的是，python为我们提供了强大且便捷的类库来完成这些请求，本章我们先来详细了解一下python自带的urllib库，他是python内置的HTTP请求库，不需要额外安装即可使用。在python2中，有urllib和urllib2两个库来实现请求的发送，而在python3中统一为了urllib，作者使用的是python3.7

2020-05-25 16:31:24 976

原创 python网络爬虫教程(二)：最通俗易懂的网页基础教程

上一章我们介绍了网络基础，了解了HTTP的基本原理以及浏览器与服务器之间的收发机制，本章我们就来学习网页基础，了解网络的组成和结构等内容。网页的组成网页可以分为三大部分：HTML、CSS和javaScript。如果把网页比作一个人的话，HTML就相当于骨架，javaScript相当于肌肉，CSS相当于皮肤。三者结合起来才能形成一个完整的网页。1. HTMLHTML是用来描述网页的一种语言，其全称叫做作Hyper Text Markup Language，翻译过来就是超文本标记语言。HTML是一种标签

2020-05-25 16:25:06 774

原创 python网络爬虫教程(一)：一篇文章轻松搞定网络基础

网络爬虫是一种高效的信息采集利器，利用她可以快速、准确地采集我们想要的各种数据资源，在这个充满各种信息的时代，大数据深刻地改变着我们的工作和生活，而数据的获取很大程度上依赖于爬虫的爬取。在开始系统地学习网络爬虫之前，我们需要对网络基础有一定的了解，如服务器请求的收发原理、HTTP原理、爬虫的基本原理等，在本章中我们就对这些基础知识做一个简单的总结。URL概念URL是Uniform Resource Locator的简称，翻译过来就是“统一资源定位符”，在访问网络资源时，我们可以用它来唯一指定它的访

2020-05-25 16:18:40 1296

weixin_45698431的博客