学习教程
Jude'
这个作者很懒,什么都没留下…
展开
-
python网络爬虫教程(五):使用正则表达式提取数据
正则表达式是处理字符串的强大工具,它有自己特定的语法结构,对于爬虫来说,它可以帮我们从HTML例提取我们想要的信息,实际上正则表达式应用非常广泛,如数据挖掘、数据分析、网络爬虫、输入有效性验证等。在python中我们可以用re模块来实现正则表达式。正则表达式的功能非常强大,短短一节是讲不完的,对于新手来说,学习正则表达式可以浏览廖雪峰的官方网站。这里列出了常用的几个匹配规则:模式描述\w匹配字母、数字及下划线\W匹配不是字母、数字及下划线的字符\s匹配任意空白字符转载 2020-05-29 16:20:52 · 814 阅读 · 0 评论 -
python轻松实现与图灵机器人的人机交互
要实现与图灵机器人的交互,首先就要调用图灵机器人的API接口,我们首先创建一个机器人,步骤如下:到图灵机器人官网,登陆注册成为用户。登陆后点击创建机器人,每个用户可免费申请5个机器人,创建成功后如图所示:点击机器人可以进入机器人设置页面。但现在我们不必关心机器人的设置。下一步就是调用机器人的API接口,首先可以查看机器人的API文档,其中编码、接口、请求方式都是特别重要的:请求示例如下:{ "reqType":0, "perception": { "inputText"原创 2020-05-27 16:58:11 · 1657 阅读 · 0 评论 -
python网络爬虫教程(二):最通俗易懂的网页基础教程
上一章我们介绍了网络基础,了解了HTTP的基本原理以及浏览器与服务器之间的收发机制,本章我们就来学习网页基础,了解网络的组成和结构等内容。网页的组成网页可以分为三大部分:HTML、CSS和javaScript。如果把网页比作一个人的话,HTML就相当于骨架,javaScript相当于肌肉,CSS相当于皮肤。三者结合起来才能形成一个完整的网页。1. HTMLHTML是用来描述网页的一种语言,其全称叫做作Hyper Text Markup Language,翻译过来就是超文本标记语言。HTML是一种标签原创 2020-05-25 16:25:06 · 776 阅读 · 0 评论 -
python网络爬虫教程(一):一篇文章轻松搞定网络基础
网络爬虫是一种高效的信息采集利器,利用她可以快速、准确地采集我们想要的各种数据资源,在这个充满各种信息的时代,大数据深刻地改变着我们的工作和生活,而数据的获取很大程度上依赖于爬虫的爬取。在开始系统地学习网络爬虫之前,我们需要对网络基础有一定的了解,如 服务器请求的收发原理、HTTP原理、爬虫的基本原理等,在本章中我们就对这些基础知识做一个简单的总结。URL概念URL是Uniform Resource Locator的简称,翻译过来就是“统一资源定位符”,在访问网络资源时,我们可以用它来唯一指定它的访原创 2020-05-25 16:18:40 · 1297 阅读 · 0 评论