爬虫
文章平均质量分 81
爬虫的基础知识和简单应用
薄荷杂学
触底反弹
展开
-
3-八爪鱼自定义数据采集(关键词循环、数据格式化)
目录3-1-京东关键词循环与特殊字段登录账号,设置Cookie设置循环按关键词搜索3-2-豆瓣数据格式化1.替换2、正则表达式替换3、正则表达式匹配4、去除空格5、添加前缀6、添加后缀7、日期时间格式化8、HTML转码3-3-正则表达式1、正则表达式简介2、正则表达式的用途3、常用元字符及描述4、边界匹配3-4-练习与思考参考资料3-1-京东关键词循环与特殊字段京东链接:https://www.jd.com登录账号,设置Cookie进入八爪鱼打开京东的链接与“2-自动识别初体验”的微博登录设置一致转载 2021-08-19 18:13:24 · 6397 阅读 · 0 评论 -
2-八爪鱼的自动识别(Cookie设置、翻页与循环)
目录2-1-知识储备Cookie2-2-微博数据抓取(登陆Cookie设置)1-在八爪鱼页面打开微博的官网2-切换至“浏览模式”3-登录微博4-设置Cookie5-输入关键词6-自动识别网页,完成数据采集2-3-豆瓣图书数据抓取(翻页与循环)1-登陆八爪鱼,进入豆瓣的采集页面2-自动识别网页3-采集各个图书的链接4-循环打开各个网页采集相关信息5-点击采集开始对最终数据进行抓取2-4-采集流程逻辑1-八爪鱼的工作原理2-八爪鱼的流程逻辑案例1案例2案例32-5-思考参考资料2-1-知识储备Cookie转载 2021-08-18 14:28:14 · 7980 阅读 · 3 评论 -
爬虫-验证码-图形验证码的识别
文章目录准备工作基本识别方法进一步处理转灰度二值化处理convert('1')方法指定二值化的阈值完整代码准备工作step1:安装tesseractstep2:安装tesserocr基本识别方法#1.导包import tesserocrfrom PIL import Image#2.创建image对象,打开本地文件image = Image.open('code.jpg') #3.调用tesserocr的image_to_text()方法,传入Image对象完成识别result =原创 2021-05-10 17:38:04 · 118 阅读 · 0 评论 -
Django-6-设计注册、登陆网页
文章目录在templates目录下创建regist.html文件:修改learn/models.py文件,加入如下代码:同步一下数据库(我们使用默认的数据库 SQLite3,无需配置)在learn下的views.py中加入:修改blog目录下的urls.py:在templates目录下创建login.html文件:在templates目录下创建regist.html文件:<html > <head> <title>regist</titl原创 2021-05-07 20:41:40 · 107 阅读 · 0 评论 -
Django-5-管理界面
文章目录建立超级用户编辑learn目录下的admin.py文件:运行服务器建立超级用户使用python manage.py createsuperuser 建立超级用户编辑learn目录下的admin.py文件:from django.contrib import admin# Register your models here.from learn.models import Personadmin.site.register(Person)运行服务器打开浏览器,并在浏览器地址栏输原创 2021-05-07 20:36:19 · 70 阅读 · 0 评论 -
Diango-4-视图
文章目录1-视图层2-请求对象: HttpRequest 对象(简称 request 对象)2-1-GET2-2-POST2-3-body2-4-path2-5-method3-响应对象:HttpResponse 对象3-1-HttpResponse()3-2-render()3-3-redirect()1-视图层一个视图函数,简称视图,是一个简单的 Python 函数,它接受 Web 请求并且返回 Web 响应。响应可以是一个 HTML 页面、一个 404 错误页面、重定向页面、XML 文档、或者一原创 2021-05-06 16:16:57 · 67 阅读 · 0 评论 -
Django-3-模型(数据库)
文章目录1-Django ORM1-1-什么是ORM1-2-使用 ORM 的好处:1-3-使用 ORM 的缺点:1-4-ORM 解析过程:1-5-ORM 对应关系表:2-数据库配置创建 MySQL 数据库( ORM 无法操作到数据库级别,只能操作到数据表)语法:3-定义模型3-1-创建 APP4-数据库操作4-1-添加数据4-2-获取数据4-3-更新数据4-4-删除数据参考资料Django 对各种数据库提供了很好的支持,包括:PostgreSQL、MySQL、SQLite、Oracle。Django 为这原创 2021-05-06 15:57:34 · 131 阅读 · 0 评论 -
Django-2-模板
文章目录path() 函数Django模板1)在 learn目录下新建templates 文件夹,里面新建home.htmlviews.py将视图函数对应到网址blog/urls.py访问http://127.0.0.1:8000/home2)在templates目录中创建list1.html文件:修改 learn/views.py修改blog/blog/urls.py访问 http://127.0.0.1:8001/list/网站模板的设计写一个 base.html 来包含通用文件(include)首页原创 2021-05-06 15:36:07 · 88 阅读 · 0 评论 -
Django-1-MVC\NTV
文章目录Django简介MVC/MTV介绍1)MVC2)MTVDjango的MTV模型组织path() 函数创建Django项目新建一个django项目(project), 名称为blog新建一个应用(app),名称为learn把新定义的app加到settings.py中的INSTALL_APPS中定义视图函数(访问页面时的内容)1)打开learn目录中的views.py,修改其中的源代码2)修改blog/blog/urls.py3)打卡浏览器,访问'http://127.0.0.1.8000/'Djang原创 2021-05-06 00:00:50 · 76 阅读 · 0 评论