- 博客(5)
- 收藏
- 关注
原创 RE正则匹配整理
一:简介re模块为正则提供了无尽的可能,也是爬虫,数据处理必备利器!二:主要用法1: re.match# re.match(pattern, string, flags)print('re.match(pattern, string, flags)-----------------------------------------')string = 'Cats are smarter ...
2019-09-04 18:27:01
1887
原创 LXML库XPATH解析HTML
一:简述基于Python做爬虫,在html页面爬取,解析方面,Xpath有极大的优势,也是由于LXML库的丰富功能,使爬虫越来越简单。二:LXML库安装pip install lxml1:AttributeError: module ‘lxml’ has no attribute ‘etree’;原因:anaconda中base环境中如果有lxml包的话,虚拟环境就会报错。解决方案:在...
2019-09-04 17:54:38
1320
原创 敏感词过滤算法
一:需求基于网站中用户进行输入的地方恶意使用敏感词等,在用户输入之后进行敏感词屏蔽,相比于网络上的大多数算法,DFA算法属于效率比较高的一种,以下是具体实现。二:实现(1):词库将需要过滤的词,做成json文件,利用python的dict数据结构,实现快速查询。实例如下:WordLibrary.json{ "一":{ "夜":{ "情":...
2019-05-06 22:06:06
990
原创 SCRAPY爬虫实例
一:Scrapy简介scrapy是一个爬虫框架,支持多线程爬取数据,使用简单,爬取效率高。二:项目介绍1:爬取对象#乐彩网历史双色球开奖号码,网址如下http://www.17500.cn/ssq/awardlist.php2:实现流程(1):创建项目mkdir scrapyAppcd scrapyApp/usr/rain/python/bin/scrapy startpro...
2019-01-14 10:55:51
688
原创 FLASK框架应用实例
一:项目简介Flask是Python编写的轻量级Web开发框架,因其良好的可扩展性,意味着,你可以写出你自己随心所欲的代码。其使用jinja模板引擎和Werkzeug WSGI 套件,在安全性方面效果明显。详细文档收藏地址:https://dormousehole.readthedocs.io/en/latest/本项目实现了密码加密,token认证,自定义orm框架,自定义持久化存储等的...
2019-01-10 17:12:20
820
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人