Residual Mark-CSDN博客

原创 RE正则匹配整理

一：简介re模块为正则提供了无尽的可能，也是爬虫，数据处理必备利器！二：主要用法1: re.match# re.match(pattern, string, flags)print('re.match(pattern, string, flags)-----------------------------------------')string = 'Cats are smarter ...

2019-09-04 18:27:01 1887

原创 LXML库XPATH解析HTML

一：简述基于Python做爬虫，在html页面爬取，解析方面，Xpath有极大的优势，也是由于LXML库的丰富功能，使爬虫越来越简单。二：LXML库安装pip install lxml1：AttributeError: module ‘lxml’ has no attribute ‘etree’；原因：anaconda中base环境中如果有lxml包的话，虚拟环境就会报错。解决方案：在...

2019-09-04 17:54:38 1320

原创敏感词过滤算法

一：需求基于网站中用户进行输入的地方恶意使用敏感词等，在用户输入之后进行敏感词屏蔽，相比于网络上的大多数算法，DFA算法属于效率比较高的一种，以下是具体实现。二：实现（1）：词库将需要过滤的词，做成json文件，利用python的dict数据结构，实现快速查询。实例如下：WordLibrary.json{ "一":{ "夜":{ "情":...

2019-05-06 22:06:06 990

原创 SCRAPY爬虫实例

一：Scrapy简介scrapy是一个爬虫框架，支持多线程爬取数据，使用简单，爬取效率高。二：项目介绍1：爬取对象#乐彩网历史双色球开奖号码，网址如下http://www.17500.cn/ssq/awardlist.php2：实现流程(1)：创建项目mkdir scrapyAppcd scrapyApp/usr/rain/python/bin/scrapy startpro...

2019-01-14 10:55:51 688

原创 FLASK框架应用实例

一：项目简介Flask是Python编写的轻量级Web开发框架，因其良好的可扩展性，意味着，你可以写出你自己随心所欲的代码。其使用jinja模板引擎和Werkzeug WSGI 套件，在安全性方面效果明显。详细文档收藏地址：https://dormousehole.readthedocs.io/en/latest/本项目实现了密码加密，token认证，自定义orm框架，自定义持久化存储等的...

2019-01-10 17:12:20 820

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 RE正则匹配整理

原创 LXML库XPATH解析HTML

原创 敏感词过滤算法

原创 SCRAPY爬虫实例

原创 FLASK框架应用实例

空空如也

空空如也

原创敏感词过滤算法