python 爬取糗百

Python爬虫爬取糗百 1、构造请求,查看爬取的URL,因为糗百的内容有可能有多页,并且内容很多,所以在爬取的时候选择只爬取文正的ID以及内容 2、构造爬取过程中的正则表达式,筛选出所需内容(根据网页源代码) 3、对爬取内容进行输出展示 #!/usr/bin/env python #c...

2017-03-31 15:34:02

阅读数:513

评论数:0

Python 爬虫实现简单例子(爬取某个页面)

Python爬虫最简单实现 #!/usr/bin/env python #coding=utf-8 import  urllib import urllib2 def login():     url = 'https://www.oschina.net/action/user/has...

2017-03-29 16:59:08

阅读数:3283

评论数:0

利用cookie爬取页面

在登录网站的过程中,有的网页只有通过登录之后,才能显示出来。并且有的网页登录和不登录是不一样的。如果通过爬虫抓取的话,可以通过先登录一次然后通过cookie来进行登录。 测试网页为麦子学校的登录页面 #!/usr/bin/env python #coding=utf-8 import  u...

2017-03-29 15:13:50

阅读数:1720

评论数:0

awk匹配不区分大小写问题

awk匹配不区分大小写问题 在文本中匹配,只含有大写字母或者是小写字母的行然后进行输出的时候 awk ‘/[a-z]/{print 1}’ file 发现不仅小写的字母进行了输出,然而含有大写字母的行也进行了显示 后来进过查阅资料发现,这是Linux系统编码的问题 因为Linux的编码是...

2017-03-29 14:13:03

阅读数:2073

评论数:0

keepalived设置不抢占

通常情况下,利用Keepalived做整个集群的高可用组件,其中一台设置为master,一台设置为backup。当master出现异常后,backup自动切换为master。然而当master恢复正常后会再次抢占成为master,最终导致不必要的主备切换。因此可以将两台keepalived初始状态...

2017-03-06 10:52:24

阅读数:987

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭