python
景天的天
我害怕你心碎没人帮你擦眼泪
展开
-
简单的爬虫
参考xlzd的知乎专栏# encoding=utf-8from bs4 import BeautifulSoupimport requestsimport codecsDOWNLOAD_URL = 'http://movie.douban.com/top250/'#requests模拟http协议中的GET请求,用于获取目标网站的源码def download_page原创 2017-09-18 10:22:46 · 559 阅读 · 0 评论 -
python study notes
利用map和reduce编写一个str2float函数,把字符串'123.456'转换成浮点数123.456:from functools import reducedef str2float(s): def num(s): return {"1": 1,"2": 2,"3": 3,"4": 4,"5": 5,"6": 6,"7": 7,"8":原创 2017-11-15 18:55:12 · 225 阅读 · 0 评论 -
python3结巴分词分行拆分统计词频
python3 和 python2 的语法差异应该是最蛋疼的事情了dict本来就是没有顺序的吧把dict转换成list再去排序就会比较好了#!/usr/bin/env python3# -*- coding: utf-8 -*-import jiebaimport csvdef dict2list(dic:dict): # 将字典转化为列表 keys原创 2017-11-23 11:23:37 · 4262 阅读 · 0 评论 -
mac 安装selenium 教程
原文链接mac自带python2.7,自己下载了python3.5,pip list查看系统中的安装包,本人电脑中已经安装了pip和setuptools,若未安装,请先使用sudo apt-get install python3-setuptools1sudo apt-get install python3-pip1若使用命令有问题,可自行到官网下载相应安装包,执行py转载 2017-12-19 15:56:14 · 6365 阅读 · 1 评论 -
mac mongodb 删除(添加)字段
参考链接删除test_set中的weibo这个字段,执行结果如下原创 2018-01-12 13:48:18 · 435 阅读 · 0 评论 -
python正则表达式匹配中文
在爬去微博的wap版的时候,需要得到评论后面的手机的信息。想要得到的是“来自”后面的信息,查询来自的unicode编码,然后放在正则表达式里面去匹配就可以了。是个列表,匹配的只有一串的话可以直接[0]拿出来。效果如下了原创 2018-01-12 19:12:27 · 1136 阅读 · 0 评论 -
python多线程初探
最近写微博爬虫的时候,发现爬的实在是太慢了,昨天看到王老师拿多个微博的cookie去开多个线程爬微博的点赞的列表,于是就决定看一下多线程的知识。之前学习Java的时候也没有好好学习多线程的知识,也算是补偿一点小遗憾吧 我们前面编写的所有的Python程序,都是执行单任务的进程,也就是只有一个线程。如果我们要同时执行多个任务怎么办? 有两种解决方案:一种是启动多个进程,每个进程虽然只有原创 2018-01-14 18:14:26 · 354 阅读 · 0 评论 -
python中慎用readlines
今天在公司写一个其实非常简单的脚本,但是发现卡了半天,根本过不去,break了以后就再也没有跳进过循环里面了,代码是这样的。for i in f_2k.readlines(): i = i.strip("\n") print str(i) + "\n" # f_2k_done.write(str(i) + " " + str(line_index[i])...原创 2018-06-14 19:31:22 · 8315 阅读 · 1 评论 -
zz
feature_sampleimport commandsimport osimport reimport mathimport timepattern = re.compile(r'\S*\w*\.jpg$')pattern2 = re.compile(r'\S*\w*\.Jpg$')pattern3 = re.compile(r'\S*\w*\.jpeg$')patt...原创 2018-06-08 19:33:59 · 239 阅读 · 0 评论