- 博客(14)
- 收藏
- 关注
原创 Dataframe之join,merge的使用
In [1]: import pandas as pdIn [2]: import numpy as npIn [3]: df1 = pd.DataFrame(np.ones((2,4)),columns=list("abcd"), index=list("AB"))In [4]: df1Out[4]: a b c dA 1.0 1.0 1...
2019-01-27 00:32:58 5144
原创 json的str类型和python类型的转换
parse_url.py# coding=utf-8import requestsfrom retrying import retryheaders={"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239...
2019-01-23 23:53:04 604
原创 装饰器用在爬虫即retrying模块的安装
import requestsfrom retrying import retryheaders={"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}@retry(st...
2019-01-22 23:16:24 325
原创 爬虫实现百度翻译
import requestsimport jsonimport sysquery_string = sys.argv[1]headers = {"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11....
2019-01-20 16:09:39 1763
原创 实现任意贴吧的爬虫,保存网页到本地
# coding=utf-8import requestsclass TiebaSpider: def __init__(self, tieba_name): self.tieba_name = tieba_name self.url_temp = "https://tieba.baidu.com/f?kw="+tieba_name+"&pn=...
2019-01-20 13:27:02 897
原创 代参数的url发送请求
import requestsheaders = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}url = "https://www.baidu.com/s?"p = {"wd":"csdn"}...
2019-01-20 09:44:13 357
原创 response.text和response.content
In [1]: import requests In [2]: response = requests.get("http://www.baidu.com") In [3]: response ...
2019-01-19 20:58:55 749
原创 pyhon基础知识
查看python的版本pc@pc-HP-ProDesk-680-G3-PCI-MT:~$ pip3 --versionpip 9.0.1 from /usr/lib/python3/dist-packages (python 3.6)
2019-01-19 20:17:21 131
原创 str bytes如何转换
str 使用encode方法转换为bytes(爬虫的得到的响应以二进制的方式传送)In [9]: a = "你好" In [10]: type(a) ...
2019-01-19 15:24:22 838
原创 NLP之tfidf作词向量
from sklearn.feature_extraction.text import TfidfVectorizerdef cutword(): con1 = jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。") con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到...
2019-01-14 16:25:59 3486 1
原创 NLP之词频作向量
def cutword(): con1 = jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。") con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。") con3 = jieba.cut("如果只用一种方式了解某样事物,你就不会真...
2019-01-14 15:48:44 1147
原创 NLP之jieba分词
from sklearn.feature_extraction.text import CountVectorizer# 实例化CountVectorizervector = CountVectorizer()# 调用fit_transform输入并转换数据res = vector.fit_transform(["life is is short, i like python", "li...
2019-01-14 15:31:28 177
原创 python下之numpy操作
# coding=utf-8import numpy as npimport randomt1 = np.array([1, 2, 3, ])print(t1)print(type(t1))t2 = np.array(range(10))print(t2)print(type(t2))t3 = np.arange(4, 10, 2)print(t3)print(type...
2019-01-12 21:29:43 143
原创 python下的os
import osos.getcwd() 表示当前的路径'/home/shnu/demo/NLP/第九章'os.sep 表示/'/'c_root = os.getcwd() + os.sep + "source_data" + os.sep'/home/shnu/demo/NLP/第九章/source_data/'os.listdir(c_root) 把当前文件下的所...
2019-01-03 21:56:38 316
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人