2019年01月_winnertakeall

原创 Dataframe之join,merge的使用

In [1]: import pandas as pdIn [2]: import numpy as npIn [3]: df1 = pd.DataFrame(np.ones((2,4)),columns=list("abcd"), index=list("AB"))In [4]: df1Out[4]: a b c dA 1.0 1.0 1...

2019-01-27 00:32:58 5144

原创 json的str类型和python类型的转换

parse_url.py# coding=utf-8import requestsfrom retrying import retryheaders={"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239...

2019-01-23 23:53:04 604

原创装饰器用在爬虫即retrying模块的安装

import requestsfrom retrying import retryheaders={"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}@retry(st...

2019-01-22 23:16:24 325

原创爬虫实现百度翻译

import requestsimport jsonimport sysquery_string = sys.argv[1]headers = {"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11....

2019-01-20 16:09:39 1763

原创实现任意贴吧的爬虫，保存网页到本地

# coding=utf-8import requestsclass TiebaSpider: def __init__(self, tieba_name): self.tieba_name = tieba_name self.url_temp = "https://tieba.baidu.com/f?kw="+tieba_name+"&pn=...

2019-01-20 13:27:02 897

原创代参数的url发送请求

import requestsheaders = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}url = "https://www.baidu.com/s?"p = {"wd":"csdn"}...

2019-01-20 09:44:13 357

原创 response.text和response.content

In [1]: import requests In [2]: response = requests.get("http://www.baidu.com") In [3]: response ...

2019-01-19 20:58:55 749

原创 pyhon基础知识

查看python的版本pc@pc-HP-ProDesk-680-G3-PCI-MT:~$ pip3 --versionpip 9.0.1 from /usr/lib/python3/dist-packages (python 3.6)

2019-01-19 20:17:21 131

原创 str bytes如何转换

str 使用encode方法转换为bytes(爬虫的得到的响应以二进制的方式传送)In [9]: a = "你好" In [10]: type(a) ...

2019-01-19 15:24:22 838

原创 NLP之tfidf作词向量

from sklearn.feature_extraction.text import TfidfVectorizerdef cutword(): con1 = jieba.cut("今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。") con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到...

2019-01-14 16:25:59 3486 1

原创 NLP之词频作向量

def cutword(): con1 = jieba.cut("今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。") con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。") con3 = jieba.cut("如果只用一种方式了解某样事物，你就不会真...

2019-01-14 15:48:44 1147

原创 NLP之jieba分词

from sklearn.feature_extraction.text import CountVectorizer# 实例化CountVectorizervector = CountVectorizer()# 调用fit_transform输入并转换数据res = vector.fit_transform(["life is is short, i like python", "li...

2019-01-14 15:31:28 177

原创 python下之numpy操作

# coding=utf-8import numpy as npimport randomt1 = np.array([1, 2, 3, ])print(t1)print(type(t1))t2 = np.array(range(10))print(t2)print(type(t2))t3 = np.arange(4, 10, 2)print(t3)print(type...

2019-01-12 21:29:43 143

原创 python下的os

import osos.getcwd() 表示当前的路径'/home/shnu/demo/NLP/第九章'os.sep 表示/'/'c_root = os.getcwd() + os.sep + "source_data" + os.sep'/home/shnu/demo/NLP/第九章/source_data/'os.listdir(c_root) 把当前文件下的所...

2019-01-03 21:56:38 316

winnertakeall的博客