自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Dataframe之join,merge的使用

 In [1]: import pandas as pdIn [2]: import numpy as npIn [3]: df1 = pd.DataFrame(np.ones((2,4)),columns=list("abcd"), index=list("AB"))In [4]: df1Out[4]: a b c dA 1.0 1.0 1...

2019-01-27 00:32:58 5144

原创 json的str类型和python类型的转换

parse_url.py# coding=utf-8import requestsfrom retrying import retryheaders={"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239...

2019-01-23 23:53:04 604

原创 装饰器用在爬虫即retrying模块的安装

import requestsfrom retrying import retryheaders={"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}@retry(st...

2019-01-22 23:16:24 325

原创 爬虫实现百度翻译

import requestsimport jsonimport sysquery_string = sys.argv[1]headers = {"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11....

2019-01-20 16:09:39 1763

原创 实现任意贴吧的爬虫,保存网页到本地

# coding=utf-8import requestsclass TiebaSpider: def __init__(self, tieba_name): self.tieba_name = tieba_name self.url_temp = "https://tieba.baidu.com/f?kw="+tieba_name+"&pn=...

2019-01-20 13:27:02 897

原创 代参数的url发送请求

import requestsheaders = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}url = "https://www.baidu.com/s?"p = {"wd":"csdn"}...

2019-01-20 09:44:13 357

原创 response.text和response.content

In [1]: import requests In [2]: response = requests.get("http://www.baidu.com") In [3]: response ...

2019-01-19 20:58:55 749

原创 pyhon基础知识

查看python的版本pc@pc-HP-ProDesk-680-G3-PCI-MT:~$ pip3 --versionpip 9.0.1 from /usr/lib/python3/dist-packages (python 3.6) 

2019-01-19 20:17:21 131

原创 str bytes如何转换

str        使用encode方法转换为bytes(爬虫的得到的响应以二进制的方式传送)In [9]: a = "你好" In [10]: type(a) ...

2019-01-19 15:24:22 838

原创 NLP之tfidf作词向量

from sklearn.feature_extraction.text import TfidfVectorizerdef cutword(): con1 = jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。") con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到...

2019-01-14 16:25:59 3486 1

原创 NLP之词频作向量

def cutword(): con1 = jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。") con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。") con3 = jieba.cut("如果只用一种方式了解某样事物,你就不会真...

2019-01-14 15:48:44 1147

原创 NLP之jieba分词

from sklearn.feature_extraction.text import CountVectorizer# 实例化CountVectorizervector = CountVectorizer()# 调用fit_transform输入并转换数据res = vector.fit_transform(["life is is short, i like python", "li...

2019-01-14 15:31:28 177

原创 python下之numpy操作

# coding=utf-8import numpy as npimport randomt1 = np.array([1, 2, 3, ])print(t1)print(type(t1))t2 = np.array(range(10))print(t2)print(type(t2))t3 = np.arange(4, 10, 2)print(t3)print(type...

2019-01-12 21:29:43 143

原创 python下的os

import osos.getcwd() 表示当前的路径'/home/shnu/demo/NLP/第九章'os.sep 表示/'/'c_root = os.getcwd() + os.sep + "source_data" + os.sep'/home/shnu/demo/NLP/第九章/source_data/'os.listdir(c_root) 把当前文件下的所...

2019-01-03 21:56:38 316

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除