树上的云-CSDN博客

原创 windows10 Anaconda3 python3.6安装geopandas

环境Windows10Ancona3python3.6安装条件安装 geopandas 之前首先要安装 Fiona,Shapely,GDAL,pyproj下载对应Python版本的依赖包.whl文件）https://www.lfd.uci.edu/~gohlke/pythonlibs/我安装的版本为GDAL-3.0.4-cp36-cp36m-win_amd64.whlpyproj-2.6.1.post1-cp36-cp36m-win_amd64.whlShapely-1.7.0-cp3

2020-06-19 11:19:11 473

原创解决utf-8 与 0xb2问题

UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xb2 in position 2: inval代码：train_df = pd.read_csv('nCoV_100k_train.labled.csv',encoding="utf-8解决办法：代码：`train_df = pd.read_csv(‘nCoV_100k_train.labled.csv’, engine=‘python’)``出现问题：UnicodeDecodeErr

2020-05-28 10:50:25 3860 7

原创 python下使用 pyltp 以及vs2015与boost库安装

vs2015与boost库安装我的妈呀，这个东东折磨了好多好多天，也在网上找了很多方法。深受折磨，因此我觉得我必要告诉大家。看能不能帮到。第一次用的vs2015专业版和对应的boost _1_67_0.出现了良多问题，一直没有安装好。出现的问题当时没有截图下来。但这个诸多网友已经写了。一定要用vs2015社区版+boost _1_67_0。不要用专业版！反正我反反复复安装了vs201...

2019-12-23 10:54:30 654 8

原创爬虫爬取taptap上关于厂商的评论

taptap 简介意义直接code代码# coding:utf-8# 2019-10-14# 爬取腾讯厂商评论import requestsimport csvimport timeimport pandasfrom bs4 import BeautifulSoupimport redef get_page(url, headers): data = [] ...

2019-11-29 20:36:34 917

转载 python去读csv文件，以及numpy的ndarray与pandas的series和dataframe之间互转

使用PythonI/O读取csv文件game_reviews = []with open("game_reviews/Muse Dash 喵斯快跑1.csv", 'r', encoding='utf-8') as csvfile: csv_reader = csv.reader(csvfile) # 使用csv.reader读取csvfile中的文件 header = nex...

2019-11-29 20:31:30 1264

原创 python 需要的setup.py 安装

python 需要的setup.py 安装visual studioCMD电脑端安装 setup.py首先运行cmd.找到位置安装 setup.pyvisual studio如果你写的python 里面有C语言写的，那就需要VC++，所以要安装visual studio。去微软下载吧。现在vs2019版，里面组件有python3.7.和vc++,所以python3.7版本直接安装vs2019应...

2019-09-24 22:25:07 4355

原创 xgboost特征工程学习笔记

PPT学习笔记学习网站辅助网站推荐学习网站不得不说B站这个强大的网站，上面的免费学习资料任你享用。看过比较好的视频珞珈老师辅助网站p1:提高审美的网站推荐1.behance。2。’战酷3。花瓣p3推荐的网站：阿里巴巴矢量图标库。还有小技巧：百度搜图p4推荐的无版权的图片网站：1…www.thestocks.inp4下载优质图片：必应图像，工具（app）：zoommy.必应图片的像...

2019-04-27 20:21:28 534

原创 python载入数据CSV、table

python读取CSV操作明细引言DataFrame类型数据操作数据数据载入csv table 常见参数如何插入一段漂亮的代码片引言每次用python调用CSV函数的时候，总会对它的一些小操作，不熟悉，不能快速准确达到自己的目的，然而python可是一个很方便的编写软件，应该有很直接简单的操作，便可达到目的。DataFrame类型数据pandas中虽然有series类型和dataframe...

2019-04-21 22:01:37 607

原创文本挖掘学习day1

文本挖掘学习day1文本向量化方法1、TF-IDF2、Word2vector文本向量化方法拿到文本数据库，肯定是不能直接输入模型的，一般在预处理之后（清洗，分词，去停用词），将文本数据进行向量化。一下介绍文本向量化方法：1、TF-IDFTF-IDF（TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)）,TF-I...

2019-04-18 22:30:50 150

原创实战大项目：模拟登录丁香园，并抓取论坛页面所有的人员基本信息与回复帖子内容----爬取第二步

接着上一步模拟登录操作。学了两天的session 了没有搞定登录。还是回到selenium模拟登录爬取。但是验证码这一块，没有搞定，在文中用的人工辅助登录成功。代码太丑，实在是无言面对同行。import timefrom selenium import webdriverimport csvfrom lxml import etreebrowser = webdriver.Fire...

2019-04-13 21:30:03 717

原创实战大项目：模拟登录丁香园，并抓取论坛页面所有的人员基本信息与回复帖子内容----登录第一步

哎呀呀，先一步一步的来吧，我们知道要先登录才能查看全部的信息。好吧先去注册，记住账号和密码。2、注册好了之后，先解决登录问题，可以看到有两个登录的地方，编号1、2.打开网页，f12，先看看登录节点在哪里看看第一个登录节点，登录节点和注册节点，名称一样的，但是登录在注册之前，第二个登录在注册之后。在定位节点的时候，1号的登录节点比较好找。因此查看属性，用xpath定位。import t...

2019-04-12 19:19:45 818

原创爬虫代理获取、使用、保存

import requestsimport reimport csvfrom bs4 import BeautifulSoupimport time#爬取西刺代理第一页的代理IP 一定要加headers请求头def get_ip(url,headers): r = requests.get(url, headers=headers) html = r.text ...

2019-04-10 22:26:38 128

原创 selenium以及IP相关介绍

selenium以及IP相关介绍selenium是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等动作，同时还可以获取浏览器当前呈现页面的源代码，做到可见即可爬。因为一些JavaScript动态渲染的页面来说，有很多接口或者加密参数，难以找出其规律。利用selenium可以模拟浏览器爬取。1、准备工作以火狐Firefox浏览器为例 ,安装好火狐浏览器以及python中...

2019-04-10 11:13:12 859

原创 XPath爬取丁香论坛回复评论

import requestsimport csvimport lxmlfrom lxml import etreeurl = "http://www.dxy.cn/bbs/thread/626626#626626"headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTM...

2019-04-09 10:16:36 306

原创 BeautifulSoup 爬取丁香论坛评论回复内容

BeautifulSoup 爬取丁香论坛评论回复内容具体代码如下limport requestsimport csvfrom bs4 import BeautifulSoupimport lxmlimport reurl = “http://www.dxy.cn/bbs/thread/626626#626626”headers = {“User-Agent”:“Mozilla/5....

2019-04-08 21:36:21 514 2

原创爬虫学习task1

爬虫task11.1实验代码：import requestsurl = “https://www.baidu.com/”re = requests.get(url)print(re.status_code)有网时返回响应状态码：200无网时返回响应：requests.exceptions.ConnectionError 连接错误print(，type(re.status_cod...

2019-04-07 13:57:38 156