自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (5)
  • 收藏
  • 关注

原创 windows10 Anaconda3 python3.6安装geopandas

环境Windows10Ancona3python3.6安装条件安装 geopandas 之前首先要安装 Fiona,Shapely,GDAL,pyproj下载对应Python版本的依赖包.whl文件)https://www.lfd.uci.edu/~gohlke/pythonlibs/我安装的版本为GDAL-3.0.4-cp36-cp36m-win_amd64.whlpyproj-2.6.1.post1-cp36-cp36m-win_amd64.whlShapely-1.7.0-cp3

2020-06-19 11:19:11 473

原创 解决utf-8 与 0xb2问题

UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xb2 in position 2: inval代码:train_df = pd.read_csv('nCoV_100k_train.labled.csv',encoding="utf-8解决办法:代码:`train_df = pd.read_csv(‘nCoV_100k_train.labled.csv’, engine=‘python’)``出现问题:UnicodeDecodeErr

2020-05-28 10:50:25 3860 7

原创 python下使用 pyltp 以及vs2015与boost库安装

vs2015与boost库安装我的妈呀,这个东东折磨了好多好多天,也在网上找了很多方法。深受折磨,因此我觉得我必要告诉大家。看能不能帮到。第一次用的vs2015专业版和对应的boost _1_67_0.出现了良多问题,一直没有安装好。出现的问题当时没有截图下来。但这个诸多网友已经写了。一定要用vs2015社区版+boost _1_67_0。 不要用专业版!反正我反反复复安装了vs201...

2019-12-23 10:54:30 654 8

原创 爬虫爬取taptap上关于厂商的评论

taptap 简介意义直接code代码# coding:utf-8# 2019-10-14# 爬取腾讯厂商评论import requestsimport csvimport timeimport pandasfrom bs4 import BeautifulSoupimport redef get_page(url, headers): data = [] ...

2019-11-29 20:36:34 917

转载 python去读csv文件,以及numpy的ndarray与pandas的series和dataframe之间互转

使用PythonI/O读取csv文件game_reviews = []with open("game_reviews/Muse Dash 喵斯快跑1.csv", 'r', encoding='utf-8') as csvfile: csv_reader = csv.reader(csvfile) # 使用csv.reader读取csvfile中的文件 header = nex...

2019-11-29 20:31:30 1264

原创 python 需要的setup.py 安装

python 需要的setup.py 安装visual studioCMD电脑端安装 setup.py首先运行cmd.找到位置安装 setup.pyvisual studio如果你写的python 里面有C语言写的,那就需要VC++,所以要安装visual studio。去微软下载吧。现在vs2019版,里面组件有python3.7.和vc++,所以python3.7版本直接安装vs2019应...

2019-09-24 22:25:07 4355

原创 xgboost特征工程学习笔记

PPT学习笔记学习网站辅助网站推荐学习网站不得不说B站这个强大的网站,上面的免费学习资料任你享用。看过比较好的视频 珞珈老师辅助网站p1:提高审美的网站推荐1.behance。2。’战酷3。花瓣p3推荐的网站:阿里巴巴矢量图标库。还有小技巧:百度搜图p4推荐的无版权的图片网站:1…www.thestocks.inp4下载优质图片:必应图像,工具(app):zoommy.必应图片的像...

2019-04-27 20:21:28 534

原创 python载入数据CSV、table

python读取CSV操作明细引言DataFrame类型数据操作数据数据载入csv table 常见参数如何插入一段漂亮的代码片引言每次用python调用CSV函数的时候,总会对它的一些小操作,不熟悉,不能快速准确达到自己的目的,然而python可是一个很方便的编写软件,应该有很直接简单的操作,便可达到目的。DataFrame类型数据pandas中虽然有series类型和dataframe...

2019-04-21 22:01:37 607

原创 文本挖掘学习day1

文本挖掘学习day1文本向量化方法1、TF-IDF2、Word2vector文本向量化方法拿到文本数据库,肯定是不能直接输入模型的,一般在预处理之后(清洗,分词,去停用词),将文本数据进行向量化。一下介绍文本向量化方法:1、TF-IDFTF-IDF(TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)),TF-I...

2019-04-18 22:30:50 150

原创 实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容----爬取第二步

接着上一步模拟登录操作。学了两天的session 了没有搞定登录。还是回到selenium模拟登录爬取。但是验证码这一块,没有搞定,在文中用的人工辅助登录成功。代码太丑,实在是无言面对同行。import timefrom selenium import webdriverimport csvfrom lxml import etreebrowser = webdriver.Fire...

2019-04-13 21:30:03 717

原创 实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容----登录第一步

哎呀呀,先一步一步的来吧,我们知道要先登录才能查看全部的信息。好吧先去注册,记住账号和密码。2、注册好了之后,先解决登录问题,可以看到有两个登录的地方,编号1、2.打开网页,f12,先看看登录节点在哪里看看第一个登录节点,登录节点和注册节点,名称一样的,但是登录在注册之前,第二个登录在注册之后。在定位节点的时候,1号的登录节点比较好找。因此查看属性,用xpath定位。import t...

2019-04-12 19:19:45 818

原创 爬虫代理获取、使用、保存

import requestsimport reimport csvfrom bs4 import BeautifulSoupimport time#爬取西刺代理第一页的代理IP 一定要加headers请求头def get_ip(url,headers): r = requests.get(url, headers=headers) html = r.text ...

2019-04-10 22:26:38 128

原创 selenium以及IP相关介绍

selenium以及IP相关介绍selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等动作,同时还可以获取浏览器当前呈现页面的源代码,做到可见即可爬。因为一些JavaScript动态渲染的页面来说,有很多接口或者加密参数,难以找出其规律。利用selenium可以模拟浏览器爬取。1、准备工作以火狐Firefox浏览器为例 ,安装好火狐浏览器以及python中...

2019-04-10 11:13:12 859

原创 XPath爬取丁香论坛回复评论

import requestsimport csvimport lxmlfrom lxml import etreeurl = "http://www.dxy.cn/bbs/thread/626626#626626"headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTM...

2019-04-09 10:16:36 306

原创 BeautifulSoup 爬取丁香论坛评论回复内容

BeautifulSoup 爬取丁香论坛评论回复内容具体代码如下limport requestsimport csvfrom bs4 import BeautifulSoupimport lxmlimport reurl = “http://www.dxy.cn/bbs/thread/626626#626626”headers = {“User-Agent”:“Mozilla/5....

2019-04-08 21:36:21 514 2

原创 爬虫学习task1

爬虫task11.1实验代码:import requestsurl = “https://www.baidu.com/”re = requests.get(url)print(re.status_code)有网时返回响应状态码:200无网时返回响应:requests.exceptions.ConnectionError 连接错误print(,type(re.status_cod...

2019-04-07 13:57:38 156

ChineseSentimentAnalysis-master.zip

电影评论数据作为训练数据集. 其中, 训练数据集20000条(正负向各10000条); 测试数据集6000条(正负向各3000条)。造福没有积分的宝宝。资源来自于https://www.ctolib.com/lxw0109-ChineseSentimentAnalysis.html

2020-03-26

三个情感词典汇总.zip

在中文情感分析中用到的情感词典。这里面包括知网情感词典、清华李军教授情感词典以及台湾情感词典和其他:褒贬词及其近义词、否定词典汉语情感词极值表、情感词典及其分类、情感词汇本体。主要是免费下载!

2020-03-09

stopwords-master.zip

很全的中文停用词:哈工大、四川大学人工智能实验室、百度的。GitHub上有,免费的,是一个很优秀的人收藏的,我只是老告诉大家,毕竟我也找了好久可以免费下的。

2019-11-04

原版讲义.rar

里面包含斯坦福机器学习原版讲义以及机器学习其他整理的资料

2019-06-05

吴恩达斯坦福大学机器学习周周学习资料

吴恩达斯坦福大学机器学习周周学习资料,很全,里面有8周的学习资料,对数学有一定的基础要求。

2019-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除