自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 具有相同键的字典的合并

基于pandas实现相同键的字典之间的合并

2022-09-12 15:03:42 1013 2

原创 如何解决机器学习时报错:sklearn.exceptions.NotFittedError: Vocabulary not fitted or provided

1、代码运行到何处报错?在利用sklearn的svm算法做新文本的向量化时报错2、为什么报错:原因是,重新定义了CountVectorizer()往往是因为我们在训练模型的时候,将CountVectorizer()放在自定义的函数内,而且没有将它传出来,后面再调用CountVectorizer()时,会报错,除非是重新定义了CountVectorizer(),那么就会报和本文一样的错误3、如何解决?如果之前训练模型时,自定义的函数,没有将CountVectorizer()类传出来(无论是retu

2020-11-17 16:17:55 4123 1

原创 爬取东方财富网当日股票交易情况

爬虫的第一步是得到数据的存放地址,因此,爬取股票行情数据之前,第一步工作是解析网页,寻找数据的url。东方财富网股票行情界面如图:此页面的链接为:http://quote.eastmoney.com/center/gridlist.html#hs_a_board在浏览器地址栏内输入此链接可以正常访问,但是通过requests库请求并没有得到关于股票行情的数据,这可能是由于网站为了方便维护,把...

2020-04-02 14:35:17 2999 1

原创 爬虫守则--写爬虫,不犯法

玩爬虫,技术当然是中立的,浏览了因为爬虫被捕入狱的案例,自己总结了如下爬虫守则,不吃牢饭!1、爬虫速度不要太快,不要给对方服务器造成太大压力2、爬虫不要伪造VIP,绕过对方身份验证,你可以真的买一个VIP做自动化,这没问题3、公民个人信息不要去碰4、爬取的数据不能用于盈利5、爬虫是模拟人,不要做人不能做到的事情...

2020-02-15 17:55:35 2199 1

原创 纪念解决困扰许久的问题——知网 python爬虫 selenium webdriver

知网 爬虫 selenium webdriver出于一些需求,需要从知网爬取pdf格式论文以及论文的详细信息,毕竟正文里面不包括下载次数发表时间等等,或者分离出这些信息需要重复工作,所以写了两个爬虫。这里记录论文详细信息的爬虫,比较简单,不同页数的网页遍历,出于简短易读,就略过了,这里给出最核心的代码,我在爬取的过程中,最大的问题是知网的反爬,用了iframe,导致不能get到我想要的htm...

2020-02-05 18:48:52 1068 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除