Erfec-CSDN博客

原创具有相同键的字典的合并

基于pandas实现相同键的字典之间的合并

2022-09-12 15:03:42 1047 2

原创如何解决机器学习时报错：sklearn.exceptions.NotFittedError: Vocabulary not fitted or provided

1、代码运行到何处报错？在利用sklearn的svm算法做新文本的向量化时报错2、为什么报错：原因是，重新定义了CountVectorizer()往往是因为我们在训练模型的时候，将CountVectorizer()放在自定义的函数内，而且没有将它传出来，后面再调用CountVectorizer()时，会报错，除非是重新定义了CountVectorizer()，那么就会报和本文一样的错误3、如何解决？如果之前训练模型时，自定义的函数，没有将CountVectorizer()类传出来（无论是retu

2020-11-17 16:17:55 4226 1

原创爬取东方财富网当日股票交易情况

爬虫的第一步是得到数据的存放地址，因此，爬取股票行情数据之前，第一步工作是解析网页，寻找数据的url。东方财富网股票行情界面如图：此页面的链接为：http://quote.eastmoney.com/center/gridlist.html#hs_a_board在浏览器地址栏内输入此链接可以正常访问，但是通过requests库请求并没有得到关于股票行情的数据，这可能是由于网站为了方便维护，把...

2020-04-02 14:35:17 3103 1

原创爬虫守则--写爬虫，不犯法

玩爬虫，技术当然是中立的，浏览了因为爬虫被捕入狱的案例，自己总结了如下爬虫守则，不吃牢饭！1、爬虫速度不要太快，不要给对方服务器造成太大压力2、爬虫不要伪造VIP，绕过对方身份验证，你可以真的买一个VIP做自动化，这没问题3、公民个人信息不要去碰4、爬取的数据不能用于盈利5、爬虫是模拟人，不要做人不能做到的事情...

2020-02-15 17:55:35 2310 1

原创纪念解决困扰许久的问题——知网 python爬虫 selenium webdriver

知网爬虫 selenium webdriver出于一些需求，需要从知网爬取pdf格式论文以及论文的详细信息，毕竟正文里面不包括下载次数发表时间等等，或者分离出这些信息需要重复工作，所以写了两个爬虫。这里记录论文详细信息的爬虫，比较简单，不同页数的网页遍历，出于简短易读，就略过了，这里给出最核心的代码，我在爬取的过程中，最大的问题是知网的反爬，用了iframe，导致不能get到我想要的htm...

2020-02-05 18:48:52 1103 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 具有相同键的字典的合并

原创 如何解决机器学习时报错：sklearn.exceptions.NotFittedError: Vocabulary not fitted or provided

原创 爬取东方财富网当日股票交易情况

原创 爬虫守则--写爬虫，不犯法

原创 纪念解决困扰许久的问题——知网 python爬虫 selenium webdriver

空空如也

空空如也

原创具有相同键的字典的合并

原创如何解决机器学习时报错：sklearn.exceptions.NotFittedError: Vocabulary not fitted or provided

原创爬取东方财富网当日股票交易情况

原创爬虫守则--写爬虫，不犯法

原创纪念解决困扰许久的问题——知网 python爬虫 selenium webdriver