![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
杂记
日暮途远8102
目标:无语言 无系统 无框架
展开
-
python读写windows下文件带\ufeff
python读写windows下文件带\ufeff 在处理文件的时候,做重复清洗,发现开头的一个项目好几条相同记录清洗不掉 结果发现问题,开头的记录中有“\ufeff”。 后来查阅资料后发现是windows下写文件会这样。 解决方案: with open( file,'r',encoding='UTF-8-sig') as f ...原创 2019-02-21 16:31:25 · 333 阅读 · 0 评论 -
url传参的一个小问题
问题描述 在做Github爬取数据的时候,从别人处拿到一份9种语言stars数量排名前一千的数据。验证数据的时候发现c与c++语言的项目重复了900个左右。 思考 首先考虑是否github认为c与c++语言就是相通的?经过验证发现不是 答案 原来是通过api爬取数据的时候,lang:c++不能这样写,要写成c%2B%2B ...原创 2019-03-20 12:03:08 · 96 阅读 · 0 评论 -
如何加快爬虫(爬取Github API的速度)
如何加快爬虫(爬取Github API的速度) 前言 之前科研需要爬取Github API的数据,少量的直接request即可,遇到大量的数据怎么办,太慢了! 三种解决方案: 爬虫框架 Scrapy 多进程 多线程 异步 多进程 多线程 主要是用到这个 from multiprocessing.dummy import Pool as ThreadPool 参考文章: Python多线程爬...原创 2019-02-21 23:18:06 · 1238 阅读 · 0 评论