- 博客(6)
- 收藏
- 关注
原创 用python实现过滤存在大部分空白背景的图片
PYTHON的PIL和Counter实现过滤空白背景的图片需求有以下三张图,目标是筛选出img2,排除掉img1和img3。最初考虑过用for循环遍历每一个像素值,然后对空白像素值进行统计,占比达到总像素点的一定百分比就过滤掉,但是这样会大大的增加计算量,于是打算另辟蹊径。。准备用到的函数有:Image中的getdata(),它能直接获取图像的像素值,并且每个像素点的四个像素值以元组的形式呈现。getdata()有band参数,默认band是所有,当band=0时,仅返回‘r’ band,即
2020-05-08 22:52:40 2584 1
原创 多线程爬取58同城二手车信息
多线程爬取58同城二手车信息目录多线程的介绍数据的爬取数据的解析多线程简介:线程是轻量级的进程,是程序执行流的最小单元,它不拥有系统的资源,运行占用独立的资源且资源小,且多个线程共享一个单元,同一进程中多个线程可以并发执行(线程轮流使用,因为cpu处理和切换比较快),比较适合计算量小但比较耗时的工作(如爬虫)。缺点:1.cpu分配给每个线程的时间非常短,以此来‘伪装’多线程,...
2020-05-07 11:44:25 959
原创 PYTHON爬取斗鱼英雄联盟所有在玩adc的主播房间信息
Python爬取斗鱼英雄联盟所有玩adc的主播房间信息并用redis存储数据最近想要用巩固下json数据的提取以及数据的存储,于是选了斗鱼作为研究对象。。下面就是所有要爬取的adc,当然有个别adc没人玩就不爬不了。首先观察下虚空之女和赏金猎人这两个英雄的直播页面什么差异。可以发现,两者的url并没有差异,那么就不能从html页面下手了,接下来再看看XHR和json。在XHR的ge...
2020-04-13 16:58:00 431
原创 Python爬虫借助Genecards网站将基因全名转换为Gene Symbol——历时8小时!
历时8小时的爬虫:基因全名与基因名缩写的转换——Genecards在爬取了TCMSPW的中药材的靶向基因后,得到的靶向基因名称是全名,但是后续分析需要的是基因名称缩写(即Gene Symbol)。最初尝试用R语言的org.Hs.eg.db包来进行转换,然而结果不尽人意,能转换的基因寥寥无几,于是又将目光投向了Genecards。。基本思路是将基因全名进行检索,然后选取检索结果中第一个,这样的弊...
2020-04-09 19:06:00 5512 5
原创 Python requests+bs4爬取中药数据库TCMSP的资源获得清肺排毒汤的靶向基因(曲线救国)
Python requests+bs4 爬取TCMSP的资源获得清肺排毒汤的靶向基因-----曲线救国为研究清肺排毒汤的中药材对于新冠肺炎的作用机制,需要收集相关数据,于是将目光洒向了TCMSP。。检索首页是这样的:接下来用一味药材进行检索。中药材检索界面获取以清肺排毒汤中的麻黄为例,进行检索后它的界面是这样的,注意观察url:http://tcmspw.com/tcmspsearc...
2020-04-07 09:58:09 5041 29
原创 Python requests爬取美桌壁纸之可爱小狗狗
爬取美桌壁纸之可爱小狗狗最近在学爬虫,用课堂案例来巩固下学习内容。import requestsfrom lxml import etree # 用lxml库对网页进行解析import osurl = 'http://www.win4000.com/zt/gou.html'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT ...
2020-04-04 21:06:22 660
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人