自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 2020-09-23

新安装的电脑只有c盘和一个DATA1盘1.点击此电脑,鼠标右键进管理2.找到磁盘管理把自己较大待分卷的磁盘,用鼠标点击右键选择 压缩卷,对于新建的压缩卷,再鼠标点击右键选择新建卷,一直按下一步,完成分卷具体链接:https://jingyan.baidu.com/article/3c343ff75753ce0d3679634c.html...

2020-09-23 21:59:11 90

原创 投资学习第12天--SVM机器学习

SVM分为线性可分和线性不可分线性可分为2维平面的,线性不可分,可以将其上升到高平面,加一个z轴,可以采用一些核函数如:高斯核,让距离中间的点越近的点上升到更高层面,边缘的点到更矮的层面核函数还有:拉普拉斯核等用python去搭建一个模型,可以导入libsvm第一个参数是标签,后面的参数是具体的xy的向量Y,X=svm_read_problem(circleData)#训练参数就是条...

2019-12-16 22:17:06 154

原创 坚持学习第11天-装饰器函数-偏函数-python

装饰器函数–作用在不改变原来函数的代码上进行修改,如果想要改变的是别人写好的代码,是不可能再改动,一点点改动就得大改,如果想要自己的代码达到想要的目的,那么就进行装饰可以把装饰器专门写在一个文件里面,引入就好但是每次都得重新写一遍say函数,写明,say函数要经过outer函数装饰过后新的say,所以能否不重写?那么就是,哪个函数要装饰,就在哪个函数上面加一个表明装饰器的语句,@out...

2019-12-10 11:40:12 124

原创 坚持每天学习第10天

装饰器函数,传参为函数,返回也为函数1.在打印前加一个“************************”2.不改变say函数,但是对年龄进行一个判断。

2019-12-09 22:19:26 91

原创 数据分析

数据仓库 VS 仓库数据库面向业务存储,仓库面向主题存储,较高层次对分析对象数据的一个完整并且一致的描述数据获取:数据仓库数据库针对应用(OLTP) 仓库针对分析(OLAP)数据库组织规范,仓库可能冗余,相对变化大,数据量大数据获取2:监测与抓取1.直接解析网页,接口,文件信息python常用工具:urlib urlib2,reques、scrapy数据获取3:填写、埋点、日志...

2019-10-27 19:14:51 98

原创 天善智能爬虫实践

在运行scrapy代码时报错;Traceback (most recent call last):File “D:\Python\Anaconda\lib\site-packages\twisted\internet\defer.py”, line 654, in _runCallbackscurrent.result = callback(current.result, *args, ...

2019-10-27 19:14:06 151

原创 数据分析,文本类函数

replacevlooksubstitutefindTRIM函数函数TRIM用于删除单词或字符间多余的空格,仅保留一个空格。函数CLEAN则用于删除文本中的换行。两个函数都是用于规范文本书写的函数。其格式也很简单,为TRIM(需要清洗的单元格)/CLEAN(需要清晰的单元格)数据清洗,就是对单元格中的数据文本进行的格式的修正find:find(“要查找的字符”,在哪里查找,从哪里开始...

2019-10-27 19:13:04 226

原创 关于xpath表达式

1.匹配多值属性的xpath如果HTML结构是这样<div class="demo"></div>那么我知道可以写xpath //div[@class=“demo”],但是如果我的html是<div class="test demo"></div><div class="demo test"></div><...

2019-10-27 19:10:31 116

原创 当当商城自动爬虫

2019-10-27 19:10:15 143

原创 scrapy爬虫,关键字+起始时间+json代码解析

1.请求的url返回的是json代码,怎么提取里面的数据?用response.text如何加载response里面的数据?如果写的json.load(response.text)则报错: File “/usr/lib/python2.6/json/init.py”, line 264, in loadreturn loads(fp.read(),AttributeError: ‘str...

2019-10-27 19:09:53 325

原创 抓包分析

抓包分析用Fiddler进行抓包分析抓取HTTPS数据包怕取腾讯视频评论所谓抓包分析,就是网站的传输的数据包,数据会隐藏在网址的源代码,或者不在源代码中,所以要通过抓包分析,去抓取哪些隐藏起来的信息。下载Fiddlers,在对应的浏览器里面安装,在高级,选择使用代理服务器。爬虫抓取工具,比如去分析淘宝的评论,在fiddler中找到评论的url,复制到文档上,并且进行分析,找到他的规律,比...

2019-10-27 19:09:13 846

原创 运行一个scrapy爬虫,更改关键字和时间还有url一起爬取

scrapy里面导入文件itens里面的函数时候,出现No module named ‘items’解决:scrapy做爬虫时,导入Module的时候总显示no module named ×××.items?可是检查很多遍都没发现什么大问题啊?原来这是因为编译器的问题,pycharm不会将当前文件目录自动加入自己的sourse_path。那么具体的解决方法如下:1,找到你的scrapy...

2019-10-27 19:08:46 278

原创 数据库总结

学生表学号姓名性别出生年月所在班级创建databasecreate database selectTest;show databases;use selectTest;create table student(sno vachar(20) primary key,sname varchar(20) not null,sex varchar(10) not null,sb...

2019-10-27 19:07:58 1133

原创 使用代理服务器,进行爬取

爬取CSDN首页的所有文章1.建立opener建立全局,urlopener和retrieve都可以用2.request方式使用opener来解决,声明为全局,用urllib.request.install_opener(opener)这样urlopen以及retrieve都可以伪装成浏览器的方式去访问网页什么是代理服务器?是出于互联网中间服务器,如果使用代理服务器,浏览信息的时候,先向...

2019-10-27 19:07:41 481

原创 计算机网络与信息安全

TCP/IP协议族IP地址划分与子网划分用户层 面向用户的表示层 数据的格式与表达,加密压缩(包装)会话层 建立、管理和终止会话传输层 (报文传输) 端到端的连接(贴邮标) 【 TCP】传输控制协议 面向连接的协议,安全可靠【udp】用户数据报协议,不可靠,无连接网络层(包传输) 分...

2019-10-27 19:07:18 355

原创 操作系统-存储管理

存储管理-页式存储组织页式存储:将程序与内存均划分为同样大小的块,以页为单位将程序调入内存。页表是由:页号和块号(页帧号)逻辑地址=页号+页内地址物理地址=页帧号+页内地址例如,页式存储系统中,每个页的大小为4KB逻辑地址:10 1100 1101 1110对应的物理地址为:110 1100 1101 1110页式存储有点:优点:利用率高,碎片小,分配及管理简单,存满这一页就下...

2019-10-27 19:06:44 156

原创 计算机结构

计算机结构运算器、控制器、存储器、输入设备、输出设备cpu:运算器和控制器和寄存器以及总线运算器中有:算数逻辑单元ALU:数据的算数运算 和逻辑运算累加寄存器AC:为ALU提供一个工作区,暂存数据数据缓冲寄存器DR:写内存时,暂存指令或数据状态条件寄存器 (有时也会被认为是控制器里面的):存状态标志或控制标志控制器:程序计数器PC 计算程序有多少指令,存储下一条要执行的指令的地址...

2019-10-27 19:06:23 76

原创 投资学习第10天

python里面的.set()是没有下标的可以用列表.update()进行无序的打乱列表的update,进行添加list转sets1 = set(1l)truple转set#交集s8 = set([7,8,9])s9 = set([9,10,11])a1 = s8 & s9#并集a2 = s8 | s9set如何转lists3 = {1,2,3,4}l3 = l...

2019-09-15 22:03:38 94

原创 Python数据分析----XX银行股票分析

对DataFrame类型的数据中的某一列数据进行归一化处理1.1.codeimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltdata=pd.read_csv(‘C:/Users/Administrator/Desktop/txt.csv’)#data.plot()#data.columns #n...

2019-09-05 17:07:46 1056

原创 爬虫解决爬取的文本信息规范问题

1.blogSummary.xpath(‘normalize-space(.//div/div[2]/div[1]/text())’).extract()[0]normalize-space()//解决的是有多余空格的问题,normalize-space是用来去除\r\t\n的2.response2.status,取返回的状态码3.data1 = blogSummary.xpath(".//...

2019-08-23 17:59:53 681

原创 将文本内容中的表情过滤掉

替换emoji表情def filter_emoji(desstr, restr=’’):try:co = re.compile(u’[\U00010000-\U0010ffff]’)except re.error:co = re.compile(u’[\uD800-\uDBFF][\uDC00-\uDFFF]’)return co.sub(restr, desstr)...

2019-08-23 16:27:58 642

原创 在中间件添加代理服务器

python里面的*args和**kwargs的用法:def init(self, taskinfo=None, *args, **kwargs):super(Blog_limited_Spider, self).init(*args, **kwargs)表示传的值不确定,*args为元组,在python中,有些常见方法参数是:*self._args, **kwargs,如...

2019-08-23 16:18:51 277

转载 self.crawler.stats.get_stats()

第三百五十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)标签:扩展 color print pac www. val status cal 关闭第三百五十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)Scrapy提供了方便的收集数据的机制。数据以ke...

2019-07-19 11:33:16 591

转载 os.environ.setdefault("DJANGO_SETTINGS_MODULE", "PythonSpider.settings")

使用Django时要通知Django当前使用的是哪个配置文件。可以改变环境变量 DJANGO_SETTINGS_MODULE 实现这一点。当我们使用manage.py运行起本地的web服务器时,为了让Django知道使用哪个配置文件,就指定了DJANGO_SETTINGS_MODULE的环境变量的路径,我们看下manage.py对于官方的解释,environ是一个字符串所对应环境的映像对象,也...

2019-07-19 10:50:11 12155

原创 scrapy框架爬虫获取下来的数据保存到Django之有两个回调函数两个yield item

1.问题:存在两个回调函数,有两个yield item 每次yield回来的item里面的值是不一样的,但是两个item所有的字段构成一个完整的记录,如何在pipline里面将异步的数据和字段,完整的保存在表里面?这个item有这些这么多的值而这个item仅仅有url、和mid的字段如何异步调用?并且保存?首先对item先判断里面是否包含这个字段,不是,则保存,是则进行url字段的保...

2019-07-18 11:43:19 453

原创 格林时间转中国标准时间

GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'#可以 time_tuple = time.strptime(item['created_at'],GMT_FORMAT)#item['created_at']为需要转的格林时间 #time.strptime,为转化为时间数组,分割成年月日最后用time.strftime函数,将时间数组转化为,中国标...

2019-07-18 10:31:09 398

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除