自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(71)
  • 资源 (3)
  • 收藏
  • 关注

转载 scrapy:选择器selector

当抓取网页时,常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的:BeautifulSouplxmlScrapy 提取数据有自己的一套机制。它们被称作选择器(seletors),因为他们通过特定的 XPath 或者 CSS 表达式来“选择” HTML 文件中的某个部分。构造选择器Scrapy selector 是以 文字(Text)或 TextResponse 构造的 Select...

2018-03-12 21:28:58 506

转载 jieba中文分词

jieba中文处理¶by 寒小阳(hanxiaoyang.ml@gmail.com)和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。

2018-01-24 16:52:40 688

转载 whoosh使用手册(1)

最近想做一个搜索引擎,当然少不了看下闻名遐迩的Lucene,不得不说确实非常出色,但是对于python的实现pylucene确是差强人意,首先它 不是纯python实现而是做了一层包装到头来还是使用java,依赖于JDK不说安装步骤繁琐至极,而且Lucene可用的中文分词词库非常之多但是由 于这层粘合关系很多都用不上,最终还是放弃,不过平心而论如果用Java实现的确很完美。其它的有sphinx以及

2018-01-24 16:51:12 984 1

转载 python正则表达式

Python正则表达式¶正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。我们在大文本中匹配字符串时,有些情况用str自带的函数(比如find, in)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串,所有和julyedu相关的句子),这个时候我们需要一个某种模式的工具,这个时候正则表达式就派上用场了。说起来正则表达式效率上可能不如str自

2018-01-21 20:48:19 288

原创 寒假python学习内容(1/15)

从今天开始,博主打算开始系统的学习Python的内容,前段时间忙于学业和考试,学习都是断断续续的,没有针对性的系统学习过,从现在开始争取秉着:只要学不死,就往死里学的态度。。。。。python基础编程01.python注释02.python中文乱码03.python变量04.python数据类型05.Python运算符06.Python输入&输出07.Python小

2018-01-15 20:20:24 264

转载 再接着介绍一下Python呗(12/11)

“谁来给我讲讲Python?”第一天学习了Python的基本操作,以及几种主要的容器类型,今天学习python的函数、循环和条件、类,这样才算对Python有一个大致的了解。今天的学习大纲如下:三、函数1、定义函数四、循环与条件1、if语句2、while true/break语句3、for语句4、列表推导式五、类1、闲

2017-12-11 10:34:58 316

转载 一大波金融Library来袭之scipy篇(12/10)

###上一篇介绍了numpy,本篇中着重介绍一下另一个量化金融中常用的库 scipy####一、SciPy概述前篇已经大致介绍了NumPy,接下来让我们看看SciPy能做些什么。NumPy替我们搞定了向量和矩阵的相关操作,基本上算是一个高级的科学计算器。SciPy基于NumPy提供了更为丰富和高级的功能扩展,在统计、优化、插值、数值积分、时频转换等方面提供了

2017-12-10 22:50:02 380

转载 写策略做回测

将单元切换为 strategy 模式这里使用优矿定制的回测框架,对量化策略进行研究、回测并查看回测结果。创建一个strategy单元后,会提供策略代码模板,代码模版分为三个部分:1# 第一部分:策略参数2start = '2014-01-01'                      # 回测起始时间3end = '2015-01-01

2017-12-10 21:54:52 5784

转载 一大波金融Library来袭之numpy篇(12/10)

###接下来要给大家介绍的系列中包含了Python在量化金融中运用最广泛的几个Library:numpyscipypandasmatplotlib会给初学者一一介绍###NumPy 简介####一、NumPy是什么?量化分析的工作涉及到大量的数值运算,一个高效方便的科学计算工具是必不可少的。Python语言一开

2017-12-10 21:38:59 317

转载 谁来给我讲讲Python(12/10)

“谁来给我讲讲Python?”作为无基础的初学者,只想先大概了解一下Python,随便编个小程序,并能看懂一般的程序,那些什么JAVA啊、C啊、继承啊、异常啊通通不懂怎么办,于是我找了很多资料,写成下面这篇日记,希望以完全初学者的角度入手来认识Python这个在量化领域日益重要的语言一 熟悉基本在正式介绍python之前,了解下面两个基本操作对后面的学习是有好处的:

2017-12-10 21:21:49 304

转载 Python数据处理的瑞士军刀:pandas(12/10)

####第一篇:基本数据结构介绍####一、Pandas介绍终于写到了作者最想介绍,同时也是Python在数据处理方面功能最为强大的扩展模块了。在处理实际的金融数据时,一个条数据通常包含了多种类型的数据,例如,股票的代码是字符串,收盘价是浮点型,而成交量是整型等。在C++中可以实现为一个给定结构体作为单元的容器,如向量(vector,C++中的特定数据结构)

2017-12-10 21:07:39 371

原创 pandas教程---------数据分组(12/4)

使用groupby()可以给数据分组,数据分组的好处是你可以一次性计算得到所有分组中的统计量,比如想计算男女学生的平均成绩分别是多少,可以先按照男女分组,然后计算平均数,我们不用计算完女生然后在计算男生,实际上是一次性完成的,这就是分组的好处。先引入模块,并创建一个DataFrame打印出DataFrame来查看一下结果我们可以以A列进行分组,使用group

2017-12-04 20:58:35 275

原创 pandas教程------筛选计数统计(12/4)

上一篇我们讲了pandas实现的一个简单的计数统计,今天我们还是针对同样的数据,统计一下各个专业高考成绩在520以上的学生个数和百分比。下面看看具体的实现过程:先引入pandas,然后读取csv数据我们先筛选出高考成绩在520以上的学生print打印数据的前三行为:然后根据得到的good数据,统计各个专业学生的人数利用print来查看

2017-12-04 20:48:48 1425 1

原创 pandas教程--------计数统计(12/4)

经过之前的学习,我们现在可以做一个简单的统计了,比如计数,这是最简单的统计,我们现在就使用pandas统计一下数据中各个专业学生的数目:先来引入pandas,并且从csv文件中读取数据查看一下前三行数据,看读取数据是否正确选择数据:之前也有相关的教程,假如现在我们要统计【专业名称】这一列,那么需要学会选择它:计数统计我们使用:save_count

2017-12-04 20:42:23 959

原创 pandas教程------读取csv数据(12/4)

很多数据是从网上下载而来,数据的格式可能是csv,那么pandas可以很容易的从csv格式的文件中读取数据,下面我们来看看具体的过程:引入pandas使用pandas下的read_csv方法,读取csv文件,参数是文件的路径,这是一个相对路径,是相对于当前工作目录的,那么如何知道当前的工作目录呢?使用os.getcwd()方法获取当前工作目录读取

2017-12-04 20:31:33 2150

原创 pandas教程----------Dataframe筛选数据(12/4)

今天还是用到了DataFrame,如果你用一下它的筛选数据的功能,你会大吃一惊,它非常擅长筛选数据,可以极大提高你的工作效率,废话不多说,下面看看几个进行复杂数据筛选的例子。首先我们创建一个DataFrame,该DataFrame包含的数据如下假如我们想要筛选D列数据中大于0的行使用&符号可以实现多条件筛选,当然是用"|"符号也可以实现多条件,只不过他是或的

2017-12-04 18:07:38 955

原创 pandas教程---------DataFrame切片操作(12/4)

DataFrame数据框允许我们使用iloc方法来像操作array(数组)一样对DataFrame进行切片操作,其形式上,跟对数组进行切片是一样的,我们下面来演示一下一些典型的切片操作:先创建一个6行4列的DataFrame数据框使用iloc方法,提取第四行数据:我们可以看一下,这种方法得到的返回值是一个series数据返回4-5行,1-2列数据

2017-12-04 18:03:38 697

原创 pandas教程---------DataFrame选择数据(12/4)

上一篇文章介绍了如何创建和查看DataFrame数据,这篇文章讲一下如何选择DataFrame中的数据,还是用例子来说明问题。先来看一下今天用到的数据框的内容假如我们要选择A列的数据进行操作:df['a']还可以使用数组的切片操作,但是注意了,切片得到的是行数据如果你想使用这个方法得到列,那就会出现错误我们还可以使用行标签来指定输出的

2017-12-04 17:05:51 415

原创 pandas教程-----DataFrame入门(12/4)

pandas是python环境下最有名的数据统计包,而DataFrame翻译为数据框,是一种数据组织方式,这么说你可能无法从感性上认识它,举个例子,你大概用过Excel,而它也是一种数据组织和呈现的方式,简单说就是表格,而在在pandas中用DataFrame组织数据,如果你不print DataFrame,你看不到这些数据,下面我们来看看DataFrame是如何使用的。首先是引入

2017-12-04 10:01:48 699

原创 canvas(11/30)--------打印canvas的内容(toDataURL())

我们常常绘画的canvas的画布内容,对于用户而言是只能看不能进行操作的,你所绘画出来的呈现出来的图片,其实用户看到了之后是无法对其进行操作的,不能进行保存和打印,这样,我们就需要用一种方法对我们所画的canvas进行改变,使之变成一个image。canvas的API提供的toDataURL():返回的引用,指向了某个给定canvas元素的数据地址。可以将img元素的src属性值设置为这个数据

2017-12-03 16:18:47 1629

原创 canvas(11/30)--------事件处理(局部图片放大)

example2.jsvar canvas = document.getElementById('canvas'); context = canvas.getContext('2d'); rubberbandDiv = document.getElementById('rubberbandDiv'); resetButton = document.getElementById('re

2017-11-30 21:46:53 809

原创 canvas(11/30)--------事件处理(鼠标处理)精灵表坐标查看器

鼠标处理使用监听器,可以通过onmousemove,onmouseup,onmouseout或者onmousedown来注册监听器。使用onmousedown,onmousemove这样的方式来注册监听器,比调用addEventListener()要稍微简单一点,如果鼠标事件要注册多个监听器的时候,那就要使用addEventListener()。实现精灵表坐标查看器:examp1.

2017-11-30 16:01:43 346

原创 canvas(11/29)--------基本绘制操作

canvas绘图API:arc()beginPath()clearRect()fill()fillText()lineTo()moveTo()stroke()canvas创建不可见的路径,然后用stroke()来描绘路径的边缘,或者调用fill()来对路径的内部进行填充,是路径变得可见。可以调用beginPath()方法来开始定义某一段路径。绘制钟表:

2017-11-29 22:15:27 400

原创 canvas(11/28)--------基础入门

canvas的基础使用html上的代码:michelleswanbody{ background: #dddddd;}#canvas { margin: 10px; padding: 10px; background: #ffffff; border: thin inset #aaaaaa;} canvas not supported examp

2017-11-29 10:45:56 300

原创 web课堂(11/21)---变色方块选择游戏

/* Function :ColorGame-ex5 Author :Michelle Build_Date:2017-10-30 Version :1.0 *///1. 公共变量声明块........................................................var canvas=document.getElementById("c

2017-11-21 20:06:28 952

转载 python—pandas中DataFrame类型数据操作函数

python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数。 1)查看DataFrame数据及属性df_obj = DataFrame() #创建DataFrame对象df_obj.dtypes #查看各行的数据格式df_obj['列名'].astype(int)#转换某列

2017-11-17 17:25:18 1223 2

原创 html&css-------图像(11/6)

控制图像大小:小型肖像:220*360小型景观:330*210专题照片:620*400背景图片(background-image)重复图像(background-repeat、background-attachment)background-repeat:repeat、repeat-x、repeat-y、no-repeatbackground-attachment:(制

2017-11-06 11:14:05 198

原创 html&css--------布局(11/6)

css中控制页面布局的定位机制:普通流、相对定位、绝对定位普通流(position:static)相对定位(position:relative)绝对定位(position:absolute)固定定位(position:fixed)重叠元素(z-index):控制元素的层次,数值越大,元素的层次就越靠前,z轴上彼此堆叠,置于顶层或置于底层浮动元素(float)清除浮动(c

2017-11-06 10:15:58 178

原创 html&css----------列表、表格和表单(11/4)

项目符号样式(list-style-type)无序列表:none、disc、circle、square有序列表:decimal、decimal-leadin-zero、lower-alpha、upper-alpha、lower-roman、upper-roman项目图像(list-style-image):url(“图片位置”);标记的定位(list-style-p

2017-11-04 11:59:56 204

原创 html&css----------盒子(11/4)

盒子的大小(width,height)宽度限制(min-width,max-width)高度限制(min-height,max-height)内容溢出(overflow):hidden:直接把溢出盒子空间内容隐藏scroll:会在盒子上添加一个滚动条,方便用户通过滚动滑块来查询其余内容边框、外边距和内边距1.边框(border)2.外边距(margin)

2017-11-04 11:54:45 212

转载 Python数据分析之pandas学习(11/3)

Python中的pandas模块进行数据分析。接下来pandas介绍中将学习到如下8块内容:1、数据结构简介:DataFrame和Series2、数据索引index3、利用pandas查询数据4、利用pandas的DataFrames进行统计分析5、利用pandas实现SQL操作6、利用pandas进行缺失值的处理7、利用pandas实现Excel的数据透视表功

2017-11-03 22:18:18 627

原创 html&css-------文本(11/3)

字体选用(font-family)字体大小(font-size)使用更多字体(@font-face)font-family、src、format粗体(font-weight):normal、bold斜体(font-style):normal、italic(文本以斜体显示)、oblique(文本倾斜显示)小写和大写(text-transform):uppercas

2017-11-03 19:47:57 166

原创 html&css-----------颜色(11/2)

前景色 colorcss中采用三种方法进行指定颜色:RGB值:rgb(red,green,blue)十六进制编码:#ee3e80颜色名称:浏览器可以识别147种预定义的名称颜色。背景色  background-colorcss3:透明度opacity(透明度属性值介于0.0~1.0),rgba(red,green,blue,alpha)

2017-11-03 13:10:13 190

原创 html&css---------css简介(11/2)

一条css规则包含两部分:一个选择器和一条声明选择器{属性:值}使用外部css:位于html的元素中,定义页面样式的css文件href:css文件的路径type:表面页面所连接文档里的类型 text/cssrel:html页面与被链接文件的关系。链接css文件时,值为stylesheet使用内部css:位于html的元素中,定义页面样式的css文件

2017-11-02 19:39:10 212

原创 html&css------添加视频(11/2)

向网页中添加视频:src:指定视频路径poster:视频加载时活在视频播放前显示的一个图像width,height:播放器的大小controls:提供默认的播放控件autoplay:视频文件应该自动播放loop:视频结束后重新播放preload:在页面加载时需要做什么(none用户按下播放前什么都不做,auto页面加载时载入视频,metadata浏览器只需收集少

2017-11-02 18:29:15 7209

原创 html&css--------其他标记(11/1)

id特性:全局特性,唯一区分class特性:指明所属类:有id和class特性,将文本和元素集中在一个块级元素中:可以利用css来控制的内容外观,有class和id特性:内联框架,网页里分割小窗口,可以在小窗口看到另一个网页width="450"   指定内嵌框架宽度的像素值height="350"指定内嵌框架高度的像素值src=""指定要在框架中显示的页面

2017-11-01 21:27:22 163

原创 html&css------表格、表单(11/1)

表格基本的表格结构::创建表格:每行的开始,(table row):表格中的每个单元格表格的标题::用法与类似,表示列或行的标题(table heading),没有内容的话就是空单元格。scope特性:元素是列标题还是行标题xxxx    #列标题xxxx#行标题跨列:在或元素中用colspan特性表明单元格索要跨越的列数。xxxx#跨越了两

2017-11-01 13:29:15 205

原创 python爬虫的高效学习路径(11/1)

一个professor推荐的一篇文章,感觉有点意思,挑点重点写写,算是给初学者一点方向吧~~~在目标的驱动下,你的学习才会更加精准和高效。那些所有你认为必须的前置知识,都是可以在完成目标的过程中学到的。这里给你一条平滑的、零基础快速入门的学习路径。  1.了解爬虫的基本原理及过程2.Requests+Xpath 实现通用爬虫套路3.了解非结构化数据的存储

2017-11-01 09:54:54 740

原创 html&css------列表、链接、图像(10/31)

列表有序列表无序列表定义列表有序列表:(有序列表)、(列表项目)浏览器对列表有默认的缩进无序列表(无序列表)、(列表项目)定义列表、>、链接网站链接:nameEmail链接:mailto:michelleswan@xx.com">email新窗口打开链接:<a href="http://www.

2017-10-31 20:35:37 410

原创 html&css----结构、文本(10/31)

常用标签:1.标题、、、、、2.段落3.粗体和斜体、4.上标和下标(上标:次方;下标:脚注,化学公式小数字)、5.空白浏览器遇到两个或两个以上的连续空格时,只将其显示为一个空格。6.换行符和水平线、7.加粗和强调、8.引用(缩进一段文本)、(两侧添加引号)9.缩写词和首字母缩写词10.引文和定义、11.设计者详细信

2017-10-31 20:33:38 158

python_pandas

pandas,pandas,pandas,pandas,pandas,pandas,pandas(英文书)

2017-11-01

Introduction to Software Process Improvement

Introduction to Software Process Improvement,Introduction to Software Process Improvement

2017-11-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除