蜜糖雪兒-CSDN博客

转载 scrapy:选择器selector

当抓取网页时，常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的：BeautifulSouplxmlScrapy 提取数据有自己的一套机制。它们被称作选择器(seletors)，因为他们通过特定的 XPath 或者 CSS 表达式来“选择” HTML 文件中的某个部分。构造选择器Scrapy selector 是以文字（Text）或 TextResponse 构造的 Select...

2018-03-12 21:28:58 603

转载 jieba中文分词

jieba中文处理¶by 寒小阳(hanxiaoyang.ml@gmail.com)和拉丁语系不同，亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候，大部分情况下，词汇是我们对句子和文章理解的基础，因此需要一个工具去把完整的文本中分解成粒度更细的词。jieba就是这样一个非常好用的中文工具，是以分词起家的，但是功能比分词要强大很多。

2018-01-24 16:52:40 759

转载 whoosh使用手册（1）

最近想做一个搜索引擎，当然少不了看下闻名遐迩的Lucene，不得不说确实非常出色，但是对于python的实现pylucene确是差强人意，首先它不是纯python实现而是做了一层包装到头来还是使用java，依赖于JDK不说安装步骤繁琐至极，而且Lucene可用的中文分词词库非常之多但是由于这层粘合关系很多都用不上，最终还是放弃，不过平心而论如果用Java实现的确很完美。其它的有sphinx以及

2018-01-24 16:51:12 1119 1

转载 python正则表达式

Python正则表达式¶正则表达式是处理字符串的强大工具，拥有独特的语法和独立的处理引擎。我们在大文本中匹配字符串时，有些情况用str自带的函数(比如find, in)可能可以完成，有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串，所有和julyedu相关的句子)，这个时候我们需要一个某种模式的工具，这个时候正则表达式就派上用场了。说起来正则表达式效率上可能不如str自

2018-01-21 20:48:19 338

原创寒假python学习内容（1/15）

从今天开始，博主打算开始系统的学习Python的内容，前段时间忙于学业和考试，学习都是断断续续的，没有针对性的系统学习过，从现在开始争取秉着：只要学不死，就往死里学的态度。。。。。python基础编程01.python注释02.python中文乱码03.python变量04.python数据类型05.Python运算符06.Python输入&输出07.Python小

2018-01-15 20:20:24 316

转载再接着介绍一下Python呗（12/11）

“谁来给我讲讲Python？”第一天学习了Python的基本操作，以及几种主要的容器类型，今天学习python的函数、循环和条件、类，这样才算对Python有一个大致的了解。今天的学习大纲如下：三、函数1、定义函数四、循环与条件1、if语句2、while true/break语句3、for语句4、列表推导式五、类1、闲

2017-12-11 10:34:58 382

转载一大波金融Library来袭之scipy篇（12/10）

###上一篇介绍了numpy,本篇中着重介绍一下另一个量化金融中常用的库 scipy####一、SciPy概述前篇已经大致介绍了NumPy，接下来让我们看看SciPy能做些什么。NumPy替我们搞定了向量和矩阵的相关操作，基本上算是一个高级的科学计算器。SciPy基于NumPy提供了更为丰富和高级的功能扩展，在统计、优化、插值、数值积分、时频转换等方面提供了

2017-12-10 22:50:02 451

转载写策略做回测

将单元切换为 strategy 模式这里使用优矿定制的回测框架，对量化策略进行研究、回测并查看回测结果。创建一个strategy单元后，会提供策略代码模板，代码模版分为三个部分：1# 第一部分：策略参数2start = '2014-01-01' # 回测起始时间3end = '2015-01-01

2017-12-10 21:54:52 6269

转载一大波金融Library来袭之numpy篇（12/10）

###接下来要给大家介绍的系列中包含了Python在量化金融中运用最广泛的几个Library:numpyscipypandasmatplotlib会给初学者一一介绍###NumPy 简介####一、NumPy是什么？量化分析的工作涉及到大量的数值运算，一个高效方便的科学计算工具是必不可少的。Python语言一开

2017-12-10 21:38:59 372

转载谁来给我讲讲Python（12/10）

“谁来给我讲讲Python？”作为无基础的初学者，只想先大概了解一下Python，随便编个小程序，并能看懂一般的程序，那些什么JAVA啊、C啊、继承啊、异常啊通通不懂怎么办，于是我找了很多资料，写成下面这篇日记，希望以完全初学者的角度入手来认识Python这个在量化领域日益重要的语言一熟悉基本在正式介绍python之前，了解下面两个基本操作对后面的学习是有好处的：

2017-12-10 21:21:49 365

转载 Python数据处理的瑞士军刀：pandas（12/10）

####第一篇：基本数据结构介绍####一、Pandas介绍终于写到了作者最想介绍，同时也是Python在数据处理方面功能最为强大的扩展模块了。在处理实际的金融数据时，一个条数据通常包含了多种类型的数据，例如，股票的代码是字符串，收盘价是浮点型，而成交量是整型等。在C++中可以实现为一个给定结构体作为单元的容器，如向量（vector，C++中的特定数据结构）

2017-12-10 21:07:39 441

原创 pandas教程---------数据分组（12/4）

使用groupby()可以给数据分组，数据分组的好处是你可以一次性计算得到所有分组中的统计量，比如想计算男女学生的平均成绩分别是多少，可以先按照男女分组，然后计算平均数，我们不用计算完女生然后在计算男生，实际上是一次性完成的，这就是分组的好处。先引入模块，并创建一个DataFrame打印出DataFrame来查看一下结果我们可以以A列进行分组，使用group

2017-12-04 20:58:35 355

原创 pandas教程------筛选计数统计（12/4）

上一篇我们讲了pandas实现的一个简单的计数统计，今天我们还是针对同样的数据，统计一下各个专业高考成绩在520以上的学生个数和百分比。下面看看具体的实现过程：先引入pandas，然后读取csv数据我们先筛选出高考成绩在520以上的学生print打印数据的前三行为：然后根据得到的good数据，统计各个专业学生的人数利用print来查看

2017-12-04 20:48:48 1494 1

原创 pandas教程--------计数统计（12/4）

经过之前的学习，我们现在可以做一个简单的统计了，比如计数，这是最简单的统计，我们现在就使用pandas统计一下数据中各个专业学生的数目：先来引入pandas，并且从csv文件中读取数据查看一下前三行数据，看读取数据是否正确选择数据：之前也有相关的教程，假如现在我们要统计【专业名称】这一列，那么需要学会选择它：计数统计我们使用：save_count

2017-12-04 20:42:23 1043

原创 pandas教程------读取csv数据（12/4）

很多数据是从网上下载而来，数据的格式可能是csv，那么pandas可以很容易的从csv格式的文件中读取数据，下面我们来看看具体的过程：引入pandas使用pandas下的read_csv方法，读取csv文件，参数是文件的路径，这是一个相对路径，是相对于当前工作目录的，那么如何知道当前的工作目录呢？使用os.getcwd()方法获取当前工作目录读取

2017-12-04 20:31:33 2212

原创 pandas教程----------Dataframe筛选数据（12/4）

今天还是用到了DataFrame，如果你用一下它的筛选数据的功能，你会大吃一惊，它非常擅长筛选数据，可以极大提高你的工作效率，废话不多说，下面看看几个进行复杂数据筛选的例子。首先我们创建一个DataFrame，该DataFrame包含的数据如下假如我们想要筛选D列数据中大于0的行使用&符号可以实现多条件筛选，当然是用"|"符号也可以实现多条件，只不过他是或的

2017-12-04 18:07:38 1010

原创 pandas教程---------DataFrame切片操作（12/4）

DataFrame数据框允许我们使用iloc方法来像操作array（数组）一样对DataFrame进行切片操作，其形式上，跟对数组进行切片是一样的，我们下面来演示一下一些典型的切片操作：先创建一个6行4列的DataFrame数据框使用iloc方法，提取第四行数据：我们可以看一下，这种方法得到的返回值是一个series数据返回4-5行，1-2列数据

2017-12-04 18:03:38 796

原创 pandas教程---------DataFrame选择数据（12/4）

上一篇文章介绍了如何创建和查看DataFrame数据，这篇文章讲一下如何选择DataFrame中的数据，还是用例子来说明问题。先来看一下今天用到的数据框的内容假如我们要选择A列的数据进行操作：df['a']还可以使用数组的切片操作，但是注意了，切片得到的是行数据如果你想使用这个方法得到列，那就会出现错误我们还可以使用行标签来指定输出的

2017-12-04 17:05:51 509

原创 pandas教程-----DataFrame入门（12/4）

pandas是python环境下最有名的数据统计包，而DataFrame翻译为数据框，是一种数据组织方式，这么说你可能无法从感性上认识它，举个例子，你大概用过Excel，而它也是一种数据组织和呈现的方式，简单说就是表格，而在在pandas中用DataFrame组织数据，如果你不print DataFrame，你看不到这些数据，下面我们来看看DataFrame是如何使用的。首先是引入

2017-12-04 10:01:48 774

原创 canvas（11/30）--------打印canvas的内容（toDataURL()）

我们常常绘画的canvas的画布内容，对于用户而言是只能看不能进行操作的，你所绘画出来的呈现出来的图片，其实用户看到了之后是无法对其进行操作的，不能进行保存和打印，这样，我们就需要用一种方法对我们所画的canvas进行改变，使之变成一个image。canvas的API提供的toDataURL()：返回的引用，指向了某个给定canvas元素的数据地址。可以将img元素的src属性值设置为这个数据

2017-12-03 16:18:47 1774

原创 canvas（11/30）--------事件处理（局部图片放大）

example2.jsvar canvas = document.getElementById('canvas'); context = canvas.getContext('2d'); rubberbandDiv = document.getElementById('rubberbandDiv'); resetButton = document.getElementById('re

2017-11-30 21:46:53 872

原创 canvas（11/30）--------事件处理（鼠标处理）精灵表坐标查看器

鼠标处理使用监听器，可以通过onmousemove，onmouseup，onmouseout或者onmousedown来注册监听器。使用onmousedown，onmousemove这样的方式来注册监听器，比调用addEventListener（）要稍微简单一点，如果鼠标事件要注册多个监听器的时候，那就要使用addEventListener（）。实现精灵表坐标查看器：examp1.

2017-11-30 16:01:43 390

原创 canvas（11/29）--------基本绘制操作

canvas绘图API：arc()beginPath()clearRect()fill()fillText()lineTo()moveTo()stroke()canvas创建不可见的路径，然后用stroke（）来描绘路径的边缘，或者调用fill（）来对路径的内部进行填充，是路径变得可见。可以调用beginPath（）方法来开始定义某一段路径。绘制钟表：

2017-11-29 22:15:27 471

原创 canvas（11/28）--------基础入门

canvas的基础使用html上的代码：michelleswanbody{ background: #dddddd;}#canvas { margin: 10px; padding: 10px; background: #ffffff; border: thin inset #aaaaaa;} canvas not supported examp

2017-11-29 10:45:56 354

原创 web课堂（11/21）---变色方块选择游戏

/* Function :ColorGame-ex5 Author :Michelle Build_Date:2017-10-30 Version :1.0 *///1. 公共变量声明块........................................................var canvas=document.getElementById("c

2017-11-21 20:06:28 1022

转载 python—pandas中DataFrame类型数据操作函数

python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数。 1）查看DataFrame数据及属性df_obj = DataFrame() #创建DataFrame对象df_obj.dtypes #查看各行的数据格式df_obj['列名'].astype(int)#转换某列

2017-11-17 17:25:18 1355

原创 html&css-------图像（11/6）

控制图像大小：小型肖像：220*360小型景观：330*210专题照片：620*400背景图片（background-image）重复图像（background-repeat、background-attachment）background-repeat：repeat、repeat-x、repeat-y、no-repeatbackground-attachment：（制

2017-11-06 11:14:05 239

原创 html&css--------布局（11/6）

css中控制页面布局的定位机制：普通流、相对定位、绝对定位普通流（position：static）相对定位（position：relative）绝对定位（position：absolute）固定定位（position：fixed）重叠元素（z-index）：控制元素的层次，数值越大，元素的层次就越靠前，z轴上彼此堆叠，置于顶层或置于底层浮动元素（float）清除浮动（c

2017-11-06 10:15:58 240

原创 html&css----------列表、表格和表单（11/4）

项目符号样式（list-style-type）无序列表：none、disc、circle、square有序列表：decimal、decimal-leadin-zero、lower-alpha、upper-alpha、lower-roman、upper-roman项目图像（list-style-image）：url（“图片位置”）；标记的定位（list-style-p

2017-11-04 11:59:56 252

原创 html&css----------盒子（11/4）

盒子的大小（width，height）宽度限制（min-width，max-width）高度限制（min-height，max-height）内容溢出（overflow）：hidden：直接把溢出盒子空间内容隐藏scroll：会在盒子上添加一个滚动条，方便用户通过滚动滑块来查询其余内容边框、外边距和内边距1.边框（border）2.外边距（margin）

2017-11-04 11:54:45 267

转载 Python数据分析之pandas学习（11/3）

Python中的pandas模块进行数据分析。接下来pandas介绍中将学习到如下8块内容：1、数据结构简介：DataFrame和Series2、数据索引index3、利用pandas查询数据4、利用pandas的DataFrames进行统计分析5、利用pandas实现SQL操作6、利用pandas进行缺失值的处理7、利用pandas实现Excel的数据透视表功

2017-11-03 22:18:18 695

原创 html&css-------文本（11/3）

字体选用（font-family）字体大小（font-size）使用更多字体（@font-face）font-family、src、format粗体（font-weight）：normal、bold斜体（font-style）：normal、italic（文本以斜体显示）、oblique（文本倾斜显示）小写和大写（text-transform）：uppercas

2017-11-03 19:47:57 211

原创 html&css-----------颜色（11/2）

前景色 colorcss中采用三种方法进行指定颜色：RGB值：rgb(red,green,blue)十六进制编码：#ee3e80颜色名称：浏览器可以识别147种预定义的名称颜色。背景色 background-colorcss3：透明度opacity（透明度属性值介于0.0~1.0），rgba（red，green，blue，alpha）

2017-11-03 13:10:13 225

原创 html&css---------css简介（11/2）

一条css规则包含两部分：一个选择器和一条声明选择器{属性：值}使用外部css：位于html的元素中，定义页面样式的css文件href：css文件的路径type：表面页面所连接文档里的类型 text/cssrel：html页面与被链接文件的关系。链接css文件时，值为stylesheet使用内部css：位于html的元素中，定义页面样式的css文件

2017-11-02 19:39:10 255

原创 html&css------添加视频（11/2）

向网页中添加视频：src：指定视频路径poster：视频加载时活在视频播放前显示的一个图像width，height：播放器的大小controls：提供默认的播放控件autoplay：视频文件应该自动播放loop：视频结束后重新播放preload：在页面加载时需要做什么（none用户按下播放前什么都不做，auto页面加载时载入视频，metadata浏览器只需收集少

2017-11-02 18:29:15 7336

原创 html&css--------其他标记（11/1）

id特性：全局特性，唯一区分class特性：指明所属类：有id和class特性，将文本和元素集中在一个块级元素中：可以利用css来控制的内容外观，有class和id特性：内联框架，网页里分割小窗口，可以在小窗口看到另一个网页width="450" 指定内嵌框架宽度的像素值height="350"指定内嵌框架高度的像素值src=""指定要在框架中显示的页面

2017-11-01 21:27:22 216

原创 html&css------表格、表单（11/1）

表格基本的表格结构：：创建表格：每行的开始，（table row）：表格中的每个单元格表格的标题：：用法与类似，表示列或行的标题（table heading），没有内容的话就是空单元格。scope特性：元素是列标题还是行标题xxxx #列标题xxxx#行标题跨列：在或元素中用colspan特性表明单元格索要跨越的列数。xxxx#跨越了两

2017-11-01 13:29:15 256

原创 python爬虫的高效学习路径（11/1）

一个professor推荐的一篇文章，感觉有点意思，挑点重点写写，算是给初学者一点方向吧~~~在目标的驱动下，你的学习才会更加精准和高效。那些所有你认为必须的前置知识，都是可以在完成目标的过程中学到的。这里给你一条平滑的、零基础快速入门的学习路径。 1.了解爬虫的基本原理及过程2.Requests+Xpath 实现通用爬虫套路3.了解非结构化数据的存储

2017-11-01 09:54:54 817

原创 html&css------列表、链接、图像（10/31）

列表有序列表无序列表定义列表有序列表：(有序列表)、(列表项目)浏览器对列表有默认的缩进无序列表(无序列表)、(列表项目)定义列表、>、链接网站链接：nameEmail链接：mailto:michelleswan@xx.com">email新窗口打开链接：<a href="http://www.

2017-10-31 20:35:37 471

原创 html&css----结构、文本（10/31）

常用标签：1.标题、、、、、2.段落3.粗体和斜体、4.上标和下标(上标：次方；下标：脚注，化学公式小数字)、5.空白浏览器遇到两个或两个以上的连续空格时，只将其显示为一个空格。6.换行符和水平线、7.加粗和强调、8.引用(缩进一段文本)、(两侧添加引号)9.缩写词和首字母缩写词10.引文和定义、11.设计者详细信

2017-10-31 20:33:38 201

python_pandas

Introduction to Software Process Improvement

空空如也