自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (1)
  • 收藏
  • 关注

原创 format常用操作

#字符串print('name = {},path = {}'.format('Jane','c/b/a'))#精度print('{:.2f}'.format(3.154159))#保留两位小数print('{:,}'.format(10000000))#千位分隔符print('{:.2%}'.format(0.892378))#百分数

2021-07-28 11:34:42 209

原创 R studio Shiny (1)

1. Basic information1.1 Shiny layout布局主要分成三部分,如下图:library(shiny)# Define UI ----ui <- fluidPage( titlePanel("title panel"), sidebarLayout( sidebarPanel("sidebar panel"), mainPanel("main panel") ))# Define server logic ---..

2021-07-26 15:50:04 352

原创 Python datetime 时间的格式转换及运算

1. 转换格式import datetimetoday = '2021-07-19'print('Original string'+ ': ' , today , type(today))#转变为时间格式today1 = datetime.datetime.strptime(today,'%Y-%m-%d')print('Change to datetime'+ ': ',today1,type(today1))#转变为字符串today2 = datetime.datetime.strf

2021-07-19 16:31:33 3320

原创 Python 正则表达式+字符串分割(数字/字母/汉字/特殊字符)

1. 基本知识函数 说明 \u0041-\u005a 大写字母unicode范围 \u0061-\u007a 小写字母unicode范围 \u0041-\u007a 英文字母unicode范围 \u0030-\u0039 数字unicode范围 \u4e00-\u9fa5 汉字unicode范围 import restring = "12345 abcde 武汉加油! aBCD ??//"print(string)# 提取数字pr

2021-07-19 13:40:48 9407

原创 PySpark DataFrame 常用操作

1. 导出为csv文件df_by_trucks.toPandas().to_csv('/dbfs/FileStore/static.csv', encoding='gb2312', index=False)2. 创建DF或读入DFfrom pyspark.sql import SparkSessionfrom pyspark.sql import Rowfrom pyspark.sql.types import *from pyspark.sql.functions import *

2021-07-16 11:34:49 466

原创 XGBoost、LightGBM和CatBoost实战

1. 数据(1) 数据2015年航班延误的Kaggle数据集(官方地址:https://www.kaggle.com/usdot/flight-delays#flights.csv),其中同时包含类别型变量和数值型变量。数据集中一共有约500万条记录,本文使用了1%的数据:5万条记录。(2)建模使用特征•目标变量:到达延误情况(以航班是否延误超过10分钟转化为二值变量)•解释变量:月、日、星期、航线、航班号、出发机场、到达机场、出发时间、距离和飞行时间(加粗表示类别特征,标红表示需要由.

2021-04-08 12:04:52 806

原创 文本分词处理+机器学习模型

1. 目标情感分类2. 数据来源12000条美团外卖平台收集的用户评价(正向4000 条,负向约 8000 条)https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/waimai_10k3. 数据预处理(1)读入数据+拆分训练集和测试集import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom time

2021-04-03 12:15:48 2190 1

原创 蒙特卡洛期权价格模拟(包括最小二乘美式期权模拟)

1. 蒙特卡洛期权定价理论概述(1)风险定价原理(2)标的资产价格路径模拟(3)期权到期回报贴现(4)模拟运算次数与精度(5)方差减少技术——对偶变量(6)评价2. 代码实现蒙特卡洛模拟欧式期权价格(1)蒙特卡洛模拟欧式期权价格#蒙特卡洛模拟看涨期权价格def call_MonteCarlo(S,K,T,r,sigma,n): z = standard_normal(n) St = S*np.exp((r-0.5*sigma

2021-03-29 20:27:40 6836 1

原创 BSM期权定价

1. BSM期权定价公式2. 代码实现import pandas as pdimport numpy as npfrom math import sqrt,logfrom scipy import statsdef BSM(S0,K,T,r,sigma): ''' S0: 股票价格; K: 执行价格; T: 期权期限; r: 无风险利率 sigma: 波动率 ''' S0 = float(S0) d1 = (np.

2021-03-28 14:38:09 6424

原创 二叉树期权定价

1. 以两步二叉树欧式看涨期权定价为例2. 代码实现(1)欧式看涨期权(2)欧式看跌期权(3)美式看涨期权(4)美式看跌期权

2021-03-28 14:25:17 10141 1

原创 python pandas基本操作练习50题

数据来源:https://www.kesci.com/mw/project/604db88774dfc60016e29d56/dataset一、例题1:探索快餐数据1. 数据预览变量 含义 order_id 订单id quantity 数量 item_name 商品名称 choice_description 详情 item_price 商品单价 2. 代码练习#导入pandasimport pandas as pd..

2021-03-15 10:05:35 4020 2

原创 mysql必会50题详解

1. 插入数据CREATE TABLE `student`( `s_id` VARCHAR(20), `s_name` VARCHAR(20) NOT NULL DEFAULT '', `s_birth` VARCHAR(20) NOT NULL DEFAULT '', `s_sex` VARCHAR(10) NOT NULL DEFAULT '', PRIMARY KEY(`s_id`));--课程表CREATE TABLE `course`( `c_id` VARCHAR(20

2021-03-12 19:31:38 223

原创 python基础操作

1. pandas.date_range常用参数解释pandas.date_range(start=None, end=None, periods=None, freq=’D’) 参数解释 start 表示日期起点,如'20160101' end 表示日期终点,如'20160106' periods 如果start和end是None或'today',它表示产生多少个日期索引值 freq 默认值是'D',表示自然日,'B'表示工作日 pd.dat.

2021-03-07 23:01:56 250

原创 python groupby分组取每组最大或最小的topN条记录

import pandas as pddata = {'id':['A','A','A','B','B','C','C','C'],'grade':[6,7,8,5,6,4,8,9],'time':['0102','0203','0304','0405','0506','0607','0708','0809']}data = pd.DataFrame(data)print(data) id grade time0 A 6 01021 A 7 02032 .

2021-03-07 13:34:39 2401

原创 python实现CAPM模型

一、CAPM模型理论1. 提出背景2. 基本假设3. 引入无风险借贷后的投资组合选择4. 资本市场线(CML)5. 证券市场线(SML)6. 系统风险与非系统风险二、代码实现1. 导入包+获取数据import tushare as tsimport pandas as pdimport matplotlib.pyplot as pltimport statsmodels.api as smsh =...

2021-03-06 23:51:44 5700 9

原创 python pandas和numpy练习

1. 从字典对象创建Dataframeimport pandas as pdimport numpy as npdata = {'animal':['cat','cat','snake','dog','god','cat','snake','cat','dog','dog'],'age':[2.5,3,0.5,np.nan,5,2,4.5,np.nan,7,3],'visits':[1,3,2,3,2,3,1,1,2,1],'priority':['yes','yes','no','yes','n

2021-03-06 16:40:44 1251

原创 Python实现马科维茨投资组合有效前沿

一、理论介绍二、代码实现1. 导入包并设置中文字体import numpy as npimport pandas as pdimport pandas_datareader.data as webfrom datetime import dateimport numpy.random as nprimport matplotlib.pyplot as pltfrom pylab import mplimport scipy.optimize as scopl

2021-03-05 12:50:18 8816 1

原创 利用几何布朗运动对招商银行2021年进行股价预测

1、布朗运动2、广义维纳过程3、几何布朗运动4、用几何布朗运动模拟招商银行股价(1)导入相关包并设置中文字体import numpy as npimport pandas as pdimport pandas_datareader.data as webfrom datetime import dateimport numpy.random as nprimport matplotlib.pyplot as pltfrom pylab imp...

2021-03-03 21:15:14 2419 3

原创 爬虫:豆瓣电影top250

1.目标爬虫豆瓣电影top250(https://movie.douban.com/top250?start=0)2. 代码实现观察到页面切换仅是start参数变化,第一页:start=0,第二页:start = 25。因此可以这样写url:for i in range(10): url = 'https://movie.douban.com/top250?start={}'.format(i*25)剩下的就可以通过xpath定位电影信息的标签,全部代码如下: 一

2021-02-18 15:26:53 824 1

原创 读取json文件

尝试了多种办法读取这个json文件,都失败了,然后用了下面的方法成功读取。逐hang读取+使用pd.concat拼接import jsonimport pandas as pd#建立存放样本的空数据框d = pd.DataFrame(columns=['labels','sentence'])#逐行读入json文件并存入数据框with open('/Users/harper/Desktop/python/law/divorce.json','r',encoding = 'utf.

2021-02-16 19:27:02 493

原创 爬虫:起点中文网

1. 目标:练习爬取起点中文网24小时热销榜(https://www.qidian.com/rank/hotsales)小说名称、作者、类型、状态、剧情介绍、最新更新章节和最新更新时间,并存储到csv中。2. 代码实现import requestsfrom lxml import etreeimport timeimport pandas as pdheaders = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS

2021-02-13 19:18:14 1320 1

原创 爬虫:12306模拟登陆

步骤一:获取12306登陆页面并输入账号和密码from selenium import webdriverfrom lxml import etreefrom time import sleepfrom PIL import Imageimport requestsfrom selenium.webdriver import ActionChainsfrom hashlib import md5#封装超级鹰打码识别函数#executable_path输入谷歌驱动的位置bro = we

2021-02-10 20:42:47 933 2

12306模拟登陆.py

12306模拟登陆.py

2021-02-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除