自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

原创 读取html文件并进行数据处理

实际工作中,我们常遇到提取信息在本地html文件的情况,本文介绍如何读取html文件并进行预处理提取文件中的信息。

2023-05-23 19:13:19 542

原创 使用Python快速进行Excel合并

本文记录工作中常遇到的几种基于Python进行多个Excel文件合并的情景,实际运到问题可以直接运行程序,输入要合并的文件所在的路径就可以实现自动合并,提升工作效率。

2023-05-23 19:06:47 5041

原创 年报下载及词频统计构建指标

随着大数据概念和技术的迅速发展,传统金融概念与新兴技术结合形成了金融科技的概念。一部分学者认为企业层面的金融科技发展水平可以由企业披露年报中有关金融科技的技术词频进行衡量。本文讲解了技术层面实现从东方财富网爬取企业pdf格式年报,并将pdf格式文档批量转换为word或txt格式,最后统计每个文档中关于金融科技的词频形成一张样本*时间的面板数据。

2023-05-20 14:18:26 877 1

原创 Tableau可视化教程

找到Tableau安装目录,shapes文件夹,建立一个新的英文文件夹,添加png图像文件。

2023-05-17 16:01:34 866

原创 Python爬虫思路模板

使用Python进行爬虫,原理上是共通的,首先先对网站发起数据请求,可以使用requests模块、urllib.request方法,对于动态网站可以使用selenium模拟浏览器登录方法。拿到服务器返回的网页数据后,对数据进行解析,获取感兴趣的信息,可以使用re模块进行正则匹配,xpath或BeautifulSoup选择节点的方法,对于网页数据是json格式的可以直接导入json模块直接进行解析。

2023-05-16 13:50:11 234

原创 SQL面试相关知识点

read uncommitted会引起脏读(B事务未提交A事务就能查到数据更新),不可重复读(A事务开启过程中B事务提交,A执行查询会结果不同),幻读问题(B事务提交,A事务查询结果相同但是不可更新);这样可以避免上述的SQL语句,在查询的过程中,出现回表查询。事务是一组操作的集合,是一个不可分割的工作单位,会把所有的操作作为一个整体一起向系统提交或撤销操作请求,保证成批的 SQL 语句要么全部执行,要么全部不执行。聚集索引将数据存储和索引放到一块,一般选择主键索引,第一个唯一索引作为聚集索引,性能更高。

2023-05-16 10:39:00 92

原创 SQL秋招刷题

*因为聚合函数通过作用于一组数据而只返回一个单个值,因此,在SELECT语句中出现的元素要么为一个聚合函数的输入值,要么为GROUP BY语句的参数,否则会出错。30、查找员工奖金信息( bonus类型btype为1其奖金为薪水salary的10%,btype为2其奖金为薪水的20%,其他类型均为薪水的30%。26、 聚合函数group_concat(X,Y),其中X是要连接的字段,Y是连接时用的符号,可省略,默认为逗号。DENSE_RANK() 在计算排序时,若存在相同位次,不会跳过之后的位次。

2023-05-16 10:37:56 282

原创 常用正则表达式

本文记录工作中常使用的正则表达式,以方便检索。

2023-05-16 08:59:24 69

原创 Linux 常用命令

记录Linux常用命令,方便使用时检索。

2023-05-16 08:33:47 60

原创 一张表根据某一字段将一行拆分为多行

背景:一张表中有一列取值是由某个分隔符连接成的多个字符串,目标是将这一长行拆分成多行,存储到一个新的字段中。

2023-05-15 18:59:39 252

原创 html文件转换为PDF文档

工作中遇到一个问题,将一篇微信公众号文章(可以使用浏览器打开,文章链接:https://mp.weixin.qq.com/s/M9Oz3UDaEXJoLMzSB4mJPQ)转换为PDF格式。这篇文章有较多的图片,页数也比较多,转换中遇到一些问题,在这里记录下来。

2023-05-15 18:13:33 286

原创 Excel判断并返回一个单元格不包含另一单元格的内容

工作中遇到这样一个需求,思想比较简单,但是可以节省一些工作量,这里记录下来。

2023-05-15 18:11:06 3096

原创 分组每一组数据最开始添加一行,内容与每组第二行一致

量化工作中经常遇到的一个问题:有每一天以每分钟为颗粒度的交易数据,但是每天的9:30没有数据,需要每一天添加一个9:30的数据,开盘和收盘价格等于9:31的数据。因为数据量非常大,人工每天手动添加不仅耗时耗力,而且容易出错。

2023-05-15 17:11:42 121

原创 SQL学习总结

​ 定义数据库对象(数据库,表,字段)对数据库的常用操作功能SQL查看所有数据库创建数据库选择数据库use mydb;删除数据库修改数据库编码对表结构的常用操作功能SQL创建表create table [if not exists] tableName(字段1 类型[(宽度)] [约束条件] [comment '字段说明'],字段2 类型[(宽度)] [约束条件] [comment '字段说明'])charset=utf8;

2023-05-15 11:07:58 248

Gbase数据库管理工具及数据库驱动

Gbase数据库管理工具及数据库驱动

2023-07-27

汽车配置号订单辆份日期对比

汽车配置号订单辆份日期对比

2023-06-29

Finereport一些基础报表设计

Finereport一些基础报表设计

2023-06-13

上证50分钟涨跌幅数据.xlsx

上证50分钟涨跌幅数据.xlsx

2023-05-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除