- 博客(54)
- 收藏
- 关注
原创 读取html文件并进行数据处理
实际工作中,我们常遇到提取信息在本地html文件的情况,本文介绍如何读取html文件并进行预处理提取文件中的信息。
2023-05-23 19:13:19
542
原创 使用Python快速进行Excel合并
本文记录工作中常遇到的几种基于Python进行多个Excel文件合并的情景,实际运到问题可以直接运行程序,输入要合并的文件所在的路径就可以实现自动合并,提升工作效率。
2023-05-23 19:06:47
5041
原创 年报下载及词频统计构建指标
随着大数据概念和技术的迅速发展,传统金融概念与新兴技术结合形成了金融科技的概念。一部分学者认为企业层面的金融科技发展水平可以由企业披露年报中有关金融科技的技术词频进行衡量。本文讲解了技术层面实现从东方财富网爬取企业pdf格式年报,并将pdf格式文档批量转换为word或txt格式,最后统计每个文档中关于金融科技的词频形成一张样本*时间的面板数据。
2023-05-20 14:18:26
877
1
原创 Python爬虫思路模板
使用Python进行爬虫,原理上是共通的,首先先对网站发起数据请求,可以使用requests模块、urllib.request方法,对于动态网站可以使用selenium模拟浏览器登录方法。拿到服务器返回的网页数据后,对数据进行解析,获取感兴趣的信息,可以使用re模块进行正则匹配,xpath或BeautifulSoup选择节点的方法,对于网页数据是json格式的可以直接导入json模块直接进行解析。
2023-05-16 13:50:11
234
原创 SQL面试相关知识点
read uncommitted会引起脏读(B事务未提交A事务就能查到数据更新),不可重复读(A事务开启过程中B事务提交,A执行查询会结果不同),幻读问题(B事务提交,A事务查询结果相同但是不可更新);这样可以避免上述的SQL语句,在查询的过程中,出现回表查询。事务是一组操作的集合,是一个不可分割的工作单位,会把所有的操作作为一个整体一起向系统提交或撤销操作请求,保证成批的 SQL 语句要么全部执行,要么全部不执行。聚集索引将数据存储和索引放到一块,一般选择主键索引,第一个唯一索引作为聚集索引,性能更高。
2023-05-16 10:39:00
92
原创 SQL秋招刷题
*因为聚合函数通过作用于一组数据而只返回一个单个值,因此,在SELECT语句中出现的元素要么为一个聚合函数的输入值,要么为GROUP BY语句的参数,否则会出错。30、查找员工奖金信息( bonus类型btype为1其奖金为薪水salary的10%,btype为2其奖金为薪水的20%,其他类型均为薪水的30%。26、 聚合函数group_concat(X,Y),其中X是要连接的字段,Y是连接时用的符号,可省略,默认为逗号。DENSE_RANK() 在计算排序时,若存在相同位次,不会跳过之后的位次。
2023-05-16 10:37:56
282
原创 html文件转换为PDF文档
工作中遇到一个问题,将一篇微信公众号文章(可以使用浏览器打开,文章链接:https://mp.weixin.qq.com/s/M9Oz3UDaEXJoLMzSB4mJPQ)转换为PDF格式。这篇文章有较多的图片,页数也比较多,转换中遇到一些问题,在这里记录下来。
2023-05-15 18:13:33
286
原创 分组每一组数据最开始添加一行,内容与每组第二行一致
量化工作中经常遇到的一个问题:有每一天以每分钟为颗粒度的交易数据,但是每天的9:30没有数据,需要每一天添加一个9:30的数据,开盘和收盘价格等于9:31的数据。因为数据量非常大,人工每天手动添加不仅耗时耗力,而且容易出错。
2023-05-15 17:11:42
121
原创 SQL学习总结
定义数据库对象(数据库,表,字段)对数据库的常用操作功能SQL查看所有数据库创建数据库选择数据库use mydb;删除数据库修改数据库编码对表结构的常用操作功能SQL创建表create table [if not exists] tableName(字段1 类型[(宽度)] [约束条件] [comment '字段说明'],字段2 类型[(宽度)] [约束条件] [comment '字段说明'])charset=utf8;
2023-05-15 11:07:58
248
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅