量化：批量导入&数据合并（四）

最新推荐文章于 2024-09-06 22:05:33 发布

人傻多读书

最新推荐文章于 2024-09-06 22:05:33 发布

阅读量530

点赞数 10

分类专栏：新手量化学习笔记文章标签： python

本文链接：https://blog.csdn.net/weixin_48735894/article/details/137178721

版权

新手量化学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文介绍了如何使用Python处理A股数据，包括使用os模块批量导入文件、读取csv和hdf5文件、合并数据并按照交易日期和代码排序，最后存储到hdf5文件中以便后续量化分析。

摘要由CSDN通过智能技术生成

择时量化以单只股票或者指数为样本，相对简单，而在股票池中选股就涉及到数据的批量导入。A股数据在之前stock文件中，现在要把文件夹中的数据存储到一个csv文件或者hdf5文件中，为接下工作做准备。具体流程：模块导入——批量读取——批量导入——合并数据——存储文件。

模块导入&查看文件

os模块中os.walk遍历文件夹中的所有文件，用for root,dirs,files in os.walk(file_location):来遍历，files：文件夹内包含的文件。因为用的是notebook，所以文件位置 file_location ='stock2',或者存储数据的绝对路径。

import pandas as pd 
import os 

#批量导入A股数据
file_location = 'stock2'# 或者：file_location = r'C:\Users\Chun\Desktop\quant1\stock2'

for root,dirs,files in os.walk(file_location):
    #print('包含文件：',files)

批量读取文件

获取指定文件夹下所有以.csv结尾的文件的路径，并将这些路径存储在一个列表，首先建一个空的列表file_list = [] 用于存储文件路径，os.walk()遍历file_location(也就是stock2文件夹)下的dirs子文件夹和files文件，os.path.join()构建文件的完整路径，os.path.abspath(file_path)相对路径转换文绝对路径，绝对路径方便文件操作和处理。

file_list = []
for root, dirs, files in os.walk(file_location):
    for filename in files:
        if filename.endswith('.csv'):
            file_path = os.path.join(root, filename)
            file_path = os.path.abspath(file_path)
            file_list.append(file_path)

批量导入&数据合并

建个空的DateFrame，读取了每个CSV文件的数据，并将其存储在临时DataFrame中。通过concat函数将df数据和seven_industy_data进行合并重新赋值给seven_industy_data。

 #遍历文件名，批量导入数据
seven_industy_data = pd.DataFrame()
for fp in sorted(file_list):
    df = pd.read_csv(fp) #如果数据库里有中文传入参数(fp，encoding='gbk')
    
    seven_industy_data = pd.concat([seven_industy_data, df], ignore_index=True)
    # concat函数将两个数据df和seven_industy_data进行合并。合并后的结果存储在seven_industy_data中。ignore_index=True忽略隐式索引

存储&读取

对数据进行以交易日期和交易代码进行排序，同过.to_hdf()或者.to_csv()将文件存储通过pd.read_hdf()进行读取。

# 对数据进行排序
seven_industy_data.sort_values(by=['trade_date', 'ts_code'], inplace=True)
print(seven_industy_data.head())

# 将数据存入hdf文件中
seven_industy_data.to_hdf(
     'seven_industy_data.h5',
     key='seven_industy_data',
     mode='w'
 )

# 从hdf中读取文件
seven_industy_data = pd.read_hdf(
     'seven_industy_data.h5',
     key='seven_industy_data')
print(seven_industy_data.head())

读取数据如下，这样方便后续在hdf文件中进行量化选股。

人傻多读书

关注

10
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
量化：批量导入&数据合并（四）

择时量化以单只股票或者指数为样本，相对简单，而在股票池中选股就涉及到数据的批量导入。A股数据在之前stock文件中，现在要把文件夹中的数据存储到一个csv文件或者hdf5文件中，为接下工作做准备。具体流程：模块导入——批量读取——批量导入——合并数据——存储文件。
复制链接

扫一扫