**
天天基金网历史净值爬取
**
**
1.认识天天基金网的数据接口
1,这是所有基金代码、基金名称简称的集合http://fund.eastmoney.com/js/fundcode_search.js
数据量是接近9000条数据。这个可以简单的用个正则表达,re.findall("(.*?)",url_text)匹配一下存在电脑上。然后再弄成excel文件。比较简单。
2,基金历史净值的接口
url=‘http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code=110022&page=10&sdate=2019-01-01&edate=2019-02-13&per=1’
参数情况一目了然。 per=1值代表每页的数据量。最多可以有二十行,per=20。设置更高也没用。
另外可以自己设置起始结束日期。
为了代码更加简洁,我设置的每页数据量是1条。这样就更辛苦电脑了。
由于我们这要爬取全部的历史净值,所以要查询到每只基金的起始日期。
page=多少,就是第多少页。
**
2. 开始代码部分
**
1,使用模块:
re 模块,pandas模块,requests模块,xpath的基本使用。
我比较习惯使用的IDE是spyder 3 。
可以用 pip install spyder 安装
在这里插入代码片
# -*- coding: utf-8 -*-
"""
Created on Mon Aug 26 20:02:27 2019
@author: yys
"""
import pandas as pd
import requests
import re
from lxml import etree
2.这是可能用到的参