由于最近学习需要,要在github上获取原始数据。但下载通道给堵死了,试着改了虚拟IP地址等方法都没有用,于是尝试出了一个半自动的小方法。
问题叙述
- 找到需要的资源地址。以该项目为例:https://github.com/jakevdp/data-USstates
常规的链接下载方法失效,采用最原始的方法:复制粘贴。
将复制后的内容放到Excel表格中,再导出逗号分隔符(CSV)文件 - 该文件顺序并没有想象中的完美,如果直接逐行读取(以其中一个文件为例),结果如下:
后面产生了一行我们不需要的空数据,用记事本打开该.csv文件,发现问题在于:
每一行的后面多了一个逗号。因此为了去掉每一行最后的空数据,可编写一个小脚本。
解决办法
- 首先观察数据
new=[]
for line in lines:
if line.endswith(',\n'):
tmp=line