在机器学习相关研究的时候,会用到许多数据集,比如ipums一系列相关的数据集,关于如何从网站上获取自己需要的数据,可以这样做。
先进入网站,然后进行登录(如果没有账号要先注册成为用户);然后主页有getData,
对数据进行挑选,然后挑选自己需要的属性,在查看结果,最后提取数据,
等提取完之后,就可以看到绿色按钮,可以点击下载了,下载之后进行解压,解压后的文件是以.dat为文件结构的数据存储结构,可以采用spass进行打开,然后进一步处理(根据属性),最后导出csv文件,再应用到python代码中,进行使用。
附有详细动图过程:
注意:如果弄得.bat文件用spass不好处理,在下载的时候可以改文件格式: