想做一个信息搜索处理系统,从网上的相关网站搜索到大量的网页,然后将网页里的信息和数据提取出来,形成一个海量数据的数据表,然后根据一些公式和智能算法得到一些有意思的东西。说白了,我想在有限的资源下,做一个股票预测系统,不知道能不能成功。
需要要学的技术:
http://www.zhihu.com/question/20899988/answer/24923424
http://www.jianshu.com/users/696dc6c6f01c/latest_articles
http://www.jianshu.com/users/6fa6c423322a/latest_articles 简书
1、爬虫技术
http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html
2、分词技术
http://blog.csdn.net/wauwa/article/details/7865526
3、正则表达式:
http://deerchao.net/tutorials/regex/regex.htm
http://blog.csdn.net/lengyue_wy/article/details/6999310
4、python
http://news.cnblogs.com/n/533868/ 学好Python的11个优秀资源
http://blog.csdn.net/cjfeii/article/details/11494339
http://www.jb51.net/article/54911.htm
5、linux系统
6、大数据(mongodb或spark)
http://www.2cto.com/database/201505/400727.html 在MongoDB上使用Spark
http://my.oschina.net/laigous/blog/478438#OSC_h5_4 hadoop2.7+Spark1.4环境搭建
http://news.cnblogs.com/n/533860/ Spark和Hadoop,孰优孰劣?
7、linux下的编程
http://www.cnblogs.com/dirlt/archive/2011/06/22/2086500.html APUE