关于Python爬虫技能的学习进展

	1、通过近两周的学习,基本掌握了Python技术的基本原理。其中重要的技术难点,可能在于选择器的设计。selector选择器、xpath选择器的精确处理,是比较复杂的技术。根据节点的特征来设计流程结构,相对比较麻烦。
	2、对于搜索类网站的信息爬取,需要掌握selenium和PhantomJS,这些工具都是很强大的。使用起来也很方便。每个网站都有其特性,爬虫程序必须有针对性。由于网站种类很多,所以,设计通用的爬虫,是比较复杂的。
	3、对于采用AJAX技术的网站,数据爬取相对较难。
	4、跨网页爬取技术也是比较复杂的。
	以上这些都是可以克服的,但如果针对多源爬取,工作量是很大的。
	5、爬取数据需要进行预处理,所以,数据采用csv、excel、mongoDB、mySQL等多种形式存储。互相之间都可以转换。无论如何,爬取的数据,最好采取结构化存储,以方便后期分析。
	6、word类、pdf类文件、图片文件,后期进行分析,可能难度要高一些。

	以上是这段时间学习得到的一些心得和体会。下一阶段将重点学习Python的数据分析。
	![在这里插入图片描述](https://img-blog.csdnimg.cn/20190731192954207.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NTMxNzAwNA==,size_16,color_FFFFFF,t_70)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值