1、通过近两周的学习,基本掌握了Python技术的基本原理。其中重要的技术难点,可能在于选择器的设计。selector选择器、xpath选择器的精确处理,是比较复杂的技术。根据节点的特征来设计流程结构,相对比较麻烦。
2、对于搜索类网站的信息爬取,需要掌握selenium和PhantomJS,这些工具都是很强大的。使用起来也很方便。每个网站都有其特性,爬虫程序必须有针对性。由于网站种类很多,所以,设计通用的爬虫,是比较复杂的。
3、对于采用AJAX技术的网站,数据爬取相对较难。
4、跨网页爬取技术也是比较复杂的。
以上这些都是可以克服的,但如果针对多源爬取,工作量是很大的。
5、爬取数据需要进行预处理,所以,数据采用csv、excel、mongoDB、mySQL等多种形式存储。互相之间都可以转换。无论如何,爬取的数据,最好采取结构化存储,以方便后期分析。
6、word类、pdf类文件、图片文件,后期进行分析,可能难度要高一些。
以上是这段时间学习得到的一些心得和体会。下一阶段将重点学习Python的数据分析。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190731192954207.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NTMxNzAwNA==,size_16,color_FFFFFF,t_70)
关于Python爬虫技能的学习进展
最新推荐文章于 2024-09-17 23:15:58 发布