关于Python爬虫技能的学习进展

最新推荐文章于 2024-09-17 23:15:58 发布

晴虹涧

最新推荐文章于 2024-09-17 23:15:58 发布

阅读量136

点赞数

分类专栏：学习笔记文章标签： python

本文链接：https://blog.csdn.net/weixin_45317004/article/details/97949836

版权

学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

	1、通过近两周的学习，基本掌握了Python技术的基本原理。其中重要的技术难点，可能在于选择器的设计。selector选择器、xpath选择器的精确处理，是比较复杂的技术。根据节点的特征来设计流程结构，相对比较麻烦。
	2、对于搜索类网站的信息爬取，需要掌握selenium和PhantomJS，这些工具都是很强大的。使用起来也很方便。每个网站都有其特性，爬虫程序必须有针对性。由于网站种类很多，所以，设计通用的爬虫，是比较复杂的。
	3、对于采用AJAX技术的网站，数据爬取相对较难。
	4、跨网页爬取技术也是比较复杂的。
	以上这些都是可以克服的，但如果针对多源爬取，工作量是很大的。
	5、爬取数据需要进行预处理，所以，数据采用csv、excel、mongoDB、mySQL等多种形式存储。互相之间都可以转换。无论如何，爬取的数据，最好采取结构化存储，以方便后期分析。
	6、word类、pdf类文件、图片文件，后期进行分析，可能难度要高一些。

	以上是这段时间学习得到的一些心得和体会。下一阶段将重点学习Python的数据分析。
	![在这里插入图片描述](https://img-blog.csdnimg.cn/20190731192954207.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NTMxNzAwNA==,size_16,color_FFFFFF,t_70)