python
yshhuang
这个作者很懒,什么都没留下…
展开
-
使用Python+mongoDB爬虫收集有道词典的文章
起源之前在有道词典上的"有道晨读"栏目看过一些连载的双语文章,还有真人朗读,觉得很不错,像<小王子>,<老人与海>,<追风筝的人>等.但是专栏的文章是按时间排序的,同一部作品并不连续出现,想要看一部完整的连载作品很不方便,所以就想通过爬虫的方法把这些文章整理出来,方便查看防止丢失(有道词典上过老的文章会不会出现在列表中,只保留最新500篇)环境手机:A...原创 2019-01-21 15:54:25 · 543 阅读 · 1 评论 -
python3网易公开课爬虫实践
结果这次先说结果吧,截止到目前(2019-01-28)位置总共爬了网易公开课4296个订阅号(有的订阅号是没有内容的),409030条内容(视频或者文章),243413个视频集合,内容里面的视频和视频集合里的视频是有重叠的.分别保存到open163_subscribe,open163_content,open163,3个collection的结构如下数据抓取过程首先,网易公开课的内...原创 2019-07-24 20:48:49 · 838 阅读 · 0 评论 -
网易公开课爬虫实践
结果这次先说结果吧,截止到目前(2019-01-28)位置总共爬了网易公开课4296个订阅号(有的订阅号是没有内容的),409030条内容(视频或者文章),243413个视频集合,内容里面的视频和视频集合里的视频是有重叠的.分别保存到open163_subscribe,open163_content,open163,3个collection的结构如下数据抓取过程首先,网易公开课的内...原创 2019-08-15 11:53:51 · 375 阅读 · 0 评论