twitter、facebook、微博、微信、头条等信息抓取

总于可以把做的爬虫功能做一个总结了,几乎把互联网上重要的网址的信息抓取了一遍。

1、刚开始因为工作需要需要采集微博、微信的信息,首先对国内的网址进行采集,供我们的系统对数据做分析。通过selenium、手机app、定制爬虫,对微博、微信做了数据采集。采集了内容、评论数、点赞数等。这个过程中需要解决反爬问题,微博、微信都有验证码的问题;利用浏览器进行请求中,也有个别的坑要填。

2、对微博评论做了数据采集。

3、对twitter、facebook做了数据采集,抓取推特、脸书的过程中使用了代理及上述一些技术的结合。

4、对今日头条、网易头条等头条网址做了数据采集。

5、淘宝、美团数据最近也实现了抓取。

2019.10

nike官网紧销鞋子都是慢慢补货的,不定时的补货,最近把nike官网的鞋子通过爬虫快速爬取下来,碰到补货的鞋子就快速下单。个人猜测adidas官网的鞋子应该也是这样子,精力有限就不去弄阿迪达斯了。

听说接下来茅台酒要在网上销售,我想看看能不能利用爬虫抢茅台酒。

接着更新:1、抓取手机淘宝的数据,通过网页抓取了部分。还有部分需要通过淘宝的app抓取,这部分数据网页是没有的。

2、把amazon的数据采集到,然后进行数据分析,分析那件衣服、鞋子或其他物品是一周或者一个月内卖的最多的,感觉这个功能比较有用,做电商外贸应该比较有用。

面对数据量多的时候,我需要对数据库做分区等处理。

有做这行的可以跟我交流,这个数据应该也可以交易吧,欢迎联系我

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值