- 博客(2)
- 资源 (3)
- 收藏
- 关注
原创 微信数据抓取 1
公司项目一直需要抓取微信数据,因为做微信爬取好几年了,所以对于腾讯微信团队的反爬策略已经比较熟悉了。部分数据通过web页面进行抓取,部分数据需要通过android手机客户端进行抓取,分析数据真是一个锻炼耐心的活,需要层层分析,才能得到最终想要的数据。 最近帮朋友抓取微信的一些文章数据,监控部分账号发布的公众号文章。 微信公众号现在真的是一个非常重要的营销平台。 ...
2019-12-15 10:28:39 1565
原创 利用爬虫进行整站信息抓取的优化
最近把自己的爬虫框架进行了一些优化,以前整站抓取时候需要进行比较多的配置,现在改成只要把一个网站首页加入爬虫系统,爬虫系统会自动爬取需要的所有网页。 2分钟便可以加入一个网站 另一个方面是抓取时间的优化,系统自动识别标题、内容、发布时间,特别是发布时间这块,以前是根据正则表达式匹配,比较容易出现不匹配的请款。现在机器学习自动识别时间,例如August英文、数字结合,都能够准确的识...
2019-12-15 10:26:11 241
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人