爬虫
文章平均质量分 77
王亨
这个作者很懒,什么都没留下…
展开
-
10分钟爬取A股所有上市公司超千万条股票数据
最近,在tushare官方文档中,看到这个一个方法pro.stock_basic(),作用是可以爬取A股所有上市股票基本信息。然后我就试了一下,默认条件下可以爬取到A股上市的的所有股票基本数据,共4179条数据(截止20210306),数据主要包括股票代码、公司名称、公司地点、上市板块以及上市日期。 ts_code symbol name area industry market list_date0 000001.SZ...原创 2021-03-07 16:30:49 · 5477 阅读 · 0 评论 -
搜狗·疫情数据爬取(Python)
上周已经分享过搜狗·疫情数据爬取(R语言),这次分享一下搜狗·疫情数据爬取(Python)不说废话,直接上代码。有什么问题,可以在留言区讨论。from urllib import requestfrom lxml import etreeimport reimport pandas as pdimport jsonurl="http://sa.sogou.com/ne...原创 2020-02-22 16:09:35 · 2093 阅读 · 0 评论 -
rvest包爬取猎聘网招聘信息
前言前不久,我用rvest包爬取了政府工作报告,通过jiebaR分词,并用wordcloud2进行了词云分析。点击查看 http://blog.csdn.net/wzgl__wh/article/details/72804687今天,我们来用rvest包爬取猎聘网上的招聘信息。链接为 https://www.liepin.com/zhaopin/?init=1 。 打开的页面如上图,今天任务要爬...原创 2017-07-10 21:28:44 · 3385 阅读 · 0 评论 -
R语言爬取imdb电影海报
提前声明,这不是一个好的例子,所以不要向我学习。让我先冷静一下!OK,开始,今天我们开始从下面链接爬虫。http://www.imdb.com/search/title?count=100&release_date=2016,2016&title_type=feature。打开页面如下:总共有100页,包含电影1万多部。我只爬取了2000个。(PS:等我截下面这张图时顺序已经和原来...原创 2018-04-25 13:48:44 · 1903 阅读 · 0 评论 -
爬虫 | 正则表达式提取腾讯教育新闻链接及图片链接
前面的爬虫都是通过标签来爬取的,今天就分享一个小例子使用正则表达式来提取网页信息。如果你对正则表达式不熟悉,可以查看我之前写的R正则表达式这篇文章。它对R几个常用正则表达式进行了详尽的解释,包括参数说明,函数区别,正则表达式转义等都有介绍。今天通过爬取腾讯教育(http://edu.qq.com/)网页的所有关于教育新闻的链接,另外也爬取图片链接。提取新闻链接首先我们来分析一些教育类新闻链接的特点...原创 2018-05-18 18:50:29 · 1685 阅读 · 0 评论 -
定时执行R脚本
哈喽,大家有没有经常重复的执行一个脚本,每次执行是不是很烦人?今天分享的这一篇文章,就是来帮助你解决这个烦恼。方法就是在Linux下设置定时任务,定时执行脚本,这样就不用每次手动执行,而且会节省很多时间,减少很多麻烦,毕竟科技因懒人而进步。首先说说定时任务工具crontab,crontab可以设置任务执行的时间,比如每月的1号,每天晚上12点,每周一等,设置也是非常的简单。crontab设置的...原创 2018-12-11 23:46:27 · 2910 阅读 · 0 评论