2019年01月_喜欢coding的谢同学

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创浅析Hadoop源码-运用Eclipse简单跟踪waitForCompletion探寻切片机制

文章目录前言过程探寻前奏生成目录处理切片生成文件汇总配置后记前言过程探寻前奏首先在提交处设置断点F5进入waitForCompletion，可以看到这个方法不算太长显然waitForCompletion是对submit的封装，在其基础上多了一些校验；继续进入submit查看一下这里确认状态、进行了版本适配，连接获得集群对象再将这个job提交在方法return处设置断点进去...

2019-01-28 19:54:40 358

原创 python爬虫入门-使用cookie解决登录问题

前言在做爬虫时，对于一些网站，不得不登录而获取需要的信息，这个时候就需要cookie来解决问题啦cookie简介cookie是指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常会被加密)拿我曾经的一个项目来看：Cookie ssidCookie = new Cookie("ssid",md5Encrypt(userName));这就用java在后端...

2019-01-28 13:16:59 1998

原创 python爬虫入门-pyquery学习分享

前言pyquery是一个类似于JQuery的库，能够方便的通过css选择器定位元素，如果还不了解css选择器，可以先去看一下我的另一篇博客https://blog.csdn.net/weixin_44112790/article/details/86624844安装cmdpip install pyquerypycharmfrom pyquery import PyQuery as...

2019-01-26 16:25:28 212

原创 python爬虫入门-BeautifulSoup学习分享

前言Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。简单演示我们试着来提取出这些电影的名字，在BeautifulSoup当中无需了解css选择器(其实select方法支持css选择器)，我只需给定class名字ranking-m...

2019-01-26 16:24:42 196

原创 python爬虫入门-selenium学习方法分享

文章目录前言简介安装pycharm导入常见的坑学习推荐文档推荐视频推荐前言这篇博客是本人对自己自学selenium的一些总结，希望通过自己的分享能帮上刚开始自学的朋友们；同时也请已经掌握selenium的大佬们指出当中的不足。简介曾经看到的名字由来：Selenium的中文名为“硒”，是一种化学元素的名字，它对汞（Mercury）有天然的解毒作用，实验表明汞暴露水平越高，硒对汞毒性的拮抗作...

2019-01-26 16:24:10 237

原创 python爬虫入门-Requests学习分享

文章目录前言安装学习推荐前言安装学习推荐

2019-01-26 16:23:32 120

原创浅析Hadoop源码-InputSampler.RandomSampler的抽样频率freq

前言今天学习Hadoop的时候，对于随机抽样的频率感到不理解，便查看了一下源码，得出如下的猜测。分享出来和大家交流交流，如有错误，希望大佬指正。问题描述InputSampler.Sampler<IntWritable, IntWritable> sampler = new InputSampler.RandomSampler<IntWritable, IntWritable...

2019-01-25 22:02:59 705

原创爬虫入门-巧用Chrome浏览器

文章目录前言基本操作审查元素复制选择器页面分析查看cookie查看XHR(Ajax的核心技术)前言巧用chrome浏览器，可以极大的提升我们爬虫的效率。基本操作审查元素这个较为简单，我们右键点击想要定位的元素，再点击检查即可在这我就能迅速定位到爱奇艺指数首页中输入框的位置复制选择器选中具体的元素，右键-copy-copy selector便是复制CSS选择器粘贴效果如下bod...

2019-01-25 12:59:00 2100

原创爬虫入门-常用CSS选择器学习分享

文章目录简单选择器id选择器class选择器标签选择器复杂选择器父子选择器直接子元素选择器并列选择器分组选择器简单选择器id选择器有些标签后面会有id=“xxx”，这里面的内容就是我们要用的。由于id的唯一性，我们也比较好利用它来定位的想要操作的内容，进而实现我们的爬虫。在这里我们只需要用#q就能定位到淘宝搜索栏中的输入框了。class选择器分析页面之时，经常能做标签之后看到许多c...

2019-01-25 12:58:10 316

原创爬虫入门-HTML高级标签学习分享

文章目录前言标签简述divulimgaform前言继续之前那篇基础HTML标签的博客，简单分享一下高级标签的学习。标签简述这里再列出一些做爬虫时，经常遇到的标签。div咱们来看图说话我这就用div将页面分成了四块。实际分析页面的时候，div可能是最常见的一个标签，合理分析div有助于帮我们理解网页的整个布局。点击查看详情ul一个ul里可以嵌套多个li，在分析页面的时候，也是很...

2019-01-25 12:57:32 211

原创爬虫入门-HTML基础标签学习分享

文章目录前言页面示例纵观全局head部分body部分标签简述htmlheadmetatitlebodypdivspan前言初学爬虫时，看到一堆陌生的html标签是件头疼的事情，在这里我总结了一些基础的标签，希望能帮助大家快速熟悉起html标签。页面示例纵观全局这里拿我以前写的静态淘宝首页来展示head部分body部分标签简述下面是对常用标签的一些简述，结合目录结构与示例可理...

2019-01-25 12:56:34 342

原创 python安装库超时，修改pip源

错误描述cmd输出的异常信息Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple/Collecting selenium Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection bro...

2019-01-25 07:52:25 2835 1

原创 python爬取豆瓣短评，提取出现最多的词语

项目已经放在GitHubs上 https://github.com/JiajunBernoulli/douban-short-commentary ，感兴趣的朋友可以通过**修改配置文件**实现其他电影的短评爬取及绘图。

2019-01-24 13:12:28 1155

callLog项目数据生产工具

在linux当中每隔10S生成一行callLog的数据,用'java -cp calllogs-0.0.1-SNAPSHOT.jar product.AutoDataGen ./nam_num.csv ./calllog.csv'运行，其中nam_num.csv为姓名手机号映射的文件

2019-07-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人