自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 阿里-数据研发-暑期实习-一二+HR面记录

一面3.17 礼拜三 一面聊项目简述hadoop结构(or你所了解的hadoop?)大概从hive,组件,mapreduce几个方面聊了下,感觉答得有点笼统简略,主要之前一直以为会问细节,没想到是整个结构答,稍微有点没接住mapreduce的流程从mapper到combiner到reducer大概答了一轮,同上,一时被太大的问题懵到,没有详细说,后来感觉应该用wordcount的例子说一遍的当hive数据倾斜时的优化(即实习中有遇到倾斜的情况吗,怎么解决的)join上要左表小

2021-03-25 22:15:54 893 2

原创 基于selenium模拟浏览器爬虫JS-frame,搜索+爬取详情页+翻页

基于selenium模拟浏览器爬虫JS-frame网站课设中需要爬一个很神奇的网站Web Gallery,一开始看结构以为是很简单的那种,开始爬的时候才发现它的结构之奇葩……所有东西都集成在一个html页面里,css和js都没有单独分文件,古早得像是十年前的架构,但偏偏全部的数据响应都是在script里完成的,没有对应域名,刷新即会回到index页面,甚至当我发现它能整个html里不存在一个id的时候真的要吐了……于是一开始用Scrapy捕捉静态完全失败,好在重新学了一下selenium模拟浏览器爬成功

2021-03-25 21:49:59 1386

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除