- 博客(2)
- 收藏
- 关注
原创 阿里-数据研发-暑期实习-一二+HR面记录
一面3.17 礼拜三 一面聊项目简述hadoop结构(or你所了解的hadoop?)大概从hive,组件,mapreduce几个方面聊了下,感觉答得有点笼统简略,主要之前一直以为会问细节,没想到是整个结构答,稍微有点没接住mapreduce的流程从mapper到combiner到reducer大概答了一轮,同上,一时被太大的问题懵到,没有详细说,后来感觉应该用wordcount的例子说一遍的当hive数据倾斜时的优化(即实习中有遇到倾斜的情况吗,怎么解决的)join上要左表小
2021-03-25 22:15:54 893 2
原创 基于selenium模拟浏览器爬虫JS-frame,搜索+爬取详情页+翻页
基于selenium模拟浏览器爬虫JS-frame网站课设中需要爬一个很神奇的网站Web Gallery,一开始看结构以为是很简单的那种,开始爬的时候才发现它的结构之奇葩……所有东西都集成在一个html页面里,css和js都没有单独分文件,古早得像是十年前的架构,但偏偏全部的数据响应都是在script里完成的,没有对应域名,刷新即会回到index页面,甚至当我发现它能整个html里不存在一个id的时候真的要吐了……于是一开始用Scrapy捕捉静态完全失败,好在重新学了一下selenium模拟浏览器爬成功
2021-03-25 21:49:59 1386
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人