Lanlll030-CSDN博客

原创阿里-数据研发-暑期实习-一二+HR面记录

一面3.17 礼拜三一面聊项目简述hadoop结构（or你所了解的hadoop？）大概从hive，组件，mapreduce几个方面聊了下，感觉答得有点笼统简略，主要之前一直以为会问细节，没想到是整个结构答，稍微有点没接住mapreduce的流程从mapper到combiner到reducer大概答了一轮，同上，一时被太大的问题懵到，没有详细说，后来感觉应该用wordcount的例子说一遍的当hive数据倾斜时的优化（即实习中有遇到倾斜的情况吗，怎么解决的）join上要左表小

2021-03-25 22:15:54 893 2

原创基于selenium模拟浏览器爬虫JS-frame，搜索+爬取详情页+翻页

基于selenium模拟浏览器爬虫JS-frame网站课设中需要爬一个很神奇的网站Web Gallery，一开始看结构以为是很简单的那种，开始爬的时候才发现它的结构之奇葩……所有东西都集成在一个html页面里，css和js都没有单独分文件，古早得像是十年前的架构，但偏偏全部的数据响应都是在script里完成的，没有对应域名，刷新即会回到index页面，甚至当我发现它能整个html里不存在一个id的时候真的要吐了……于是一开始用Scrapy捕捉静态完全失败，好在重新学了一下selenium模拟浏览器爬成功

2021-03-25 21:49:59 1386

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 阿里-数据研发-暑期实习-一二+HR面记录

原创 基于selenium模拟浏览器爬虫JS-frame，搜索+爬取详情页+翻页

空空如也

空空如也

原创阿里-数据研发-暑期实习-一二+HR面记录

原创基于selenium模拟浏览器爬虫JS-frame，搜索+爬取详情页+翻页