今天刚面完头条,大数据架构实习生岗,虽然走的是正常实习生面试流程,但是还是能感觉到面试官没有为难我。
记录一下面试过程中的点吧。
scala
- 隐式转换
java
- jvm内存结构
- gc
- java多线程,子线程执行完父系线程才执行
spark
- pipeline
- black list
- speculative 投机机制
- dynamic allocation
- sortByKey采样算法
- spark和mapreduce shuffle的区别
- groupByKey和combineByKey的区别,cogroup和join是否涉及shuffle
- 为什么要stage划分
- task失败,executor会怎么处理?如果一个task是因为读取远程书库块失败,spark会怎么处理?
- 为什么要combine,是不是combine就一定能压缩数据
数据挖掘
关联规则 支持度、置信度、提升度