Spark spark.speculation 推测/投机执行

def combineByKey[C](createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C) : RDD[(K, C)]
def aggregateByKey[U](zeroValue: U)(seqOp: (U, V) => U,combOp: (U, U) => U): RDD[(K, U)]
def reduceByKey(func: (V, V) => V): RDD[(K, V)]
def groupByKey(T => K): RDD[(K, Iterable[V])]

more >>

Spark MLlib Word2Vec 原理

2018-06-12

基于Spark的word2vec采用的是基于Hierarchical Softmax的Skip-gram模型

Skip-gram 模型

结构：输入层+隐藏层+输出层
输入：某个词的词向量
输出：该词对应的上下文，若上下文的窗口为5，那么输出就是softmax概率排名前10的词。

more >>

Spark job, stage,task划分与提交

2018-06-09

进入8080端口看到Spark任务管理也页面，可以看到我们提交的任务是有一个Application ID。点进去会分成多个Job ID，点进一个job又有多个stage，stage点进去就是executor和task的详细情况。
显然，Application > Job > Stage > Task。

more >>

Spark Shuffle 原理

2018-06-05

Shuffle阶段涉及序列化反序列化、跨节点网络IO以及磁盘读写IO等，代价很高。
shuffle write：每个map task将计算结果分成多份，每一份对应到下游stage的每个partition中，并且临时写到磁盘。
shuffle read：reduce task通过网络拉取map task的指定分区结果数据。

more >>