使用Docker快速启动一个Spark集群
docker-compose 文件如下 version: ‘3’ services: master: imag … 阅读更多
docker-compose 文件如下 version: ‘3’ services: master: imag … 阅读更多
Spark的机器学习模块在2.x版本正式移动到ml包下,也就是说旧有的包只做维护不在添加新的功能。新的ml包中 … 阅读更多
停止词简单来说是指在一种语言中广泛使用的词。在各种需要处理文本的地方,我们对这些停止词做出一些特殊处理,以方便 … 阅读更多
Spark模式是直接local直接开发的,也就是在SparkConf中直接设定为local[*]之类,就可以在 … 阅读更多
虽然我并不怎么用Scala,但是经常接触到一些Scala的开源库。由于Scala本身的特性,所以对于使用者而言 … 阅读更多
CSV,或者叫逗号分隔值,是以逗号为分隔符,简单而使用。虽然并没有真正的标准,但是RFC 4180中有一个大致 … 阅读更多
对于Spark的使用者来说,越简单易用的API越好。所以在原有的RDD之上,Spark陆续添加了DataFra … 阅读更多