跳至内容

夜明的孤行灯

  • 关于
  • Docker专题
  • libGDX专题

Spark

使用Docker快速启动一个Spark集群

2018年9月2日2018年8月9日 作者 htynkn

docker-compose 文件如下 version: ‘3’ services: master: imag … 阅读更多

分类 Spark 标签 Docker 2 条评论

Spark上可用的自然语言处理框架JSL NLP

2017年11月19日 作者 htynkn

Spark ML Pipeline是一个非常方便的结构,只需要提供其中相应的部件就可以做出很多可以重用的Pip … 阅读更多

分类 Spark 标签 自然语言处理 发表评论

用Spark MLlib 2.X来驱动你的机器学习工作流

2017年7月30日 作者 htynkn

Spark的机器学习模块在2.x版本正式移动到ml包下,也就是说旧有的包只做维护不在添加新的功能。新的ml包中 … 阅读更多

分类 Spark 发表评论

Apache Spark

2016年12月8日2016年12月6日 作者 htynkn

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利 … 阅读更多

分类 Spark 发表评论

停止词和StopWordsRemover

2016年11月26日 作者 htynkn

停止词简单来说是指在一种语言中广泛使用的词。在各种需要处理文本的地方,我们对这些停止词做出一些特殊处理,以方便 … 阅读更多

分类 Spark 2 条评论

Spark快速获得CrossValidator的最佳模型参数

2016年11月10日 作者 htynkn

Spark提供了便利的Pipeline模型,可以轻松的创建自己的学习模型。 但是大部分模型都是需要提供参数的, … 阅读更多

分类 Spark 1 条评论

利用Docker快速搭建Spark本地环境

2018年9月2日2016年7月26日 作者 htynkn

Spark模式是直接local直接开发的,也就是在SparkConf中直接设定为local[*]之类,就可以在 … 阅读更多

分类 Spark 标签 Docker 发表评论

Java项目中混合Scala

2016年4月17日 作者 htynkn

虽然我并不怎么用Scala,但是经常接触到一些Scala的开源库。由于Scala本身的特性,所以对于使用者而言 … 阅读更多

分类 Gradle、 Spark 标签 Scala、 Spark 发表评论

快速将csv转为Spark Dataframe

2016年3月14日 作者 htynkn

CSV,或者叫逗号分隔值,是以逗号为分隔符,简单而使用。虽然并没有真正的标准,但是RFC 4180中有一个大致 … 阅读更多

分类 Spark 发表评论

Spark的Datasets

2016年2月13日 作者 htynkn

对于Spark的使用者来说,越简单易用的API越好。所以在原有的RDD之上,Spark陆续添加了DataFra … 阅读更多

分类 Spark 发表评论
较早文章
页面1 页面2 下一页 →
© 2023 夜明的孤行灯 蜀ICP备14031697号-1