快速将csv转为Spark Dataframe

14 3月

CSV,或者叫逗号分隔值,是以逗号为分隔符,简单而使用。虽然并没有真正的标准,但是RFC 4180中有一个大致的表述。

很多时候我们拿到的原始数据都是csv的,而快速将其转为Spark的Dataframe做进一步分析就是一个经常遇到的问题。

先来一个简单的例子,这里以手淘的数据为例子

spark-dataframe-1

共有六列。

先建立一个简单对象Record,然后直接用Spark的createDataFrame方法

这样的操作有一些不方便的地方,第一个是需要创建一个额外的类,另外一个是缺乏数据类型自动推断。

databricks在Spark方面有相当的积累,也有一些对应的包,其中就包括了csv包。

使用时直接指定format

这包含了自动的header和类型推导。

发表评论

电子邮件地址不会被公开。