0%

maven编码格式

在使用maven进行构建的时候,发现打印的日志中显示maven的编码格式使用的是GBK

1
[WARNING] Using platform encoding (GBK actually) to copy filtered resources, i.e. build is platform dependent!

这可不行,我的项目使用的都是UTF-8,得改一下编码格式

如何修改呢?

在环境变量中新建变量MAVEN_OPTS值为 -Dfile.encoding=UTF-8

修改后再去使用mvn --version看一下,,发现变成UTF-8了

1
2
Default locale: zh_CN, platform encoding: UTF-8
OS name: "windows 10", version: "10.0", arch: "amd64", family: "windows"

graph TD
0((0)) --- 1((1)) --- 3((3))
1((1)) --- 4((4))
0((0)) --- 2((2))

1
2
startID=>start: 开始
startID->

数据读取与保存

spark支持常见的如文本文件、json格式、csv格式、SequenceFiles格式(Hadoop的一种键值对数据)以及对象的序列化

如果是本地文件系统的话路径为file://开头,如果是hdfs文件系统为hdfs://开头

文本文件

1
2
3
4
5
// 读取
sc.textFile("file:///Users/zhanghe/Desktop/1.txt")

// 写入 lines是rdd
lines.saveAsTextFile("file:///Users/zhanghe/Desktop/2.txt")

JSON

使用JSON工具如fastJson、GSON、Jackson来操作字符串或对象来进行读取和写入

1
2
// 写入  mapper使用的是Jackson
lines.map(mapper.writeValueAsString(_)).saveAsTextFile(outputFile)
阅读全文 »