Spark 간단하게 하나의 파일로 Write하는 법
- 데이터를 Partition 별로 나눠서 데이터를 처리를 하기 때문에 Write 여러개의 파일이 생긴다.
- 하나의 파일만 생기게 할려면 Partition을 강제로 1개로 설정을 하면 하나의 파일로 Write가 된다.
- 주의
- 하나의 파티션으로 몰리게 때문에 Memory Overflow가 발생이 될수있다.
- 용량이 큰 경우에는 파일을 합치는 task를 생성해서 따로 처리를 한다.
Example
df
.repartition(1)
.write()
.json(.... path)...
'빅데이터 처리 > Spark' 카테고리의 다른 글
Spark SQL - Join 방식 (0) | 2019.01.09 |
---|---|
Spark SQL join, group by and functions (0) | 2019.01.08 |
Spark AWS S3 접근시 400 에러 처리 방법 (0) | 2019.01.07 |
Spark SQL, DataFrames, Datasets (0) | 2019.01.05 |
Spark Word Count Example (0) | 2017.08.07 |