빅데이터 처리/Spark

Spark 간단하게 하나의 파일로 Write하는 법

BUST 2019. 1. 7. 20:43

Spark 간단하게 하나의 파일로 Write하는 법

  • 데이터를 Partition 별로 나눠서 데이터를 처리를 하기 때문에 Write 여러개의 파일이 생긴다.
  • 하나의 파일만 생기게 할려면 Partition을 강제로 1개로 설정을 하면 하나의 파일로 Write가 된다.
    • 주의
      • 하나의 파티션으로 몰리게 때문에 Memory Overflow가 발생이 될수있다.
      • 용량이 큰 경우에는  파일을 합치는 task를 생성해서 따로 처리를 한다.

Example

df
   .repartition(1)
   .write()
   .json(.... path)...


'빅데이터 처리 > Spark' 카테고리의 다른 글

Spark SQL - Join 방식  (0) 2019.01.09
Spark SQL join, group by and functions  (0) 2019.01.08
Spark AWS S3 접근시 400 에러 처리 방법  (0) 2019.01.07
Spark SQL, DataFrames, Datasets  (0) 2019.01.05
Spark Word Count Example  (0) 2017.08.07