[러닝 스파크] 데이터프레임 읽고 내보내기

👽 Language & Frameworks/Spark

[러닝 스파크] 데이터프레임 읽고 내보내기

복만 2023. 11. 19. 22:15

구조화된 외부 데이터 소스에서 데이터를 읽어 Spark 데이터프레임으로 로드하고,

특정 포맷으로 데이터프레임의 데이터를 써서 내보내기 위해

DataFrameReader와 DataFrameWriter 인터페이스를 사용할 수 있다.

pyspark.sql.DataFrameReader — PySpark 3.5.0 documentation

Interface used to load a DataFrame from external storage systems (e.g. file systems, key-value stores, etc). Use SparkSession.read to access this. Changed in version 3.4.0: Supports Spark Connect.

spark.apache.org

pyspark.sql.DataFrameWriter — PySpark 3.5.0 documentation

Interface used to write a DataFrame to external storage systems (e.g. file systems, key-value stores, etc). Use DataFrame.write to access this. Changed in version 3.4.0: Supports Spark Connect.

spark.apache.org

지원되는 파일 포맷은 csv, json, orc, parquet 등이다.

다음은 csv 파일을 읽고 쓰는 예시이다.

df = spark.read.csv("data.csv", header=True, schema=schema)
df.write.format("csv").save("data_copy.csv")

'👽 Language & Frameworks > Spark' 카테고리의 다른 글

[러닝 스파크] 데이터프레임 연산과 전처리 (1)	2023.11.20
[러닝 스파크] Column과 Row (1)	2023.11.19
[러닝 스파크] 데이터프레임 스키마 (0)	2023.09.03
[러닝 스파크] 스파크 연산의 종류 (0)	2023.09.03

현재글[러닝 스파크] 데이터프레임 읽고 내보내기

🐬

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

IBOK