[러닝 스파크] 데이터프레임 연산과 전처리

👽 Language & Frameworks/Spark

[러닝 스파크] 데이터프레임 연산과 전처리

복만 2023. 11. 20. 23:23

spark의 데이터프레임 연산들을 이용해 데이터 전처리, 변환, 통계 등 다양한 일을 수행할 수 있다.

다음은 몇가지 연산들과 활용 예시이다.

프로젝션과 필터

df = df.select(df.colA, df.colB) # 프로젝션 (colA와 colB만 선택)
df = df.where(df.colB < 5)) # 필터

Column 이름 변경 및 추가, 삭제

df = df.withColumnRenamed("colA", "colB") # column 이름 변경

df = df.withColumn("largeA", expr("colA > 10000")) # colA의 값이 10000이상이면 True를 갖는 column largeA를 추가

df = df.drop("colA") # colA 삭제

참고) alias와 withColumnRenamed의 차이 -

alias: 쿼리 내에서 임시적으로 컬럼에 별칭 부여
withColumnRenamed: 데이터프레임의 컬럼 이름을 영구적으로 변경

집계

# Null이 아닌 colA 값들의 가짓수
df = (df
    .where(df.colA.isNotNull())
    .agg(countDistinct(df.colA).alias("DistinctColANum"))

# Null이 아닌 colA 값들의 종류
df = (df
    .where(df.colA.isNotNull())
    .distinct())
    
# colA의 각 값의 갯수를 새로 내림차순으로 정렬
df = (df
    .groupBy("colA")
    .count()
    .orderBy("count", ascending=False))
    
# colA의 통계값 계산
import pyspark.sql.functions as F

df = df.select(F.sum("colA"), F.avg("colA"), F.min("colA"), F.max("colA"))

'👽 Language & Frameworks > Spark' 카테고리의 다른 글

[러닝 스파크] 데이터프레임 읽고 내보내기 (0)	2023.11.19
[러닝 스파크] Column과 Row (1)	2023.11.19
[러닝 스파크] 데이터프레임 스키마 (0)	2023.09.03
[러닝 스파크] 스파크 연산의 종류 (0)	2023.09.03

현재글[러닝 스파크] 데이터프레임 연산과 전처리

🐬

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

IBOK

[러닝 스파크] 데이터프레임 연산과 전처리

프로젝션과 필터

Column 이름 변경 및 추가, 삭제

집계

'👽 Language & Frameworks > Spark' 카테고리의 다른 글

'👽 Language & Frameworks/Spark'의 다른글

티스토리툴바

[러닝 스파크] 데이터프레임 연산과 전처리

프로젝션과 필터

Column 이름 변경 및 추가, 삭제

집계

'👽 Language & Frameworks > Spark' 카테고리의 다른 글

'👽 Language & Frameworks/Spark'의 다른글

관련글

티스토리툴바