spark์ ๋ฐ์ดํฐํ๋ ์ ์ฐ์ฐ๋ค์ ์ด์ฉํด ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ, ๋ณํ, ํต๊ณ ๋ฑ ๋ค์ํ ์ผ์ ์ํํ ์ ์๋ค. ๋ค์์ ๋ช๊ฐ์ง ์ฐ์ฐ๋ค๊ณผ ํ์ฉ ์์์ด๋ค. ํ๋ก์ ์ ๊ณผ ํํฐ df = df.select(df.colA, df.colB) # ํ๋ก์ ์ (colA์ colB๋ง ์ ํ) df = df.where(df.colB 10000")) # colA์ ๊ฐ์ด 10000์ด์์ด๋ฉด True๋ฅผ ๊ฐ๋ column largeA๋ฅผ ์ถ๊ฐ df = df.drop("colA") # colA ์ญ์ ์ฐธ๊ณ ) alias์..