πŸ‘½ Language & Frameworks/Spark

[λŸ¬λ‹ 슀파크] 슀파크 μ—°μ‚°μ˜ μ’…λ₯˜

볡만 2023. 9. 3. 01:09

슀파크 μ—°μ‚°μ˜ μ’…λ₯˜

 

슀파크 연산은 νŠΈλžœμŠ€ν¬λ©”μ΄μ…˜κ³Ό μ•‘μ…˜ 두가지 μ’…λ₯˜λ‘œ κ΅¬λΆ„λœλ‹€.

 

νŠΈλžœμŠ€ν¬λ©”μ΄μ…˜μ€ 원본 데이터λ₯Ό μˆ˜μ •ν•˜μ§€ μ•Šκ³  ν•˜λ‚˜μ˜ 슀파크 λ°μ΄ν„°ν”„λ ˆμž„μ„ μƒˆλ‘œμš΄ λ°μ΄ν„°ν”„λ ˆμž„μœΌλ‘œ λ³€ν˜•ν•˜λŠ” 것이고, μ•‘μ…˜μ€ μ—°μ‚° κ²°κ³Όλ₯Ό 내놓아야 ν•  λ•Œ μ‚¬μš©λœλ‹€.

 

각 μ—°μ‚°μ˜ μ˜ˆμ‹œλŠ” λ‹€μŒκ³Ό κ°™λ‹€.

 

μ—°μ‚° μ’…λ₯˜ μ˜ˆμ‹œ
νŠΈλžœμŠ€ν¬λ©”μ΄μ…˜ orderBy, groupBy, filter, select, join
μ•‘μ…˜ show, take, count, collect, save

 

 

μ—°μ‚°μ˜ μ‹€ν–‰

 

λͺ¨λ“  νŠΈλžœμŠ€ν¬λ©”μ΄μ…˜ 연산은 μ¦‰μ‹œ μ‹€ν–‰λ˜μ§€ μ•Šκ³  λ¦¬λ‹ˆμ§€ ν˜•νƒœλ‘œ κΈ°λ‘λœλ‹€.

μ•‘μ…˜ 연산이 싀행될 λ•Œ κ·Έλ™μ•ˆ 기둝된 νŠΈλžœμŠ€ν¬λ©”μ΄μ…˜ 연산듀이 λ°œλ™λœλ‹€. 이λ₯Ό 톡해 보닀 효율적인 μ‹€ν–‰κ³Ό μ΅œμ ν™”κ°€ κ°€λŠ₯ν•˜λ‹€.

 

 

쒁은 μ˜μ‘΄μ„±κ³Ό 넓은 μ˜μ‘΄μ„±

 

νŠΈλžœμŠ€ν¬λ©”μ΄μ…˜μ€ 쒁은 μ˜μ‘΄μ„±κ³Ό 넓은 μ˜μ‘΄μ„±μœΌλ‘œ λΆ„λ₯˜ν•  수 μžˆλŠ”λ°, 쒁은 μ˜μ‘΄μ„±μ€ ν•˜λ‚˜μ˜ μž…λ ₯ νŒŒν‹°μ…˜μ„ μ—°μ‚°ν•˜μ—¬ ν•˜λ‚˜μ˜ κ²°κ³Ό νŒŒν‹°μ…˜μ„ λ‚΄λ†“λŠ” filter, contains 등을 μ˜λ―Έν•˜κ³ , 넓은 μ˜μ‘΄μ„±μ€ μ—¬λŸ¬ 개의 νŒŒν‹°μ…˜μœΌλ‘œλΆ€ν„° 데이터λ₯Ό 읽어 ν•©μΉ˜κ³  λ””μŠ€ν¬μ— μ“°λŠ” λ“±μ˜ 일을 ν•˜λŠ” groupBy, orderBy λ“±μ˜ 연산을 μ˜λ―Έν•œλ‹€.

λ°˜μ‘ν˜•