'스파크' 태그의 글 목록

[러닝 스파크] 데이터프레임 연산과 전처리

spark의 데이터프레임 연산들을 이용해 데이터 전처리, 변환, 통계 등 다양한 일을 수행할 수 있다. 다음은 몇가지 연산들과 활용 예시이다. 프로젝션과 필터 df = df.select(df.colA, df.colB) # 프로젝션 (colA와 colB만 선택) df = df.where(df.colB 10000")) # colA의 값이 10000이상이면 True를 갖는 column largeA를 추가 df = df.drop("colA") # colA 삭제 참고) alias와..

👽 Language & Frameworks/Spark 2023.11.20

[러닝 스파크] 데이터프레임 읽고 내보내기

구조화된 외부 데이터 소스에서 데이터를 읽어 Spark 데이터프레임으로 로드하고, 특정 포맷으로 데이터프레임의 데이터를 써서 내보내기 위해 DataFrameReader와 DataFrameWriter 인터페이스를 사용할 수 있다. pyspark.sql.DataFrameReader — PySpark 3.5.0 documentation Interface used to load a DataFrame from external storage systems (e.g. file systems, key-value stores, etc). Use SparkSession.read to access this. Changed in version 3.4.0: Supports Spark Connect. spark.apache.or..

👽 Language & Frameworks/Spark 2023.11.19

[러닝 스파크] Column과 Row

컬럼 Column 스파크 데이터프레임에서는 Column의 이름을 이용해 다양한 연산을 수행할 수 있다. pyspark.sql.Column — PySpark 3.5.0 documentation A column in a DataFrame. Changed in version 3.4.0: Supports Spark Connect. Select a column out of a DataFrame >>> df.name Column >>> df[“name”] Column spark.apache.org Pyspark에서 column에 접근하는 방식은 여러 가지가 있는데, 하나는 col("columnName") 함수를 사용하는 것,다른 하나는 df.columnName을 사용하는 것이다. 다음은 Column을 이용한 연산의..

👽 Language & Frameworks/Spark 2023.11.19

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

IBOK

스파크 3

티스토리툴바