[러닝 스파크] Column과 Row

복만 2023. 11. 19. 22:00

컬럼 Column

스파크 데이터프레임에서는 Column의 이름을 이용해 다양한 연산을 수행할 수 있다.

pyspark.sql.Column — PySpark 3.5.0 documentation

A column in a DataFrame. Changed in version 3.4.0: Supports Spark Connect. Select a column out of a DataFrame >>> df.name Column<’name’> >>> df[“name”] Column<’name’>

spark.apache.org

Pyspark에서 column에 접근하는 방식은 여러 가지가 있는데, 하나는 col("columnName") 함수를 사용하는 것,다른 하나는 df.columnName을 사용하는 것이다.

다음은 Column을 이용한 연산의 몇가지 예시이다.

from pyspark.sql.functions import col, concat

df.withColumn("colABC", concat(col("colA"), col("colB"), col("colC"))) # colA, colB, colC를 합쳐 colABC라는 column 생성

df.select(col("colA")) # colA만 선택

df.sort(col("colA").desc()) # colA에 대해 내림차순으로 정렬
df.sort(df.colA.desc()) # 위와 동일한 코드

로우 Row

스파크의 Row는 순서가 있는 필드의 집합 객체라고 볼 수 있다. 따라서 인덱스를 이용하여 접근할 수 있다.

pyspark.sql.Row — PySpark 3.5.0 documentation

key in row will search through row keys. Row can be used to create a row object by using named arguments. It is not allowed to omit a named argument to represent that the value is None or missing. This should be explicitly set to None in this case. Changed

spark.apache.org

from pyspark.sql import Row

row = Row(6, "text", ["a", "b"])

row[1]
>> "text"

다음과 같이 Row들을 데이터프레임으로 만들 수 있다.

rows = [Row("Alice", 11), Row("Bob", 8)]

df = spark.createDataFrame(rows, ["Name", "Age"])