[러닝 스파크] 데이터프레임 스키마

👽 Language & Frameworks/Spark

[러닝 스파크] 데이터프레임 스키마

복만 2023. 9. 3. 01:10

스파크 데이터프레임은 판다스 데이터프레임에 영향을 받아 만들어져 이름 있는 칼럼과 스키마를 가진 분산 인메모리 테이블처럼 동작한다.

스키마 Schema

스키마는 데이터프레임의 칼럼 이름과 데이터 타입을 정의한 것이다. 스키마는 데이터를 읽어들일 때 자동으로 정의되게 할 수도 있지만, 미리 스키마를 정의하면 다음과 같은 장점이 있다.

💡 스파크가 데이터 타입을 추측해야 하는 책임을 덜어 줌으로써, 스키마 확정을 위한 별도의 잡을 만드는 것을 방지한다.

💡 데이터가 스키마와 맞지 않는 경우 조기에 문제를 발견할 수 있다.

스키마를 정의하는 방법은 두가지가 있다. 첫 번째는 pyspark.sql.types에서 데이터 타입을 불러와 프로그래밍 스타일로 정의하는 것이다. 다음과 같이 각 필드의 이름과 Type을 정의해 StructField에 인자로 주고, 이들을 묶어서 StructType에 전달하면 된다. StructField의 세번째 인자는 null 값을 허용할 것인지를 의미한다.

from pyspark.sql.types import StructType, StructField, StringType, IntegerType

schema = StructType(
    [
        StructField("id", IntegerType(), True),
        StructField("name", StringType(), True),
        StructField("age", IntegerType(), True),
    ]
)

spark의 모든 데이터 타입은 여기에서 확인할 수 있다.

Data Types — PySpark 3.5.0 documentation

spark.apache.org

두번째 방법은 DDL (data definition language)을 사용하는 방법으로, 좀더 단순하고 읽기 쉽다. string으로 각 필드의 이름과 Type을 ,로 구분하여 주면 된다.

schema = "id INT, name STRING, age INT"

데이터프레임 생성

이렇게 정의한 스키마를 데이터프레임을 생성할 때 createDataFame의 인수로 같이 넣어주면 된다.

pyspark.sql.SparkSession.createDataFrame — PySpark 3.5.0 documentation

an RDD of any kind of SQL data representation (Row, tuple, int, boolean, etc.), or list, pandas.DataFrame or numpy.ndarray.

spark.apache.org

df = spark.createDataFrame(data, schema)

다음과 같이 사전 정의된 스키마 대신 column name의 list를 주거나, None으로 지정할 수도 있는데, 이 경우 데이터에서 스키마를 자동으로 유추(inference)한다.

df = spark.createDataFrame(data, schema=["id", "name", "age"], samplingRatio=None)

스키마를 유추할 때는 전체 데이터프레임의 일부 row를 sampling하여 알아낸다. samplingRatio를 None으로 설정하면 첫 번째 row만 읽어서 스키마를 유추한다.

그러나 이 방식에는 주의해야 할 점이 있는데, samplingRatio만큼의 row를 읽었는데 값이 모두 Null이어서 스키마를 유추할 수 없다면, 에러가 발생하게 된다.

생성된 데이터프레임에서 다음과 같이 스키마를 불러올 수 있다.

df_schema = df.schema

'👽 Language & Frameworks > Spark' 카테고리의 다른 글

[러닝 스파크] 데이터프레임 연산과 전처리 (1)	2023.11.20
[러닝 스파크] 데이터프레임 읽고 내보내기 (0)	2023.11.19
[러닝 스파크] Column과 Row (1)	2023.11.19
[러닝 스파크] 스파크 연산의 종류 (0)	2023.09.03

현재글[러닝 스파크] 데이터프레임 스키마

🐬

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

IBOK