스파크 데이터프레임은 판다스 데이터프레임에 영향을 받아 만들어져 이름 있는 칼럼과 스키마를 가진 분산 인메모리 테이블처럼 동작한다. 스키마 Schema 스키마는 데이터프레임의 칼럼 이름과 데이터 타입을 정의한 것이다. 스키마는 데이터를 읽어들일 때 자동으로 정의되게 할 수도 있지만, 미리 스키마를 정의하면 다음과 같은 장점이 있다. 💡 스파크가 데이터 타입을 추측해야 하는 책임을 덜어 줌으로써, 스키마 확정을 위한 별도의 잡을 만드는 것을 방지한다. 💡 데이터가 스키마와 맞지 않는 경우 조기에 문제를 발견할 수 있다. 스키마를 정의하는 방법은 두가지가 있다. 첫 번째는 pyspark.sql.types에서 데이터 타입을 불러와 프로그래밍 스타일로 정의하는 것이다. 다음과 같이 각 필드의 이름과 Type을 ..