본문 바로가기

프로그래머스 데브 코스/TIL

[6기] 프로그래머스 인공지능 데브코스 75일차 TIL

1114

[13주차 - Day2] Spark

Spark

Spark 관련 핵심 명령어들 업로드
# 애플 주식 데이터 활용한 실습
# pandas 데이터프레임으로 로딩해서 Spark 데이터프레임으로 변경한다
import pandas as pd

apple_pandas_df = pd.read_csv("https://pyspark-test-sj.s3-us-west-2.amazonaws.com/appl_stock.csv")
apple_spark_df = spark.createDataFrame(apple_pandas_df)


# 스키마를 프린트해보기
apple_spark_df.printSchema()


# describe를 사용하여 데이터프레임의 컬럼별 통계보기
apple_spark_df.describe().show()


# Close 컬럼의 평균값은 얼마인가?
from pyspark.sql.functions import mean

apple_spark_df.select(mean("Close")).show()


# Volume 컬럼의 최대값과 최소값은?
from pyspark.sql.functions import min, max

apple_spark_df.select(max("Volume"), min("Volume")).show()