1114
[13주차 - Day2] Spark
Spark
Spark 관련 핵심 명령어들 업로드
# 애플 주식 데이터 활용한 실습
# pandas 데이터프레임으로 로딩해서 Spark 데이터프레임으로 변경한다
import pandas as pd
apple_pandas_df = pd.read_csv("https://pyspark-test-sj.s3-us-west-2.amazonaws.com/appl_stock.csv")
apple_spark_df = spark.createDataFrame(apple_pandas_df)
# 스키마를 프린트해보기
apple_spark_df.printSchema()
# describe를 사용하여 데이터프레임의 컬럼별 통계보기
apple_spark_df.describe().show()
# Close 컬럼의 평균값은 얼마인가?
from pyspark.sql.functions import mean
apple_spark_df.select(mean("Close")).show()
# Volume 컬럼의 최대값과 최소값은?
from pyspark.sql.functions import min, max
apple_spark_df.select(max("Volume"), min("Volume")).show()