본문 바로가기

프로그래머스 데브 코스/TIL

[6기] 프로그래머스 인공지능 데브코스 14일차 TIL

0914

4주차-Day4) EDA Project

EDA 실습 미션

해당 미션을 어제 수행해버렸기 때문에 오늘은 질문을 통해 알게 된 지식 정리

데이터의 상관관계를 확인하기 위해 아래와 같은 코드를 사용했을 때,

titanic_df.corr()

ValueError: could not convert string to float: 'Braund, Mr. Owen Harris'

데이터에 string 타입이 포함되어 있어 상관관계가 제대로 실행되지 않음을 확인할 수 있음

이럴 때 titanic_df.describe().corr() 대충 이런 코드로 바꿔 실행했더니 이건 또 오류가 안 떠서 질문을 올렸더니...

상관관계를 확인하는 코드가 아니라는 말과 함께 .drop()을 활용해 string 타입의 열을 삭제하고 진행해보라는 솔루션을 받았다

.dtypes를 이용해 데이터 내 타입들을 전부 확인한 후 숫자 데이터가 아닌 것들을 drop 해주는 코드를 만들어 실행하니 오류가 뜨지 않았다

# 실습에서 사용된 데이터셋에서 int 및 float 타입만 남겨놓고 corr()을 적용시킨 경우
# axis에 1을 적용해야 열에서 labels에 있는 데이터 열들을 찾아서 삭제해준다

titanic_df.drop(labels=['Name', 'Sex', 'Ticket', 'Cabin', 'Embarked'],axis=1).corr()