IT 개발자_S

파이썬 Pandas를 이용한 데이터 분석 (지하철 데이터 분석) 본문

IT/파이썬

파이썬 Pandas를 이용한 데이터 분석 (지하철 데이터 분석)

Soso12 2020. 10. 24. 15:36
반응형

● Pandas를 이용하여 데이터를 분석 할 수 있다.

● 실습 프로젝트 지하철 데이터 분석

● 실습 개요는 아래와 같음

  lab01_subway2013.csv    :   서울교통공사 지하철 환승역 환승인원 정보 csv 파일이다.  

1)  지하철 파일을 읽고, 5행만 출력 

2)  행 제목만 출력

3)  열 제목만 출력

4)  “평일” 환승인원을 기준으로 오름차순 정렬하여 출력

5)(제외) 신도림, 잠실 ,영등포구청 역 정보만 출력 

6)  토요일 환승 인원이 100000명 이상의 역의 역명과 다른 요일 환승인원 출력 

7)  일요일 환승 인원만 역명과 함께 출력 

8)  11~20번째 행의 일요일 환승 인원만 역명과 함께 출력 

 

 

해당 글에서는 파이썬 Pandas를 활용하여 데이터 분석 실습을 알아보는 시간을 가지겠습니다.

해당 실습 데이터는 지하철 데이터를 활용

Pandas란 파이썬에서 데이터 분석을 편리하게 해주는 데이터 프레임 형태로 데이터를 관리할 수 있는 함수이다.

 

import pandas as pd

subway = pd.read_csv("/content/drive/My Drive/Colab Notebooks/chapter03/lab01_subway2013.csv", encoding="utf-8")

 

2,3번 

 

4)	“평일” 환승인원을 기준으로 오름차순 정렬하여 출력
subway.sort_values(by='평일') # 점수 기준 오름 차순 정렬 

#5)(제외) 신도림, 잠실 ,영등포구청 역 정보만 출력 
subway[ ( subway["역명"] == '신도림' )| ( subway["역명"] == '잠실' ) | ( subway["역명"] == '영등포구청' )] 

 

# 토요일 환승 인원이 100000명 이상의 역의 역명과 다른 요일 환승인원 출력 

subway[ (subway["토요일"] >1000) ]

#7)	일요일 환승 인원만 역명과 함께 출력 


subway.loc[: ,('역명', '일요일')] .sort_values(by='일요일' , ascending=False)

 

 

#8)	11~20번째 행의 일요일 환승 인원만 역명과 함께 출력 


subway.loc[11:20, ('역명', '일요일')].sort_values(by='일요일' , ascending=False)

#9)	역명만 출력.  단 중복해서 출력하지는 말 것.  
subway['역명'].unique() 

반응형
Comments