Notice
Recent Posts
Recent Comments
Link
반응형
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 파이썬 가상환경
- WAS란
- string format
- 트레이딩 봇 만들기
- 오라클
- 프로그래머스
- beautifulsoup
- pybithumb
- JSON특징
- JavaScript Obejct Notation
- 리눅스
- JSON 형식
- BigDecimal
- java
- Web Service Architecture
- 변동성 돌파전략
- spring
- Python
- 파이썬
- 프로그래머스 소수
- 단순 반복 자동화
- 리눅스 rwx
- 즐겨찾기가 가장 많은 식당 정보 출력하기
- Web Server란
- 빗썸 API 사용
- WAS WebServer 차이
- 프로그래머스 SQL
- 와스 웹서버의 차이
- 파이썬 주식
- 리눅스 777
Archives
- Today
- Total
IT 개발자_S
파이썬 데이터 분석 결측치 확인하기 본문
반응형
● 파이썬 데이터 분석 시 데이터의 결측치를 확인할 수 있다.
파이썬을 활용한 데이터 분석 단계 중 먼저 선행해야 할 단계가 데이터의 결측치를 확인하는 일이다.
모든 데이터가 원하는 범주안에 정확한 데이터가 있으면 좋겠지만 현실과 이상은 많이 다르다
원하는 형태의 데이터가 아닌 정상적인 데이터의 형태가 아닌 다른 데이터가 인입될 수 있는데
이때 우리가 해야할일은 데이터 분석 전에 데이터의 결측치가 있는지 , 사전에 확인 해야 할 필요가 있다.
데이터의 결측치를 확인하는 방법은 다음과 같다.
# 데이터 이상치 확인하기
import pandas as pd
students = pd.read_csv("/content/drive/My Drive/Colab Notebooks/data/students.csv")
students
먼저 데이터를 살펴보면 english , math , class 열이 있는데
class 는 1과 2로 관리해야되는 데이터인데 A 라는 데이터 결측치를 확인할 수 있고
math, english 데이터 값중 평균보다 너무 동 떨어진 데이터인 20을 확인할 수 있다.
이를 확인하는 코드는 다음과 같다.
위와 같이 코드로 확인할 수 있는 방법과
시각화 하여 볼 수 있는 방법은 아래와 같다.
matplotlib 를 사용하여 확인해보자.
# Basic box plot
import matplotlib.pyplot as plt
%matplotlib inline
a =plt.boxplot(students['english'])
plt.show()
반응형
'IT > 파이썬' 카테고리의 다른 글
트레이딩 봇 만들어서 부자되기 프로젝트 -02 목표가 설정하기 (0) | 2020.12.14 |
---|---|
파이썬 데이터 분석 시각화 방법 matplotlib (0) | 2020.10.31 |
파이썬 Pandas를 이용한 데이터 분석 (지하철 데이터 분석) (0) | 2020.10.24 |
파이썬 셀레늄 Selenium 크롤링하기 (0) | 2020.10.24 |
파이썬 예외처리시 어떻게 처리할까? (0) | 2020.10.24 |
Comments