BIG DATA 4

[Pandas - Python] Pandas 라이브러리와 그룹화

기본 데이터 import pandas as pd df = pd.read_excel('score.xlsx', index_col = '지원번호') df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580NaN 5번강백호북산고1881520103510NaN 6번변덕규능남고20280100958580C 7번황태산능남고1885565454035PYTHON 8번윤대협능남고19010085909595C# 1. groupby 함수 df.groupby('학교') 이렇게 '학교'를 기준으로 그룹화를 하면 밑에처럼 나옵니다. 이때, 원하시는 값에..

[Pandas - Python] Pandas 라이브러리와 데이터 확인 및 선택(기본)

이번에는 그냥 간단히 데이터를 확인하고 선택하는 방법에 대해서만 알아보겠습니다. 아마 외우는게 주가 될 것 같네요. import pandas as pd df = pd.read_excel('score.xlsx', index_col='지원번호') df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580NaN 5번강백호북산고1881520103510NaN 6번변덕규능남고20280100958580C 7번황태산능남고1885565454035PYTHON 8번윤대협능남고19010085909595C# describe() df.descri..

[Pandas - Python] Pandas 라이브러리와 Index 정리

1. Index의 이름을 설정하는 법 df.index.name df.index.name = '지원번호' df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580 5번강백호북산고1881520103510 6번변덕규능남고20280100958580C 7번황태산능남고1885565454035PYTHON 8번윤대협능남고19010085909595C# 이렇게 index.name을 하면 쉽게 index의 이름을 설정할 수 있습니다. df.rename_axis() print(df.rename_axis('학급 번호')) 를 통해 일시적으로 ..

[Pandas] Pandas 라이브러리와 Series

빅 데이터와 관련된 내용은 주피터 노트북을 이용해서 공부하였습니다. 1. Pandas란? Pandas 라이브러리란 데이터를 다루기 위한 라이브러리입니다. 용량이 큰 데이터를 안정적으로 다룰 수 있고, 2차원 데이터를 쉽고 간편하게 다룰 수 있습니다. 그래서 보통 Python에서 데이터 공부를 한다고 하면 대부분 Pandas를 이용하곤 합니다. 근데 중요한건 빅 데이터에 대한 공부지 라이브러리를 공부하는게 아니라고 생각합니다. 하여튼 Pandas를 통해서 데이터를 공부하겠습니다. 2. 설치 주피터 노트북을 이용하기 때문에 사실 pip install이나 Setting을 통해 설치해줄 필요가 없습니다. 그냥 주피터 노트북에서 import pandas as pd 라는 문장 하나면 알아서 import해줍니다. 근..