빅 데이터 10

[Matplotlib - Python] Matplotlib 라이브러리와 파일 저장, 텍스트 처리, 여러 데이터 처리

기본 데이터 import pandas as pd import matplotlib.pyplot as plt import matplotlib matplotlib.rcParams['font.family'] = 'Malgun Gothic' # Windows # matplotlib.rcParams['font.family'] = 'AppleGothic' # Mac matplotlib.rcParams['font.size'] = 15 matplotlib.rcParams['axes.unicode_minus'] = False x = [1, 2, 3] y = [2, 4, 8] 1. 파일 저장 plt.figure(dpi = 200) plt.plot(x,y) plt.savefig('graph.png', dpi = 100) 이렇..

[Matplotlib - Python] Matplotlib 라이브러리와 꺾은 선 그래프의 여러 설정들

기본 데이터 import matplotlib.pyplot as plt import matplotlib matplotlib.rcParams['font.family'] = 'Malgun Gothic' matplotlib.rcParams['font.size'] = 15 matplotlib.rcParams['axes.unicode_minus'] = False x = [1, 2, 3] y = [2, 4, 8] 아 참고로 title에도 따로 폰트와 size를 설정할 수 있습니다. plt.title('꺽은 선 그래프', fontdict={'family': 'HYGungSo-Bold', 'size':20}) 참고로 fontdict을 쓰지 않고도, plt.title('꺽은 선 그래프', family= 'HYGungSo-..

[Pandas - Python] Pandas 라이브러리와 그룹화

기본 데이터 import pandas as pd df = pd.read_excel('score.xlsx', index_col = '지원번호') df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580NaN 5번강백호북산고1881520103510NaN 6번변덕규능남고20280100958580C 7번황태산능남고1885565454035PYTHON 8번윤대협능남고19010085909595C# 1. groupby 함수 df.groupby('학교') 이렇게 '학교'를 기준으로 그룹화를 하면 밑에처럼 나옵니다. 이때, 원하시는 값에..

[Pandas - Python] Pandas 라이브러리와 데이터 수정(Column과 Row, Cell)

기본적인 데이터 import pandas as pd df = pd.read_excel('score.xlsx', index_col = '지원번호') df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580NaN 5번강백호북산고1881520103510NaN 6번변덕규능남고20280100958580C 7번황태산능남고1885565454035PYTHON 8번윤대협능남고19010085909595C# 1. Column column 수정 (replace) 학교 column에서의 북산고를 산북고로 바꿔보겠습니다. 이때 딕셔너리 형태로 ..

[Pandas - Python] Pandas 라이브러리와 결측치 및 데이터 정렬(fillna, sort_values, sort_index)

이번 시간에는 결측치 채우기 및 데이터 정렬에 대해 알아보겠습니다. 음... 사실 보간법은 아직까지 공부하질 않아서 잘 모르겠네요 .. 사실 결측치 해봤자 fillna함수를 쓰는 것 뿐입니다. 아직 초보라.. 따라서 제대로 된 보간법에 대해서 공부하시고 싶으신 분들은 다른 내용을 찾아보시는 게 좋을 것 같습니다. import pandas as pd df = pd.read_excel('score.xlsx', index_col = '지원번호') df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580NaN 5번강백호북산고1..

[Pandas - Python] Pandas 라이브러리와 데이터 검색(조건)

저번 시간까지 기본, loc, iloc를 이용해서 데이터를 검색하는 법에 대해 공부했었습니다. 이번 시간부터는 특정한 조건에 해당하는 데이터를 검색하는 방법을 알아보겠습니다. 생각보다 어렵지 않습니다. import pandas as pd df = pd.read_excel('score.xlsx', index_col='지원번호') df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580NaN 5번강백호북산고1881520103510NaN 6번변덕규능남고20280100958580C 7번황태산능남고1885565454035PYTH..

[Pandas - Python] Pandas 라이브러리와 데이터의 선택(loc, iloc)

앞의 데이터의 선택 (기본) 에서는 column을 기준으로 데이터를 선택했습니다. 이번 loc, iloc에서는 행을 기준으로 데이터를 선택해보겠습니다. import pandas as pd df = pd.read_excel('score.xlsx', index_col = '지원번호') df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580NaN 5번강백호북산고1881520103510NaN 6번변덕규능남고20280100958580C 7번황태산능남고1885565454035PYTHON 8번윤대협능남고19010085909595C..

[Pandas - Python] Pandas 라이브러리와 데이터 확인 및 선택(기본)

이번에는 그냥 간단히 데이터를 확인하고 선택하는 방법에 대해서만 알아보겠습니다. 아마 외우는게 주가 될 것 같네요. import pandas as pd df = pd.read_excel('score.xlsx', index_col='지원번호') df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580NaN 5번강백호북산고1881520103510NaN 6번변덕규능남고20280100958580C 7번황태산능남고1885565454035PYTHON 8번윤대협능남고19010085909595C# describe() df.descri..

[Pandas - Python] Pandas 라이브러리와 Index 정리

1. Index의 이름을 설정하는 법 df.index.name df.index.name = '지원번호' df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580 5번강백호북산고1881520103510 6번변덕규능남고20280100958580C 7번황태산능남고1885565454035PYTHON 8번윤대협능남고19010085909595C# 이렇게 index.name을 하면 쉽게 index의 이름을 설정할 수 있습니다. df.rename_axis() print(df.rename_axis('학급 번호')) 를 통해 일시적으로 ..

[Pandas] Pandas 라이브러리와 Series

빅 데이터와 관련된 내용은 주피터 노트북을 이용해서 공부하였습니다. 1. Pandas란? Pandas 라이브러리란 데이터를 다루기 위한 라이브러리입니다. 용량이 큰 데이터를 안정적으로 다룰 수 있고, 2차원 데이터를 쉽고 간편하게 다룰 수 있습니다. 그래서 보통 Python에서 데이터 공부를 한다고 하면 대부분 Pandas를 이용하곤 합니다. 근데 중요한건 빅 데이터에 대한 공부지 라이브러리를 공부하는게 아니라고 생각합니다. 하여튼 Pandas를 통해서 데이터를 공부하겠습니다. 2. 설치 주피터 노트북을 이용하기 때문에 사실 pip install이나 Setting을 통해 설치해줄 필요가 없습니다. 그냥 주피터 노트북에서 import pandas as pd 라는 문장 하나면 알아서 import해줍니다. 근..