분류 전체보기 461

[Pandas - Python] Pandas 라이브러리와 함수 적용

기본 데이터 import pandas as pd df = pd.read_excel('score.xlsx', index_col = '지원번호') df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580NaN 5번강백호북산고1881520103510NaN 6번변덕규능남고20280100958580C 7번황태산능남고1885565454035PYTHON 8번윤대협능남고19010085909595C# 1. apply 함수 위의 데이터의 학교 column에 + '등학교'를 붙이면 어떻게 될까요? df['학교'] += '등학교' df 이름..

[Pandas - Python] Pandas 라이브러리와 데이터 수정(Column과 Row, Cell)

기본적인 데이터 import pandas as pd df = pd.read_excel('score.xlsx', index_col = '지원번호') df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580NaN 5번강백호북산고1881520103510NaN 6번변덕규능남고20280100958580C 7번황태산능남고1885565454035PYTHON 8번윤대협능남고19010085909595C# 1. Column column 수정 (replace) 학교 column에서의 북산고를 산북고로 바꿔보겠습니다. 이때 딕셔너리 형태로 ..

[Pandas - Python] Pandas 라이브러리와 결측치 및 데이터 정렬(fillna, sort_values, sort_index)

이번 시간에는 결측치 채우기 및 데이터 정렬에 대해 알아보겠습니다. 음... 사실 보간법은 아직까지 공부하질 않아서 잘 모르겠네요 .. 사실 결측치 해봤자 fillna함수를 쓰는 것 뿐입니다. 아직 초보라.. 따라서 제대로 된 보간법에 대해서 공부하시고 싶으신 분들은 다른 내용을 찾아보시는 게 좋을 것 같습니다. import pandas as pd df = pd.read_excel('score.xlsx', index_col = '지원번호') df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580NaN 5번강백호북산고1..

[Pandas - Python] Pandas 라이브러리와 데이터 검색(조건)

저번 시간까지 기본, loc, iloc를 이용해서 데이터를 검색하는 법에 대해 공부했었습니다. 이번 시간부터는 특정한 조건에 해당하는 데이터를 검색하는 방법을 알아보겠습니다. 생각보다 어렵지 않습니다. import pandas as pd df = pd.read_excel('score.xlsx', index_col='지원번호') df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580NaN 5번강백호북산고1881520103510NaN 6번변덕규능남고20280100958580C 7번황태산능남고1885565454035PYTH..

[Pandas - Python] Pandas 라이브러리와 데이터의 선택(loc, iloc)

앞의 데이터의 선택 (기본) 에서는 column을 기준으로 데이터를 선택했습니다. 이번 loc, iloc에서는 행을 기준으로 데이터를 선택해보겠습니다. import pandas as pd df = pd.read_excel('score.xlsx', index_col = '지원번호') df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580NaN 5번강백호북산고1881520103510NaN 6번변덕규능남고20280100958580C 7번황태산능남고1885565454035PYTHON 8번윤대협능남고19010085909595C..

[Pandas - Python] Pandas 라이브러리와 데이터 확인 및 선택(기본)

이번에는 그냥 간단히 데이터를 확인하고 선택하는 방법에 대해서만 알아보겠습니다. 아마 외우는게 주가 될 것 같네요. import pandas as pd df = pd.read_excel('score.xlsx', index_col='지원번호') df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580NaN 5번강백호북산고1881520103510NaN 6번변덕규능남고20280100958580C 7번황태산능남고1885565454035PYTHON 8번윤대협능남고19010085909595C# describe() df.descri..

[Pandas - Python] Pandas 라이브러리와 파일 저장 및 열기(excel, csv, txt)

1. excel, csv, txt의 차이 excel과 txt는 많은 분들이 아실거라고 생각합니다. csv가 조금 생소하실 수 있는데, csv란 것은 ,(쉼표)로 구분된 값, 일반 텍스트 파일입니다. 텍스트들을 쉼표로 구분합니다. 이때, text파일 즉 메모장에서 열면 이런 형태로 나오지만, csv파일을 excel에서 열면, 이런 식으로 나타납니다. 쉽게 말해서, excel로도 열 수 있지만, 이미지나 다른게 없이 오로지 텍스트로만 이루어졌기 때문에, csv의 장점은 excel보다는 용량이 작고, 광범위하게 지원되는 것이 장점이고, 단점은 excel에 비해 많은 작업을 할 수 없다는게 단점입니다. 2. 파일 저장 csv 파일로 저장 df.to_csv('score.csv', encoding='utf-8-si..

[Pandas - Python] Pandas 라이브러리와 Index 정리

1. Index의 이름을 설정하는 법 df.index.name df.index.name = '지원번호' df 이름학교키국어영어수학과학사회SW특기 지원번호 1번채치수북산고19790851009585Python 2번정대만북산고1844035505525Java 3번송태섭북산고1688075708075Javascript 4번서태웅북산고1874060707580 5번강백호북산고1881520103510 6번변덕규능남고20280100958580C 7번황태산능남고1885565454035PYTHON 8번윤대협능남고19010085909595C# 이렇게 index.name을 하면 쉽게 index의 이름을 설정할 수 있습니다. df.rename_axis() print(df.rename_axis('학급 번호')) 를 통해 일시적으로 ..

[Pandas] Pandas 라이브러리와 DataFrame

이번 시간에는 Pandas라이브러리의 DataFrame을 만들어보겠습니다. DataFrame이란 2차원 배열 데이터를 의미하며, 앞에서 공부한 Series들의 집합이라고 할 수 있겠네요. 1. 시작하기에 앞서 data를 슬램덩크 8명에 대한 데이터로 한 번 만들어 보겠습니다. data = { '이름' : ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'], '학교' : ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'], '키' : [197, 184, 168, 187, 188, 202, 188, 190], '국어' : [90, 40, 80, 40, 15, 80, 55, 100], '영어' : [85, 35..

[Pandas] Pandas 라이브러리와 Series

빅 데이터와 관련된 내용은 주피터 노트북을 이용해서 공부하였습니다. 1. Pandas란? Pandas 라이브러리란 데이터를 다루기 위한 라이브러리입니다. 용량이 큰 데이터를 안정적으로 다룰 수 있고, 2차원 데이터를 쉽고 간편하게 다룰 수 있습니다. 그래서 보통 Python에서 데이터 공부를 한다고 하면 대부분 Pandas를 이용하곤 합니다. 근데 중요한건 빅 데이터에 대한 공부지 라이브러리를 공부하는게 아니라고 생각합니다. 하여튼 Pandas를 통해서 데이터를 공부하겠습니다. 2. 설치 주피터 노트북을 이용하기 때문에 사실 pip install이나 Setting을 통해 설치해줄 필요가 없습니다. 그냥 주피터 노트북에서 import pandas as pd 라는 문장 하나면 알아서 import해줍니다. 근..