로운's 기술노트

[문법] Pandas (외부 라이브러리) 본문

내배캠_데이터분석가_'24.04~08/파이썬

[문법] Pandas (외부 라이브러리)

로운's 2024. 5. 6. 18:03

 

파이썬에는 수 많은 외부 라이브러리가 있다.

그 중 많이 사용되는 것은 아래 10가지 정도가 있는데,(용도나 환경에 따라 다름) 

오늘은 Pandas와 자주 쓰이는 함수에 대해 알아보자

 

  • NumPy: 과학적 계산을 위한 다차원 배열 지원 및 함수 라이브러리
  • Pandas: 데이터 조작 및 분석을 위한 유연하고 빠른 데이터 구조 및 함수를 제공하는 라이브러리
  • Matplotlib: 데이터 시각화를 위한 풍부한 기능을 제공하는 라이브러리
  • Scikit-learn: 기계 학습 및 데이터 분석을 위한 간단하고 효율적인 도구 모음
  • TensorFlow 및 PyTorch: 딥러닝 및 기계 학습을 위한 오픈 소스 라이브러리
  • Flask 및 Django: 웹 개발을 위한 각각 경량 및 전체 스택 프레임워크
  • Requests: HTTP 요청을 보내고 응답을 처리하기 위한 사용하기 쉬운 라이브러리
  • Beautiful Soup: 웹 스크래핑 및 데이터 추출을 위한 파싱 라이브러리
  • SQLAlchemy: SQL 데이터베이스와 상호 작용하기 위한 유연하고 ORM (객체 관계 매핑) 라이브러리
  • Keras: 딥러닝 모델을 쉽게 구축하고 실험할 수 있는 사용하기 쉬운 고수준 딥러닝 API

 

ㅇ 판다스 함수

1. read_csv() :  CSV 파일을 읽어 데이터프레임 형식으로 로드

df = pd.read_csv('file.csv')
print(df.head())

 


2. head() :  데이터프레임의 처음 일부를 반환하여 데이터를 빠르게 색인

print(df.head(10))  # 상위 10개의 행 출력

 

3. info() :  데이터프레임에 대한 요약 정보를 표시(데이터 타입, 열 개수, 비어 있지 않은 값의 수 등).

print(df.info())

 

4. describe() :  숫자 열의 기술 통계를 제공(평균, 표준편차, 최소값, 최대값 등).

print(df.describe())

 

5. value_counts() :  범주형 열의 각 고유 값의 빈도를 계산

print(df['column'].value_counts())

 

6. groupby() :  열 기준으로 데이터를 그룹화하고 그룹별 집계 연산을 수행

print(df.groupby('column').mean())

 

7. dropna() :  결측치를 포함하는 행이나 열을 제거

print(df.dropna())

 

8. fillna() :  결측치를 지정된 값으로 치환

print(df.fillna(0))

 

9. merge() :  두 개의 데이터프레임을 병합(데이터베이스의 조인과 유사).

merged_df = pd.merge(df1, df2, on='key_column')

 

10. to_csv() :  데이터프레임을 CSV 파일로 내보냄

df.to_csv('output.csv', index=False)

 

11. loc() : 인덱스 라벨을 기반으로 행 또는 열을 선택하여 추출

print(df.loc['n:n(행)', '컬럼명'])

 

12. iloc() : 정수 위치를 기반으로 행 또는 열을 선택하여 추출

print(df.iloc[0, 1])

 

13. isnull() : 데이터프레임 또는 시리즈의 결측치를 불리언으로 표시

print(df.isnull())

 

14. notnull() : 데이터프레임 또는 시리즈의 결측치가 아닌 값을 불리언으로 표시

print(df.notnull())

 

15. to_dict() : 데이터프레임을 딕셔너리로 변환

print(df.to_dict())

 

16. rank() : 데이터프레임 또는 시리즈의 값을 순위로 변환

print(df.rank())

 

17. idxmin() : 최소값을 가진 인덱스 라벨을 반환

print(df['column'].idxmin())

 

18. idxmax() : 최대값을 가진 인덱스 라벨을 반환

print(df['column'].idxmax())

 

19. pd.cut() : 연속형 변수를 구간별로 나누어 범주형 변수로 변환

print(pd.cut(df['column'], bins=[0, 10, 20, 30], labels=['<10', '10-20', '20-30']))

 

 

※ 참조

pandas documentation — pandas 2.2.2 documentation (pydata.org)

 

pandas documentation — pandas 2.2.2 documentation

API reference The reference guide contains a detailed description of the pandas API. The reference describes how the methods work and which parameters can be used. It assumes that you have an understanding of the key concepts.

pandas.pydata.org

[pandas] 데이터프레임 딕셔너리로 변환하기, df.to_dict('records') by bskyvision.com

 

[pandas] 데이터프레임 딕셔너리로 변환하기, df.to_dict('records')

판다스 데이터프레임을 파이썬의 딕셔너리로 바꿔야하는 경우들이 종종 있습니다. 특히 판다스 데이터프레임으로 데이터 연산을 하다가 FastAPI와 같은 백엔드 서버로 그 값을 응답해야 하는 경

bskyvision.com

[파이썬 pandas] 데이터의 순위를 구하는 rank() 함수 (tistory.com)

 

[파이썬 pandas] 데이터의 순위를 구하는 rank() 함수

엑셀에 Rank 함수가 있는 것처럼 판다스에도 rank 함수가 존재합니다. 이 함수를 이용하면 수 목록 내에서 개별 수의 크기 순위를 손쉽게 계산할 수 있습니다. 이번에는 rank 함수를 사용하는 방법

hogni.tistory.com

[ Python ] Pandas idxmin , idxmax, pd.cut 함수 알아보기 (tistory.com)

 

[ Python ] Pandas idxmin , idxmax, pd.cut 함수 알아보기

데이터셋 만들기 from sklearn.datasets import load_iris import numpy as np import pandas as pd Iris = load_iris() concat = np.concatenate( (Iris.data , np.array(Iris.target).reshape(-1,1)) , axis = 1) data = pd.DataFrame(concat , columns = Iris.featu

data-newbie.tistory.com

[Pandas] 데이터프레임 정렬하기(sort_index,sort_values) (tistory.com)

 

[Pandas] 데이터프레임 정렬하기(sort_index,sort_values)

데이터프레임을 정렬하는 방법입니다. 데이터프레임은 인덱스(index)와 컬럼값(value)이 있는데 그에 맞게 정렬을 할 수 있습니다. 인덱스 정렬을 하려면 sort_index() 메쏘드를 컬럼의 값 정렬을 위해

seong6496.tistory.com

 

Comments