일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- IoC
- object
- Thread
- 쓰레드
- 항해99장점
- 스레드
- 소셜로그인
- 클래스
- 인스턴스
- 항해99단점
- 항해99솔직후기
- social login
- Instance
- inversion of control
- class
- 객체
- jwt
- 오브젝트
- bean
- 회고록
- 인스턴스화
- API
- 객체지향 프로그래밍
- Dependency Injection
- process
- 부트캠프추천
- DI
- jvm
- 소셜
- 프로세스
- Today
- Total
로운's 기술노트
[문법] Pandas (외부 라이브러리) 본문
파이썬에는 수 많은 외부 라이브러리가 있다.
그 중 많이 사용되는 것은 아래 10가지 정도가 있는데,(용도나 환경에 따라 다름)
오늘은 Pandas와 자주 쓰이는 함수에 대해 알아보자
- NumPy: 과학적 계산을 위한 다차원 배열 지원 및 함수 라이브러리
- Pandas: 데이터 조작 및 분석을 위한 유연하고 빠른 데이터 구조 및 함수를 제공하는 라이브러리
- Matplotlib: 데이터 시각화를 위한 풍부한 기능을 제공하는 라이브러리
- Scikit-learn: 기계 학습 및 데이터 분석을 위한 간단하고 효율적인 도구 모음
- TensorFlow 및 PyTorch: 딥러닝 및 기계 학습을 위한 오픈 소스 라이브러리
- Flask 및 Django: 웹 개발을 위한 각각 경량 및 전체 스택 프레임워크
- Requests: HTTP 요청을 보내고 응답을 처리하기 위한 사용하기 쉬운 라이브러리
- Beautiful Soup: 웹 스크래핑 및 데이터 추출을 위한 파싱 라이브러리
- SQLAlchemy: SQL 데이터베이스와 상호 작용하기 위한 유연하고 ORM (객체 관계 매핑) 라이브러리
- Keras: 딥러닝 모델을 쉽게 구축하고 실험할 수 있는 사용하기 쉬운 고수준 딥러닝 API
ㅇ 판다스 함수
1. read_csv() : CSV 파일을 읽어 데이터프레임 형식으로 로드
df = pd.read_csv('file.csv')
print(df.head())
2. head() : 데이터프레임의 처음 일부를 반환하여 데이터를 빠르게 색인
print(df.head(10)) # 상위 10개의 행 출력
3. info() : 데이터프레임에 대한 요약 정보를 표시(데이터 타입, 열 개수, 비어 있지 않은 값의 수 등).
print(df.info())
4. describe() : 숫자 열의 기술 통계를 제공(평균, 표준편차, 최소값, 최대값 등).
print(df.describe())
5. value_counts() : 범주형 열의 각 고유 값의 빈도를 계산
print(df['column'].value_counts())
6. groupby() : 열 기준으로 데이터를 그룹화하고 그룹별 집계 연산을 수행
print(df.groupby('column').mean())
7. dropna() : 결측치를 포함하는 행이나 열을 제거
print(df.dropna())
8. fillna() : 결측치를 지정된 값으로 치환
print(df.fillna(0))
9. merge() : 두 개의 데이터프레임을 병합(데이터베이스의 조인과 유사).
merged_df = pd.merge(df1, df2, on='key_column')
10. to_csv() : 데이터프레임을 CSV 파일로 내보냄
df.to_csv('output.csv', index=False)
11. loc() : 인덱스 라벨을 기반으로 행 또는 열을 선택하여 추출
print(df.loc['n:n(행)', '컬럼명'])
12. iloc() : 정수 위치를 기반으로 행 또는 열을 선택하여 추출
print(df.iloc[0, 1])
13. isnull() : 데이터프레임 또는 시리즈의 결측치를 불리언으로 표시
print(df.isnull())
14. notnull() : 데이터프레임 또는 시리즈의 결측치가 아닌 값을 불리언으로 표시
print(df.notnull())
15. to_dict() : 데이터프레임을 딕셔너리로 변환
print(df.to_dict())
16. rank() : 데이터프레임 또는 시리즈의 값을 순위로 변환
print(df.rank())
17. idxmin() : 최소값을 가진 인덱스 라벨을 반환
print(df['column'].idxmin())
18. idxmax() : 최대값을 가진 인덱스 라벨을 반환
print(df['column'].idxmax())
19. pd.cut() : 연속형 변수를 구간별로 나누어 범주형 변수로 변환
print(pd.cut(df['column'], bins=[0, 10, 20, 30], labels=['<10', '10-20', '20-30']))
※ 참조
pandas documentation — pandas 2.2.2 documentation (pydata.org)
[pandas] 데이터프레임 딕셔너리로 변환하기, df.to_dict('records') by bskyvision.com
[파이썬 pandas] 데이터의 순위를 구하는 rank() 함수 (tistory.com)
[ Python ] Pandas idxmin , idxmax, pd.cut 함수 알아보기 (tistory.com)
[Pandas] 데이터프레임 정렬하기(sort_index,sort_values) (tistory.com)
'내배캠_데이터분석가_'24.04~08 > 파이썬' 카테고리의 다른 글
딥러닝을 위한 GPU 세팅 (Window 기준) (0) | 2024.06.20 |
---|---|
[기초학습반] Python Challenge_5회차 (0) | 2024.06.05 |
[프로그래머스] x만큼 간격이 있는 n개의 숫자 (0) | 2024.06.01 |
[문법] Pandas2 (10 minutes to pandas) (0) | 2024.05.14 |
[문법] 내장 함수 (0) | 2024.05.06 |