티스토리 뷰

 

[오늘의 강의 이야기]

 

[1] 작업을 할 때는 output을 모두 지우고 실행할 것.

-어디까지 실행 되어있는지 명확히 알 수 없기 때문.

 

[2] pandas, numpy, matplotlib.pyplot 의 역할

-분석, 계산, 시각화

 

[3] 설치했음에도 import를 했을 때 'No Module Not Found' 오류가 발생하는 이유는?

-여러 버전의 파이썬 혹은 아나콘다 등이 설치되어 있는데, 현재 사용하고 있는

 위치가 아닌 다른 위치에 설치되었을 때 오류가 발생.

-보통 오류 메세지에 어느 경로가 없다는 메세지가 나오는데, 해당 경로에 가서

 사용하고자 하는 라이브러리를 다운로드 받아 옮겨주면 import가 됨.

-(base) : 아나콘다의 기본 가상환경이라서 여기에 설치해주면 문제가 적게 발생함.

☆ 모듈을 가져오는 경로를 보는 방법

 : import sys 후 sys.path를 입력해주면 경로가 표시됨.

 

[4] pip 파일을 만들 때에는 ipynb보다 py 파일로 만듦.

- 대개 ipynb는 예제 파일을 만들때 사용

 

[5] 실습 파일과 데이터 파일의 위치

-실습 파일이 있는 경로에 'data' 폴더를 두어 데이터 파일을 두는 것을 추천.

 

[6] df.index를 사용했던 실습

-max값과 min 값 찾기

-date_range로 인덱스 생성하기

-숫자 요일을 한글 요일로 변경하기

-상세 페이지를 수집할 때 여러 개를 concat하기 위해 인덱스 값을 변경해주기

 

[7] column을 불러올 때 대괄호의 개수 ☆☆

-1차원 Seires는 대괄호 하나, 2차원 DataFrame은 대괄호 두 개를 씌워야 함.

 

[8] Jupyter 환경에서 도움말 보는 단축키

-shift + tab 키

-?

-소스코드는 ??

 

[9] 메서드 체이닝을 해서 도움말이 잘 동작하지 않을 때는?

-help()로도 볼 수 있음

-해당 소스만 떼어서 ? 를 붙여 도움말을 봄

 

[10] 히스토그램을 통해 얻을 수 있는 정보

-데이터의 대칭성과 경과에 따른 변화 분석 가능 (시간 데이터 있을 경우)

-수치형 데이터의 끊어진 데이터가 있음을 확인 가능

-수치형, 범주형 상관없이 해당 변수의 빈도 수를 알 수 있음

 

[11] 그래프의 보조선

-plt.axhline : h는 가로선 (horizontal)

-plt.axvline : v는 세로선 (vertical)

 

[12] 범주형 데이터와 연속된 수치 데이터의 그래프

- 막대 그래프 : 범주형 데이터

-선 그래프 : 연속된 수치 데이터 에서 주로 사용

 

[13] pd.crosstab() 과 pivot_table()

-pd.crosstab() 소스코드를 보면 내부가 pd.pivot_table()로 되어있음.

-pivot_table을 사용하기 쉽게 한 번 더 감싸놓은 기능.

-pd.crosstab()에 비해 pivot_table()을 사용하면 더 많은 기능을 사용할 수 있음

 

[14] pivot()과 pivot_table()

-공통점 : index, columns, values를 사용할 수 있음

-차이점 pivot() : 형태 변환만 제공

-차이점 pivot_table() : 연산을 함께 제공. aggfunc 등의 기능을 제공. 내부가 group by로 되어있음.

-pivot_table() : group by를 사용하기 쉽게 엑셀용어로 만들어 놓은 것.

 

[15] 파이썬 익숙해지기

-아직 낯설 수 있지만 반복해서 연습하면 익숙해질 수 있다.

 

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2025/11   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30
글 보관함