티스토리 뷰
[1] .copy()를 사용할 때 어디에서 불러서 사용하는지 확인하는 방법
- .copy() 앞에 붙은 객체가 무엇인지 확인 (type() 활용)
- shift + tab 도움말로 구분
[2] sns.heatmap()과 df.style.background_gradient()의 차이점
- sns.heatmap() :
- df.style.background_gradient() : 성질이 다른 각 변수를 각각 비교하고자 할 때 적합
(변수에 체중, 키, BMI지수 등 스케일값이 다르고 성질이 다른 값 비교)
[3] groupby로 할 수 있는 것을 pivot_table 로도 대부분 구현이 가능한 이유
- pivot_table 소스코드에 groupby가 포함되어 있음
- pivot_table이 groupby의 하이레벨 인터페이스
- 자유도 : groupby > pivot_table > crosstab
[4] boxplot과 violinplot
- boxplot: 사분위수 표현이 고정되어 있어 내부의 값이 바뀌어도 형태가 변하지 않음
- violinplot: boxplot의 해당 부분을 보완해주는 plot, boxplot을 포함한 개념임. (중앙값 표시 되어있음)
밀도를 표시하는 plot, 카테고리값에 따른 각 분포의 실제 데이터 또는 전체 형상을 보여줌.
[5] 수치데이터 분석할 때
- 가장 먼저 히스토그램 보기
- pairplot: 데이터 분포 확인. 짝을 지어 볼 수 있음
- 상관관계 파악하여 tidy data로 만들어 분석하기. .copy()로 깊은 복사를 하게 되면 원본에 영향 x
- transpose(), .T : 막대그래프를 대표값만 표시해줌
[6] pandas 시각화의 장점
- 계산기능을 제공하지 않음 => 연산 후 시각화하여 속도가 느리지 않음
- pandas는 데이터프레임이나 Series에 바로 적용할 수 있다는 장점이 있음.
[7] describe()와 describe(include='O')
- describe() : 숫자형 데이터에 대해서만 기술통계를 보여줌
- describe(include='O') : 문자형 데이터에 대한 기술통계를 보여줌 (O = object)
[8] kosis 데이터를 볼 때 주의할 점
- 제공된 데이터가 평균인지 합계인지 구분할 필요가 있음
- 평균을 합계내면 값이 왜곡될 수 있기 때문 !!
[9] nlargest와 nsmallest (pandas)
- df.nlargest(n, 'value') : sort_values(ascending=False).head(n) 과 같지만 전자를 선호함
- df.nsmallist(n, 'value') : sort_values().head(n)과 같음
[10] seaborn에서의 연산
- 막대그래프에 대한 연산 : barplot (px.bar: 연산지원x)
- histogram : 수치, 범주형을 모두 표현할 수 있음. (px.histogram: histfunc으로 연산지원하나 오래걸려서 비추.)
- seaborn과 pandas에서 histogram은 수치데이터만 제공함.
[11] 범주형데이터와 수치형데이터의 집계연산 기본값
- 범주형데이터 : count
- 수치형데이터 : sum (x) mean
[12] 시각화의 기반
- matplotlib : pandas, seaborn
- plotly : javascript
[13] FacetGrid와 PairGrid의 차이점
- FacetGrid : 하나의 범주형 변수를 쪼개고 나눠서 시각화 ex_relplot, joinplot, displot, catplot
- PairGrid : 여러 변수를 비교해서 서브플롯 사각화 ex_pairplot
[14] glob.glob을 쓰는 이유
- import glob : glob 모듈만 불러오기 때문에 glob.glob()을 사용하여 함수를 불러와야 함
- from glob import glob : glob 모듈에서 glob()함수를 불러옴 => glob()만을 사용해 바로 불러올 수 있음.
[15] 자료를 불러올 때 [ ], ( )의 차이점
-리스트 [ ], 제너레이터 컴프리헨션 ( )
-리스트 : 필요한 데이터 용량을 모두 확보한 후 로드를 시작 (반복문 사용시 17개 목록 => 17개의 용량 필요)
-제너레이터 : 순회 1번에 필요한 데이터 용량만 확보하여 작동 (반복문 사용시 1개의 용량만 필요)
'멋쟁이 사자처럼 > 그 외' 카테고리의 다른 글
0417 질문 모음 (0) | 2023.04.17 |
---|---|
8주차 수요일 데일리 키워드 (0) | 2023.02.08 |
8주차 월요일 [데일리 키워드] (0) | 2023.02.06 |
7주차 수요일 [데일리 키워드] (0) | 2023.02.01 |
7주차 화요일 [데일리 키워드] (0) | 2023.01.31 |