티스토리 뷰
[1] import 정도만 손을 봐도 트래픽비용이 줄어들 수고 있고, 캐시를 어떻게 사용하느냐, 파일 I/O 관리, 데이터베이스 관리 등에 따라 비용이 달라지게 됩니다.
=> 트래픽을 분석이나 관리해 주는 도구도 있습니다. 인프라에서 나오는 로그 데이터를 따로 분석하기도 합니다.
[2] isin과 str.contains()의 차이점
-isin : 정확히 일치해야함, 리스트 형태에만 사용가능.
-str.contains() : 일부만 포함되어있어도 됨.
[3] heatmap 과 style.background_gradient()
-heatmap : 전체 스케일 비교에 적절 (합계를 제외하고 그리면 => 색 차이가 더 잘드러나게 됨)
-style.background_gradient() : 각 변수별 비교에 적절.
[4] concat, marge, join
-기본값 사용 전제 시
-concat()
-marge()
-join()
[5] crosstab, pivot_table, groupby
-crosstab : 두 개의 기준을 설정하지 못함 => pivot_table 사용
**오늘의 복습 : 여러 가지 방법으로 버거지수 구하기
[6] 결측치가 많은 데이터를 사용하는 방법 : binning
-구간화(binning) ex) 나이결측치를 나이대로 범주화하는 것.
-보통 시각화할 때 결측치를 제회하고 시각화를 함 (bin= )
-DB에서 설정할 때 결측치는 null로 관리하지만 가끔 -1로 표기하는 실수를 하기도 함. (연산시 오류연산 유도)
<오답노트>
1) 판다스를 통해 두 개의 변수에 대한 빈도 수를 구할 수 없는 것 : pivot()
- crosstab(), groupby(), pivot_table()은 가능함.
- pivot()은 형태만 변경하고 연산을 하는 기능이 없다.
2) pivot_table이란?
- pivot_table과 pivot의 가장 큰 차이점은 연산을 할 수 있는지의 여부다.
- pivot_table의 aggfunc의 기본값은 평균(mean)이다.
- 난이도 : groupby > pivot_table > crosstab
3) unstack()이란?
- groupby를 통해 여러 컬럼으로 그룹화하여 연산을 하여 생성된 멀티인덱스의
마지막 인덱스 값을 컬럼으로 만들 때 사용
4) 범주형 변수를 산점도로 표현할 때 적합한 plot
- stripplot()
- swarmplot()
- scatterplot()은 수치형 변수표현에 적합하다. 범주형을 표현하게 되면 점이 겹쳐져서 보기 어려움.
5) 범주형 변수와 수치형 변수를 함께 표현하기에 적합한 plot
- boxplot, violinplot, barplot, pointplot
- scatterplot은 두 수치형 변수간의 관계를 표현하기에 적합함.
'멋쟁이 사자처럼 > 그 외' 카테고리의 다른 글
0417 질문 모음 (0) | 2023.04.17 |
---|---|
8주차 화요일 [데일리 키워드] (0) | 2023.02.07 |
8주차 월요일 [데일리 키워드] (0) | 2023.02.06 |
7주차 수요일 [데일리 키워드] (0) | 2023.02.01 |
7주차 화요일 [데일리 키워드] (0) | 2023.01.31 |