티스토리 뷰

 

 

[1] import 정도만 손을 봐도 트래픽비용이 줄어들 수고 있고, 캐시를 어떻게 사용하느냐, 파일 I/O 관리, 데이터베이스 관리 등에 따라 비용이 달라지게 됩니다.

=> 트래픽을 분석이나 관리해 주는 도구도 있습니다. 인프라에서 나오는 로그 데이터를 따로 분석하기도 합니다.

 

[2] isin과 str.contains()의 차이점

-isin : 정확히 일치해야함, 리스트 형태에만 사용가능.

-str.contains() : 일부만 포함되어있어도 됨.

 

[3] heatmap 과 style.background_gradient()

-heatmap : 전체 스케일 비교에 적절 (합계를 제외하고 그리면 => 색 차이가 더 잘드러나게 됨)

-style.background_gradient() : 각 변수별 비교에 적절.

 

[4] concat, marge, join

-기본값 사용 전제 시

-concat()

-marge()

-join()

 

 

[5] crosstab, pivot_table, groupby

-crosstab : 두 개의 기준을 설정하지 못함 => pivot_table 사용

 

**오늘의 복습 : 여러 가지 방법으로 버거지수 구하기

 

 

[6] 결측치가 많은 데이터를 사용하는 방법 : binning

-구간화(binning)   ex) 나이결측치를 나이대로 범주화하는 것.

-보통 시각화할 때 결측치를 제회하고 시각화를 함 (bin= )

-DB에서 설정할 때 결측치는 null로 관리하지만 가끔 -1로 표기하는 실수를 하기도 함. (연산시 오류연산 유도)

 

 

 

 

 

 

<오답노트>

 

1) 판다스를 통해 두 개의 변수에 대한 빈도 수를 구할 수 없는 것  : pivot()

  • crosstab(), groupby(), pivot_table()은 가능함.
  • pivot()은 형태만 변경하고 연산을 하는 기능이 없다.

 

2) pivot_table이란?

  • pivot_table과 pivot의 가장 큰 차이점은 연산을 할 수 있는지의 여부다.
  • pivot_table의 aggfunc의 기본값은 평균(mean)이다.
  • 난이도 : groupby > pivot_table > crosstab

 

3) unstack()이란?

  • groupby를 통해 여러 컬럼으로 그룹화하여 연산을 하여 생성된 멀티인덱스의
    마지막 인덱스 값을 컬럼으로 만들 때 사용

 

4) 범주형 변수를 산점도로 표현할 때 적합한 plot

  • stripplot()
  • swarmplot()
  • scatterplot()은 수치형 변수표현에 적합하다. 범주형을 표현하게 되면 점이 겹쳐져서 보기 어려움.

 

5) 범주형 변수와 수치형 변수를 함께 표현하기에 적합한 plot

  • boxplot, violinplot, barplot, pointplot
  • scatterplot은 두 수치형 변수간의 관계를 표현하기에 적합함.

 

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2025/08   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함