8주차 수요일 데일리 키워드

티스토리 뷰

멋쟁이 사자처럼/그 외

8주차 수요일 데일리 키워드

니츄 2023. 2. 8. 17:13

[1] import 정도만 손을 봐도 트래픽비용이 줄어들 수고 있고, 캐시를 어떻게 사용하느냐, 파일 I/O 관리, 데이터베이스 관리 등에 따라 비용이 달라지게 됩니다.

=> 트래픽을 분석이나 관리해 주는 도구도 있습니다. 인프라에서 나오는 로그 데이터를 따로 분석하기도 합니다.

[2] isin과 str.contains()의 차이점

-isin : 정확히 일치해야함, 리스트 형태에만 사용가능.

-str.contains() : 일부만 포함되어있어도 됨.

[3] heatmap 과 style.background_gradient()

-heatmap : 전체 스케일 비교에 적절 (합계를 제외하고 그리면 => 색 차이가 더 잘드러나게 됨)

-style.background_gradient() : 각 변수별 비교에 적절.

[4] concat, marge, join

-기본값 사용 전제 시

-concat()

-marge()

-join()

[5] crosstab, pivot_table, groupby

-crosstab : 두 개의 기준을 설정하지 못함 => pivot_table 사용

**오늘의 복습 : 여러 가지 방법으로 버거지수 구하기

[6] 결측치가 많은 데이터를 사용하는 방법 : binning

-구간화(binning) ex) 나이결측치를 나이대로 범주화하는 것.

-보통 시각화할 때 결측치를 제회하고 시각화를 함 (bin= )

-DB에서 설정할 때 결측치는 null로 관리하지만 가끔 -1로 표기하는 실수를 하기도 함. (연산시 오류연산 유도)

<오답노트>

1) 판다스를 통해 두 개의 변수에 대한 빈도 수를 구할 수 없는 것 : pivot()

crosstab(), groupby(), pivot_table()은 가능함.
pivot()은 형태만 변경하고 연산을 하는 기능이 없다.

2) pivot_table이란?

pivot_table과 pivot의 가장 큰 차이점은 연산을 할 수 있는지의 여부다.
pivot_table의 aggfunc의 기본값은 평균(mean)이다.
난이도 : groupby > pivot_table > crosstab

3) unstack()이란?

groupby를 통해 여러 컬럼으로 그룹화하여 연산을 하여 생성된 멀티인덱스의
마지막 인덱스 값을 컬럼으로 만들 때 사용

4) 범주형 변수를 산점도로 표현할 때 적합한 plot

stripplot()
swarmplot()
scatterplot()은 수치형 변수표현에 적합하다. 범주형을 표현하게 되면 점이 겹쳐져서 보기 어려움.

5) 범주형 변수와 수치형 변수를 함께 표현하기에 적합한 plot

boxplot, violinplot, barplot, pointplot
scatterplot은 두 수치형 변수간의 관계를 표현하기에 적합함.

'멋쟁이 사자처럼 > 그 외' 카테고리의 다른 글

0417 질문 모음 (0)	2023.04.17
8주차 화요일 [데일리 키워드] (0)	2023.02.07
8주차 월요일 [데일리 키워드] (0)	2023.02.06
7주차 수요일 [데일리 키워드] (0)	2023.02.01
7주차 화요일 [데일리 키워드] (0)	2023.01.31

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

글 보관함

AI/데이터 분석의 첫걸음

티스토리 뷰

8주차 수요일 데일리 키워드

'멋쟁이 사자처럼 > 그 외' 카테고리의 다른 글

티스토리툴바