8주차 화요일 [데일리 키워드]

티스토리 뷰

멋쟁이 사자처럼/그 외

8주차 화요일 [데일리 키워드]

니츄 2023. 2. 7. 17:07

[1] .copy()를 사용할 때 어디에서 불러서 사용하는지 확인하는 방법

.copy() 앞에 붙은 객체가 무엇인지 확인 (type() 활용)
shift + tab 도움말로 구분

[2] sns.heatmap()과 df.style.background_gradient()의 차이점

sns.heatmap() :
df.style.background_gradient() : 성질이 다른 각 변수를 각각 비교하고자 할 때 적합
(변수에 체중, 키, BMI지수 등 스케일값이 다르고 성질이 다른 값 비교)

[3] groupby로 할 수 있는 것을 pivot_table 로도 대부분 구현이 가능한 이유

pivot_table 소스코드에 groupby가 포함되어 있음
pivot_table이 groupby의 하이레벨 인터페이스
자유도 : groupby > pivot_table > crosstab

[4] boxplot과 violinplot

boxplot: 사분위수 표현이 고정되어 있어 내부의 값이 바뀌어도 형태가 변하지 않음
violinplot: boxplot의 해당 부분을 보완해주는 plot, boxplot을 포함한 개념임. (중앙값 표시 되어있음)
밀도를 표시하는 plot, 카테고리값에 따른 각 분포의 실제 데이터 또는 전체 형상을 보여줌.

[5] 수치데이터 분석할 때

가장 먼저 히스토그램 보기
pairplot: 데이터 분포 확인. 짝을 지어 볼 수 있음
상관관계 파악하여 tidy data로 만들어 분석하기. .copy()로 깊은 복사를 하게 되면 원본에 영향 x
transpose(), .T : 막대그래프를 대표값만 표시해줌

[6] pandas 시각화의 장점

계산기능을 제공하지 않음 => 연산 후 시각화하여 속도가 느리지 않음
pandas는 데이터프레임이나 Series에 바로 적용할 수 있다는 장점이 있음.

[7] describe()와 describe(include='O')

describe() : 숫자형 데이터에 대해서만 기술통계를 보여줌
describe(include='O') : 문자형 데이터에 대한 기술통계를 보여줌 (O = object)

[8] kosis 데이터를 볼 때 주의할 점

제공된 데이터가 평균인지 합계인지 구분할 필요가 있음
평균을 합계내면 값이 왜곡될 수 있기 때문 !!

[9] nlargest와 nsmallest (pandas)

df.nlargest(n, 'value') : sort_values(ascending=False).head(n) 과 같지만 전자를 선호함
df.nsmallist(n, 'value') : sort_values().head(n)과 같음

[10] seaborn에서의 연산

막대그래프에 대한 연산 : barplot (px.bar: 연산지원x)
histogram : 수치, 범주형을 모두 표현할 수 있음. (px.histogram: histfunc으로 연산지원하나 오래걸려서 비추.)
seaborn과 pandas에서 histogram은 수치데이터만 제공함.

[11] 범주형데이터와 수치형데이터의 집계연산 기본값

범주형데이터 : count
수치형데이터 : sum (x) mean

[12] 시각화의 기반

matplotlib : pandas, seaborn
plotly : javascript

[13] FacetGrid와 PairGrid의 차이점

FacetGrid : 하나의 범주형 변수를 쪼개고 나눠서 시각화 ex_relplot, joinplot, displot, catplot
PairGrid : 여러 변수를 비교해서 서브플롯 사각화 ex_pairplot

[14] glob.glob을 쓰는 이유

import glob : glob 모듈만 불러오기 때문에 glob.glob()을 사용하여 함수를 불러와야 함
from glob import glob : glob 모듈에서 glob()함수를 불러옴 => glob()만을 사용해 바로 불러올 수 있음.

[15] 자료를 불러올 때 [ ], ( )의 차이점

-리스트 [ ], 제너레이터 컴프리헨션 ( )

-리스트 : 필요한 데이터 용량을 모두 확보한 후 로드를 시작 (반복문 사용시 17개 목록 => 17개의 용량 필요)

-제너레이터 : 순회 1번에 필요한 데이터 용량만 확보하여 작동 (반복문 사용시 1개의 용량만 필요)

'멋쟁이 사자처럼 > 그 외' 카테고리의 다른 글

0417 질문 모음 (0)	2023.04.17
8주차 수요일 데일리 키워드 (0)	2023.02.08
8주차 월요일 [데일리 키워드] (0)	2023.02.06
7주차 수요일 [데일리 키워드] (0)	2023.02.01
7주차 화요일 [데일리 키워드] (0)	2023.01.31

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

글 보관함

AI/데이터 분석의 첫걸음

티스토리 뷰

8주차 화요일 [데일리 키워드]

'멋쟁이 사자처럼 > 그 외' 카테고리의 다른 글

티스토리툴바