티스토리 뷰

 

[1] .copy()를 사용할 때 어디에서 불러서 사용하는지 확인하는 방법

  • .copy() 앞에 붙은 객체가 무엇인지 확인 (type() 활용)
  • shift + tab 도움말로 구분

 

[2] sns.heatmap()과 df.style.background_gradient()의 차이점

  • sns.heatmap() : 
  • df.style.background_gradient() : 성질이 다른 각 변수를 각각 비교하고자 할 때 적합
    (변수에 체중, 키, BMI지수 등 스케일값이 다르고 성질이 다른 값 비교)

 

[3] groupby로 할 수 있는 것을 pivot_table 로도 대부분 구현이 가능한 이유

  • pivot_table 소스코드에 groupby가 포함되어 있음
  • pivot_table이 groupby의 하이레벨 인터페이스
  • 자유도 : groupby > pivot_table > crosstab

 

[4] boxplot과 violinplot

  • boxplot: 사분위수 표현이 고정되어 있어 내부의 값이 바뀌어도 형태가 변하지 않음
  • violinplot: boxplot의 해당 부분을 보완해주는 plot, boxplot을 포함한 개념임. (중앙값 표시 되어있음)
    밀도를 표시하는 plot, 카테고리값에 따른 각 분포의 실제 데이터 또는 전체 형상을 보여줌.

 

[5] 수치데이터 분석할 때

  • 가장 먼저 히스토그램 보기
  • pairplot: 데이터 분포 확인. 짝을 지어 볼 수 있음
  • 상관관계 파악하여 tidy data로 만들어 분석하기. .copy()로 깊은 복사를 하게 되면 원본에 영향 x
  • transpose(), .T : 막대그래프를 대표값만 표시해줌

 

[6] pandas 시각화의 장점

  • 계산기능을 제공하지 않음 => 연산 후 시각화하여 속도가 느리지 않음
  • pandas는 데이터프레임이나 Series에 바로 적용할 수 있다는 장점이 있음.

 

[7] describe()와 describe(include='O')

  • describe() : 숫자형 데이터에 대해서만 기술통계를 보여줌
  • describe(include='O') : 문자형 데이터에 대한 기술통계를 보여줌 (O = object)

 

[8] kosis 데이터를 볼 때 주의할 점

  • 제공된 데이터가 평균인지 합계인지 구분할 필요가 있음
  • 평균을 합계내면 값이 왜곡될 수 있기 때문 !!

 

[9] nlargest와 nsmallest (pandas)

  • df.nlargest(n, 'value')  : sort_values(ascending=False).head(n) 과 같지만 전자를 선호함
  • df.nsmallist(n, 'value') : sort_values().head(n)과 같음

 

[10] seaborn에서의 연산

  • 막대그래프에 대한 연산 : barplot  (px.bar: 연산지원x)
  • histogram : 수치, 범주형을 모두 표현할 수 있음.  (px.histogram: histfunc으로 연산지원하나 오래걸려서 비추.)
  • seaborn과 pandas에서 histogram은 수치데이터만 제공함.

 

[11] 범주형데이터와 수치형데이터의 집계연산 기본값

  • 범주형데이터 : count
  • 수치형데이터 : sum (x) mean

 

[12] 시각화의 기반

  • matplotlib : pandas, seaborn
  • plotly : javascript

 

[13] FacetGrid와 PairGrid의 차이점

  • FacetGrid : 하나의 범주형 변수를 쪼개고 나눠서 시각화  ex_relplot, joinplot, displot, catplot
  • PairGrid : 여러 변수를 비교해서 서브플롯 사각화  ex_pairplot

FacetGrid 기반

 

[14] glob.glob을 쓰는 이유

  • import glob : glob 모듈만 불러오기 때문에 glob.glob()을 사용하여 함수를 불러와야 함
  • from glob import glob : glob 모듈에서 glob()함수를 불러옴 => glob()만을 사용해 바로 불러올 수 있음.

 

[15] 자료를 불러올 때 [ ], ( )의 차이점

-리스트 [ ], 제너레이터 컴프리헨션 ( )

-리스트 : 필요한 데이터 용량을 모두 확보한 후 로드를 시작  (반복문 사용시 17개 목록 => 17개의 용량 필요)

-제너레이터 : 순회 1번에 필요한 데이터 용량만 확보하여 작동  (반복문 사용시 1개의 용량만 필요)

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함