1. 기초 통계
1) 데이터 종류
(1) 질적 / 양적 데이터 (명목, 서열 / 등간, 비율 척도)
(2) 이산 / 연속 데이터
(3-1) 데이터 구분 이유1: 데이터 전처리 (2)
(3-2) 데이터 구분 이유2: 데이터 해석 (시각화)
* 중심지표와 산포도를 통해 데이터 대략 파악 가능 *
2) 데이터 중심지표
(1) 평균
(2) 중앙값
(3) 최빈값
(4-1) 활용1: 데이터 전처리
(4-2) 활용2: 모델 선택
3) 데이터 산포도
(1) 편차
(2) 분산
(3) 표준편차
(4) 사분위수 범위
4) 데이처 상관 관계
(1) 양의 상관관계
(2) 음의 상관관계
(3) 무의 상관관계
(4) 상관관계의 정도를 수치화: 상관계수
(5) 활용: 특징 선택 (2)
5) 확률과 확률 분포
(1) 확률
(1-2) 머신러닝에서의 확률
(2) 확률 분포 (이산 / 연속)
2. 기초 선형 대수학
1) 벡터와 행렬의 기본 개념
1. 기초 통계
1) 데이터 종류
(1) 질적 / 양적 데이터
[1] 질적 데이터: 혈액형, 시험 등급과 같이 종류의 구별을 위한 변수
- 명목 척도: 순서나 크기의 개념이 없으며, 단순한 분류나 구분만 가능
(예. 혈액형, 학생 번호, 전화 번호)
- 서열 척도: 순서나 대소 관계가 의미 있지만, 비례 관계를 나타내지 않음
(1위가 2위보다 2배 더 ~하다 불가)
(예, 설문지의 만족도 평가, 성적 등급, 음식 선호 순위)
[2] 양적 데이터: 거리, 몸무게와 같이 수치로 표현할 수 있으며, 연산이 가능
- 등간 척도: 대소 관계와 함께 값들 간의 차이에 의미가 있는 데이터,
0의 값은 절대적이지 않고, 사람이 임의로 정한 기준임
(비율 계산 불가)
(예. 온도-섭씨/화씨, IQ 점수, 날짜와 시간)
- 비율 척도: 절대적 0을 포함하며 비율 비교가 가능한 데이터
(예. 키, 몸무게, 시험 점수, 거리)
(2) 이산 / 연속 데이터
[1] 이산형 데이터: 연속적인 값이 아닌 정해진 범위 내의 특정 값으로만 표현
주로 정수 값, 불연속적
(예. 주사위 눈, 시험 점수, 학생 수)
[2] 연속형 데이터: 연속적인 값을 가지며, 범위 내에서 무한히 많은 값으로 표현
(예. 사람의 키, 온도, 시간)
(3-1) 데이터 구분 이유1: 데이터 전처리
- 질적 데이터(명목, 서열 척도)는 숫자로 변환하여, 모델에 입력해야 함
- 양적 데이터(등간, 비율 척도)는 숫자 그대로 사용 가능
(3-2) 데이터 구분 이유2: 데이터 해석 (데이터 시각화)
2) 데이터 중심지표: 데이터의 중심 경향을 나타내는 값으로, 주어진 데이터의 대표적인 값
(1) 평균(Mean): 모든 값을 더한 후 데이터 개수로 나눈 값 (이상치에 민감)
(2) 중앙값(Median): 데이터를 크기 순으로 나열했을 때 중앙에 위치한 값 (이상치에 영향을 덜 받음)
(3) 최빈값(Mode): 데이터에서 가장 자주 나타나는 값 (이상치에 영향을 덜 받음)
이산형 데이터나 범주형일 때 자주 사용
(4-1) 활용1: 데이터 전처리
- 결측치, 이상치 대체
- 데이터 표준화
(4-1) 활용2: 모델 선택
- 평균 중심의 데이터 (데이터가 대칭적)
=> 선형 모델 (선형 회귀, SVM)]
- 중앙값 중심의 데이터 (데이터가 치우쳐 있거나 이상치가 많은 경우)
=> 비선형 모델 (로버스트 회귀, 랜덤 포레스트)
- 최빈값 중심의 데이터 (데이터가 명목형=카테고리형 인 경우나 이산형 데이터)
=> 주어진 데이터의 주변 이웃 중 가장 많이 나타나는 값을 예측 (K-최근접 이웃)
이산형 결과를 예측 시 (로지스틱 회귀)
범주형 데이터 기반 분류 (나이브 베이즈)
3) 데이터 산포도: 데이터가 평균이나 중앙값을 중심으로 얼마나 퍼져 있는지를 나타내는 지표
(1) 편차 (Variance): 각 데이터 값과 데이터의 평균 사이의 차이
모든 편차를 더하면 0이 됨
(2) 분산 (Variance): 편차 제곱의 평균 (편차의 음수를 제거하기 위함)
(3) 표준편차 (Standard Deviation): 분산의 제곱근으로 단위가 원래 데이터와 같음 (분산에서 단위를 맞춰주기 위함)
(4) 사분위수 범위(Interquartile Range, IQR): 중간 50%의 데이터의 범위를 나타내는 지표
4) 데이터 상관 관계: 두 변수 간의 관계를 나타내는 통계적 개념
하나의 변수 변화에 따라 다른 변수가 어떻게 변하는지를 설명
(1) 양의 상관관계: 한 변수가 증가할 때 다른 변수도 증가하는 관계
(예. 키가 클수록 몸무게가 증가하는 경향)
(2) 음의 상관관계: 한 변수가 증가할 때 다른 변수는 감소하는 관계
(예. 기온이 올라가면 히터 사용량이 줄어드는 경우)
(3) 무 상관관계: 두 변수 간에 일정한 관계가 없는 경우
(예. 사람의 키와 IQ 사이에는 특별한 상관관계가 없음)
(4) 상관관계의 정도를 수치화: 상관계수
공분산 = (평균)(평균)
/ 편차
= 공분산에서 편차를 나눔
(5) 활용: 특징 선택
5) 확률과 확률 분포
(1) 확률: 어떤 일이 일어날 가능성을 나타내는 수치
(1-2) 머신러닝에서의 확률 (예. 사진이 주어졌을 때 강아지일 확률)
(2) 확률 분포: 가능한 경우에 대한 각각의 확률을 나타낸 것 (함수)
- 이산 확률 분포: 이산형 데이터가 가질 수 있는 각각의 값과 그에 대한 확률
(예. 주사위 눈금, 로또 번호 추첨, 머신 러닝 분류 모델)
- 연속 확률 분포: 연속형 데이터가 특정 구간에 속할 확률 (면적으로 구함)
(예. 하루 동안의 온도가 20~30도일 확률, 금융 시장의 주가 예측)
2. 기초 선형 대수학
1) 벡터와 행렬의 기본 개념