회귀 개념
[공지사항] 지킬블로그 안내드립니다.
지킬 블로그에 대하여 알아보겠습니다.
회귀 개념 대해서
회귀분석은 변수들 사이의 인관관게를 규명하고자 하는 분석방법이기 때문에 변수의 역할설정이 중요하다. 우리가 신문을 보는 시간은 원인 변수에
해당 하고 TV를 신청하는 시간은 결과 변수 엿다. TV를 신청하는 시간을 원인의 변수로 정하고 신문을 보는 시간을 결과변수로 정하는 것이다.
휘귀 개념에서 다른 변수에 영향을 주는 원인에 해당하는 변수를 독립변수 또는 설명변수 라고 하며 영향을 받는 결과에 해당하는 변수를 종속변수 또는
반응변수 라고 합니다.
모르는용어
독립변수: 종속 변수의 변화를 가져오거나 영향을 미치는 원인 변수로써 결과를 예측을 하게 하거나 차이를 설명하기 위해 사용되는 예측 변수 입니다.
설명변수: 종속 변수를 설명하거나 예측하는 데 사용되는 변수로, 종속 변수에 영향을 미치는 독립 변수로 볼 수 있습니다
종속변수: 독립변수의 영향으로 나타나는 결과가 되는 결과 변수로써 독립변수의 변화에 따라 변화되는 변수입니다.
반응변수: 반응 변수는 조작된 독립 변수에 따라 변화하는 변수이며, 주로 실험의 결과를 측정하거나 관찰하는 것으로 정의됩니다
회귀 평가 지표
회귀의 평가의 대한 지표는 실제 값과 우리가 예측하는 값의 차이를 볼수있습니다.
MAE , MSE , RMSE , R2 등의 회귀 모델의 성능 평가 지표를 소개 해주겠습니다.
-
MAE 평균 절대 오차: 예측값과 실제값 간의 절대값 오차를 평균화한 값입니다. MAE는 이상치에 덜 민감하며, 작을수록 모델의 예측이 정확합니다.
성능 평가 함수 호출시 neg_mean_absolute_error 로 표시합니다.
-
MSE 평균 제곱 오차: 예측값과 셀제값의 사이에 제곱 오차를 평균화한 값입니다. 작을 수록 예측성이 정확합니다. 성능 평가 함수 호출시 neg_mean_squared_error 표기를합니다.
-
RMSE 평균 제곱 오차:MSE의 제곱근으로, 오차의 단위를 실제 값의 단위와 일치시킵니다. MSE와 마찬가지로 작을수록 모델의 예측이 정확합니다.
함수를 호출시 neg_root_mean squared_error 표시합니다.
-
R2 결정 개수 :모델이 종속 변수의 변동성을 설명하는 정도를 측정합니다. 0과 1 사이의 값을 가지며, 1에 가까울수록 모델이 데이터를 잘 설명한다고 판단됩니다. 성능 평가 함수 호출시 r2 로 표기합니다.
MAE 랑 MSE 같은 뜻을 이해 하면 될 것 같습니다. 둘이 모델이 작을수록 예측성이 정확해 지는 특징있습니다.
선형 회귀
선형 회귀는 다른 과련 데이터 값을 사용하므로써 알 수 없느 데이터의 값을 예측 하고 데이터를 분석 하는 기법입니다. 알 수 없는 변수 또는 종속 변수와 알려진 변수와 알려진 변수 또는 독립 변수를 선형 방정식으로 모델링하고 있습니다.
선형 회귀는 어떻게 실행하는 것일까?
기본적으로 단순 선형 회귀를 보면 두 데이터의 변수 x 와 y 가 있는데 그 사이에 선 그래프를 가 있다. 독립 변수 x는 가로 축을 따라가 그려지고
중속 변수인 y는 세로 축에 그려집니다. y 값을 반응 변수 또는 에측 변수라고 합니다.
단순 회귀
단순회귀에서는 독립변수의 수준 x1,x2,x3 …. 등 에서 측정되는 종속변수 y1,y2….등에 대하여 아래의 단순 선형회귀 모형이 성립되었다고 생각하자.
일단 종속 변수는 변량이므로 대문자로 표기하는 것이 원칙이지만 소문자로 도 표시한다. 하나의 독립변수로 하나의 종속 변수를 설명하는 모형이다. 예를 들면 아버지의 키로 한 자녀의 키를 설명하는 경우 에 해당한다.
단순 회귀는 어떻게 실행하는 것일까?
데이터 수집: 먼저 연구나 분석을 위해 필요한 데이터를 수집 하고 데이터를 탐색하여 이상치나 결측치를 처리하고 변수 간의 관계를 이해합니다.
단순 회귀 모델을 설정합니다. 이때 하나의 설명변수를 사용하여 반응변수를 예측하는 모델을 만듭니다. 그리고 모델을 데이터에 적합시킵니다.
이를 위해 최소자승법 또는 다른 적합 방법을 사용하여 모델의 계수를 추정합니다. 모델의 성능을 평가합니다. 이 때 주로 평가 지표 들을 사용하여
모델의 예측력을 측정합니다. 모델의 계수를 해석하여 설명변수와 반응변수 간의 관계를 이해합니다. 이를 통해 설명변수가 반응변수에 미치는 영향을 파악할 수 있습니다.
최종적으로 최종 모델을 사용하여 새로운 데이터에 대한 예측을 수행하거나, 설명변수에 대한 변화가 반응변수에 미치는 영향을 예측하는 등의 활용을 합니다.
회귀 그래프
회귀를 분석하기 위해서 일반적으로 데이터 포인트와 회귀선(또는 추세선)을 함께 시각화하여 설명변수와 반응변수 간의 관계를 이해하는 데 사용됩니다
-
산점도 : 먼저 설명변수와 반응변수 간의 관계를 산점도로 그립니다. 설명변수를 x축에, 반응변수를 y축에 배치하여 각 데이터 포인트를 표시합니다.
-
회귀선 : 적합한 회귀 모델을 설정하고, 이에 따른 회귀선을 그립니다. 단순 회귀분석의 경우에는 직선 형태의 회귀선이 됩니다.
-
선형 회귀식 표시: 회귀선 위에 선형 회귀식을 표시하여 모델의 방정식을 나타낼 수 있습니다.
-
잔차 시각화: 회귀분석에서는 모델의 적합도를 확인하기 위해 잔차를 산점도나 히스토그램으로 시각화하기도 합니다.
댓글남기기