티스토리 뷰

1. 데이터 준비

data > dataset > abalone 

2. 데이터 불러오기

3. 데이터 살펴보기

http://archive.ics.uci.edu/ml/datasets/Abalone

 

UCI Machine Learning Repository: Abalone Data Set

Data Set Characteristics:   Multivariate Number of Instances: 4177 Area: Life Attribute Characteristics: Categorical, Integer, Real Number of Attributes: 8 Date Donated 1995-12-01 Associated Tasks: Classification Missing Values? No Number of Web Hits: 12

archive.ics.uci.edu

4. 데이터시각화하기

- 산점도

5. 데이터 전처리하기

- Transform > Select Colums 추가

 

- 새로운 datatable 연결

- Transform > Select Colums 방법

1. 요소에서 항목 선택 후 ignored > 다시 Target 으로 선택 이동

  • features :  변수
  • target : 예측하고자 하는 결과가 되는 속성
  • Metas : 사용되지는 않지만, 참고용
  • Ignored :  무시할 데이터

# 데이터 종류

- C ; 범주형, 논리형

- N : 수치형

- S : text/문자

-T : dateTime/날짜

6. 학습 모델 선택하기

1. 훈련데이터(train)와 테스트(test)데이터 나누기

2. 모델 선택

- model > linear Regression 선형회귀모델 - 연속적인 값의 예측하는 모델 

선형회귀 모델은 지도 학습 알고리즘으로 주로 수치 예측 문제에 사용
립면수 (인풋 변수, X)를 이용해서 숫자인 종속 변수(아웃풋 변수, Y)를 예측하는 모델
직선의 방정식
- Y = aX + b
- Y = 기울기 * X + Y절편

https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95_%ED%9A%8C%EA%B7%80

3. 학습

- overfitting :  데이터를 과하게 학습하면 과적합

-

 

7. 모델의 성능 검사 (Evaluate 위젯)

- 만든 모델의 학습이 얼마나 예측을 잘하는지 평가 해 보자.

학습결과 확인

테스트데이터
테스트데이터

성능결과 확인

평가지표

  • MSE : mean Squared Error - 0에 가까울수록 예측값과 실제값의 차이가 없으므로 성능이 우수하다.
  • RMSE : Root Mean Squared Error - 0에 가까울수록 성능이 우수
  • MAE : Mean Absolute Error - 0에 가까울수록 성능이 우수
  • R2 : 결정계수 - 1에 가까울수록 성능이 우수
728x90
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
반응형