분석예제1-Linear Regression -전복데이터활용

본문 바로가기 메뉴 바로가기

티스토리 뷰

Data Science/Orange3

분석예제1-Linear Regression -전복데이터활용

jsBae 2022. 6. 27. 17:22

1. 데이터 준비

data > dataset > abalone

2. 데이터 불러오기

3. 데이터 살펴보기

http://archive.ics.uci.edu/ml/datasets/Abalone

UCI Machine Learning Repository: Abalone Data Set

Data Set Characteristics: Multivariate Number of Instances: 4177 Area: Life Attribute Characteristics: Categorical, Integer, Real Number of Attributes: 8 Date Donated 1995-12-01 Associated Tasks: Classification Missing Values? No Number of Web Hits: 12

archive.ics.uci.edu

4. 데이터시각화하기

- 산점도

5. 데이터 전처리하기

- Transform > Select Colums 추가

- 새로운 datatable 연결

- Transform > Select Colums 방법

1. 요소에서 항목 선택 후 ignored > 다시 Target 으로 선택 이동

features : 변수
target : 예측하고자 하는 결과가 되는 속성
Metas : 사용되지는 않지만, 참고용
Ignored : 무시할 데이터

# 데이터 종류

- C ; 범주형, 논리형

- N : 수치형

- S : text/문자

-T : dateTime/날짜

6. 학습 모델 선택하기

1. 훈련데이터(train)와 테스트(test)데이터 나누기

2. 모델 선택

- model > linear Regression 선형회귀모델 - 연속적인 값의 예측하는 모델

선형회귀 모델은 지도 학습 알고리즘으로 주로 수치 예측 문제에 사용
립면수 (인풋 변수, X)를 이용해서 숫자인 종속 변수(아웃풋 변수, Y)를 예측하는 모델
직선의 방정식
- Y = aX + b
- Y = 기울기 * X + Y절편

https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95_%ED%9A%8C%EA%B7%80

3. 학습

- overfitting : 데이터를 과하게 학습하면 과적합

-

7. 모델의 성능 검사 (Evaluate 위젯)

- 만든 모델의 학습이 얼마나 예측을 잘하는지 평가 해 보자.

학습결과 확인

테스트데이터

테스트데이터

성능결과 확인

평가지표

MSE : mean Squared Error - 0에 가까울수록 예측값과 실제값의 차이가 없으므로 성능이 우수하다.
RMSE : Root Mean Squared Error - 0에 가까울수록 성능이 우수
MAE : Mean Absolute Error - 0에 가까울수록 성능이 우수
R2 : 결정계수 - 1에 가까울수록 성능이 우수

728x90

저작자표시 비영리 동일조건 (새창열림)

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

티스토리툴바