티스토리 뷰

Data Science/R package

R Key Points

jsBae 2022. 5. 2. 23:27

시작

  • Project 시작
  • Script 시작 : ctrl + shift + N
  • 작업 경로 설정 : ctrl + shift + H
> setwd("C:/Users/USER/Desktop/mystudy/dataR")
  • <-을 이용 해 변수 할당 : alt + -
> a <- c(1:10)
> a
 [1]  1  2  3  4  5  6  7  8  9 10
  • ls()를 사용해서 프로그램에 사용된 변수를 출력한다.
  • rm()을 사용해서 프로그램에 사용된 객체를 삭제한다.
> ls()
[1] "a"

> rm(a)
> a
Error: object 'a' not found
  • install.packages()을 사용해서 팩키지(라이브러리)를 설치한다.
    메뉴 > [tools] > install.package
install.packages("dplyr")
library(dplyr)
  • R 도움말 : ?함수명() or help(함수명) - help()함수를 사용하면 온라인 도움을 얻는다.
> help.start()
만약 아무런 일도 없다면, 
‘http://127.0.0.1:15491/doc/html/index.html’를 열어보아야 합니다

help(sum)
  • 데이터 불러오기 : read.csv()
> df <- read.csv("csv_exam.csv")
> head(df)
  id class math english science
1  1     1   50      98      50
2  2     1   60      97      60
3  3     1   45      86      78
4  4     1   30      98      58
5  5     2   25      80      65
6  6     2   50      89      98
  • R의 기본자료형은 실수형, 정수형, 복소수형, 논리형, 문자형이다
> df$class <- as.factor(df$class)
> str(df)
'data.frame':	20 obs. of  5 variables:
 $ id     : int  1 2 3 4 5 6 7 8 9 10 ...
 $ class  : Factor w/ 5 levels "1","2","3","4",..: 1 1 1 1 2 2 2 2 3 3 ...
 $ math   : int  50 60 45 30 25 50 80 90 20 50 ...
 $ english: int  98 97 86 98 80 89 90 78 98 98 ...
 $ science: int  50 60 78 58 65 98 45 25 15 45 ...
  • 데이터프레임 탐색하기
> str(df)
'data.frame':	20 obs. of  5 variables:
 $ id     : int  1 2 3 4 5 6 7 8 9 10 ...
 $ class  : Factor w/ 5 levels "1","2","3","4",..: 1 1 1 1 2 2 2 2 3 3 ...
 $ math   : int  50 60 45 30 25 50 80 90 20 50 ...
 $ english: int  98 97 86 98 80 89 90 78 98 98 ...
 $ science: int  50 60 78 58 65 98 45 25 15 45 ...
> nrow(df)
[1] 20
> ncol(df)
[1] 5
> dim(df)
[1] 20  5
> names(df)
[1] "id"      "class"   "math"    "english" "science"
> colnames(df)
[1] "id"      "class"   "math"    "english" "science"
> rownames(df)
 [1] "1"  "2"  "3"  "4"  "5"  "6"  "7"  "8"  "9"  "10" "11" "12" "13" "14" "15" "16" "17" "18" "19" "20"
> head(df)
  id class math english science
1  1     1   50      98      50
2  2     1   60      97      60
3  3     1   45      86      78
4  4     1   30      98      58
5  5     2   25      80      65
6  6     2   50      89      98
> tail(df)
   id class math english science
15 15     4   75      56      78
16 16     4   58      98      65
17 17     5   65      68      98
18 18     5   80      78      90
19 19     5   89      68      87
20 20     5   78      83      58
> class(df)
[1] "data.frame"
> typeof(df)
[1] "list"
> length(df)
[1] 5
> summary(df)
       id        class      math          english        science     
 Min.   : 1.00   1:4   Min.   :20.00   Min.   :56.0   Min.   :12.00  
 1st Qu.: 5.75   2:4   1st Qu.:45.75   1st Qu.:78.0   1st Qu.:45.00  
 Median :10.50   3:4   Median :54.00   Median :86.5   Median :62.50  
 Mean   :10.50   4:4   Mean   :57.45   Mean   :84.9   Mean   :59.45  
 3rd Qu.:15.25   5:4   3rd Qu.:75.75   3rd Qu.:98.0   3rd Qu.:78.00  
 Max.   :20.00         Max.   :90.00   Max.   :98.0   Max.   :98.00
  • dplyr 팩키지로 데이터프레임 솜씨있게 조작
데이터프레임을 조작하는데 dplyr 팩키지를 사용한다.
select() 함수를 사용해서 데이터프레임에서 칼럼 변수를 고를 수 있다.
filter() 함수를 사용해서 행 값에 따라 데이터를 추출한다.
group_by()와 summarize() 함수를 사용해서 데이터 요약 작업을 수행한다.
mutate() 함수를 사용해서 변수를 새로 생성한다.
> select(df, math)
   math
1    50
2    60
3    45
4    30
5    25
6    50

> df %>% select(math)
   math
1    50
2    60
3    45
4    30
5    25
6    50
  • 데이터 저장하기
write.csv(df, file = "test.csv")
728x90
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
반응형