티스토리 뷰
시작
- Project 시작
- Script 시작 : ctrl + shift + N
- 작업 경로 설정 : ctrl + shift + H
> setwd("C:/Users/USER/Desktop/mystudy/dataR")
- <-을 이용 해 변수 할당 : alt + -
> a <- c(1:10)
> a
[1] 1 2 3 4 5 6 7 8 9 10
- ls()를 사용해서 프로그램에 사용된 변수를 출력한다.
- rm()을 사용해서 프로그램에 사용된 객체를 삭제한다.
> ls()
[1] "a"
> rm(a)
> a
Error: object 'a' not found
- install.packages()을 사용해서 팩키지(라이브러리)를 설치한다.
메뉴 > [tools] > install.package
install.packages("dplyr")
library(dplyr)
- R 도움말 : ?함수명() or help(함수명) - help()함수를 사용하면 온라인 도움을 얻는다.
> help.start()
만약 아무런 일도 없다면,
‘http://127.0.0.1:15491/doc/html/index.html’를 열어보아야 합니다
help(sum)
- 데이터 불러오기 : read.csv()
> df <- read.csv("csv_exam.csv")
> head(df)
id class math english science
1 1 1 50 98 50
2 2 1 60 97 60
3 3 1 45 86 78
4 4 1 30 98 58
5 5 2 25 80 65
6 6 2 50 89 98
- R의 기본자료형은 실수형, 정수형, 복소수형, 논리형, 문자형이다
> df$class <- as.factor(df$class)
> str(df)
'data.frame': 20 obs. of 5 variables:
$ id : int 1 2 3 4 5 6 7 8 9 10 ...
$ class : Factor w/ 5 levels "1","2","3","4",..: 1 1 1 1 2 2 2 2 3 3 ...
$ math : int 50 60 45 30 25 50 80 90 20 50 ...
$ english: int 98 97 86 98 80 89 90 78 98 98 ...
$ science: int 50 60 78 58 65 98 45 25 15 45 ...
- 데이터프레임 탐색하기
> str(df)
'data.frame': 20 obs. of 5 variables:
$ id : int 1 2 3 4 5 6 7 8 9 10 ...
$ class : Factor w/ 5 levels "1","2","3","4",..: 1 1 1 1 2 2 2 2 3 3 ...
$ math : int 50 60 45 30 25 50 80 90 20 50 ...
$ english: int 98 97 86 98 80 89 90 78 98 98 ...
$ science: int 50 60 78 58 65 98 45 25 15 45 ...
> nrow(df)
[1] 20
> ncol(df)
[1] 5
> dim(df)
[1] 20 5
> names(df)
[1] "id" "class" "math" "english" "science"
> colnames(df)
[1] "id" "class" "math" "english" "science"
> rownames(df)
[1] "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13" "14" "15" "16" "17" "18" "19" "20"
> head(df)
id class math english science
1 1 1 50 98 50
2 2 1 60 97 60
3 3 1 45 86 78
4 4 1 30 98 58
5 5 2 25 80 65
6 6 2 50 89 98
> tail(df)
id class math english science
15 15 4 75 56 78
16 16 4 58 98 65
17 17 5 65 68 98
18 18 5 80 78 90
19 19 5 89 68 87
20 20 5 78 83 58
> class(df)
[1] "data.frame"
> typeof(df)
[1] "list"
> length(df)
[1] 5
> summary(df)
id class math english science
Min. : 1.00 1:4 Min. :20.00 Min. :56.0 Min. :12.00
1st Qu.: 5.75 2:4 1st Qu.:45.75 1st Qu.:78.0 1st Qu.:45.00
Median :10.50 3:4 Median :54.00 Median :86.5 Median :62.50
Mean :10.50 4:4 Mean :57.45 Mean :84.9 Mean :59.45
3rd Qu.:15.25 5:4 3rd Qu.:75.75 3rd Qu.:98.0 3rd Qu.:78.00
Max. :20.00 Max. :90.00 Max. :98.0 Max. :98.00
- dplyr 팩키지로 데이터프레임 솜씨있게 조작
데이터프레임을 조작하는데 dplyr 팩키지를 사용한다.
select() 함수를 사용해서 데이터프레임에서 칼럼 변수를 고를 수 있다.
filter() 함수를 사용해서 행 값에 따라 데이터를 추출한다.
group_by()와 summarize() 함수를 사용해서 데이터 요약 작업을 수행한다.
mutate() 함수를 사용해서 변수를 새로 생성한다.
> select(df, math)
math
1 50
2 60
3 45
4 30
5 25
6 50
> df %>% select(math)
math
1 50
2 60
3 45
4 30
5 25
6 50
- 데이터 저장하기
write.csv(df, file = "test.csv")
728x90
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
반응형