티스토리 뷰
728x90
미국 동북중부 437개 지역의 인구통계 정보를 담고 있는 midwest 데이터를 사용해 데이터 분석 문제
midwest는 ggplot2 패키지에 들어 있습니다.
Q1. popadults는 해당 지역의 성인 인구, poptotal은 전체 인구를 나타냅니다. midwest 데이터에 '전체 인구 대비 미성년 인구 백분율' 변수를 추가하세요.
> midwest <- as.data.frame(ggplot2::midwest)
> midwest <- midwest %>%
+ mutate(ratio_child=(poptotal-popadults)/poptotal*100)
> head(midwest)
PID county state area poptotal popdensity popwhite popblack popamerindian popasian popother
1 561 ADAMS IL 0.052 66090 1270.9615 63917 1702 98 249 124
2 562 ALEXANDER IL 0.014 10626 759.0000 7054 3496 19 48 9
3 563 BOND IL 0.022 14991 681.4091 14477 429 35 16 34
4 564 BOONE IL 0.017 30806 1812.1176 29344 127 46 150 1139
5 565 BROWN IL 0.018 5836 324.2222 5264 547 14 5 6
6 566 BUREAU IL 0.050 35688 713.7600 35157 50 65 195 221
percwhite percblack percamerindan percasian percother popadults perchsd percollege percprof
1 96.71206 2.5752761 0.1482826 0.37675897 0.18762294 43298 75.10740 19.63139 4.355859
2 66.38434 32.9004329 0.1788067 0.45172219 0.08469791 6724 59.72635 11.24331 2.870315
3 96.57128 2.8617170 0.2334734 0.10673071 0.22680275 9669 69.33499 17.03382 4.488572
4 95.25417 0.4122574 0.1493216 0.48691813 3.69733169 19272 75.47219 17.27895 4.197800
5 90.19877 9.3728581 0.2398903 0.08567512 0.10281014 3979 68.86152 14.47600 3.367680
6 98.51210 0.1401031 0.1821340 0.54640215 0.61925577 23444 76.62941 18.90462 3.275891
poppovertyknown percpovertyknown percbelowpoverty percchildbelowpovert percadultpoverty
1 63628 96.27478 13.151443 18.01172 11.009776
2 10529 99.08714 32.244278 45.82651 27.385647
3 14235 94.95697 12.068844 14.03606 10.852090
4 30337 98.47757 7.209019 11.17954 5.536013
5 4815 82.50514 13.520249 13.02289 11.143211
6 35107 98.37200 10.399635 14.15882 8.179287
percelderlypoverty inmetro category ratio_child
1 12.443812 0 AAR 34.48631
2 25.228976 0 LHR 36.72125
3 12.697410 0 AAR 35.50130
4 6.217047 1 ALU 37.44076
5 19.200000 0 AAR 31.81974
6 11.008586 0 AAR 34.30845
Q2.미성년 인구 백분율이 가장 높은 상위 5개 county(지역)의 미성년 인구 백분율을 출력하세요.
> midwest %>%
+ arrange(desc(ratio_child)) %>%
+ select(county, ratio_child) %>%
+ head(5)
county ratio_child
1 ISABELLA 51.50117
2 MENOMINEE 50.59126
3 ATHENS 49.32073
4 MECOSTA 49.05918
5 MONROE 47.35818
Q3. 분류표의 기준에 따라 미성년 비율 등급 변수를 추가하고, 각 등급에 몇 개의 지역이 있는지 알아보세요.
분류 | 기준 |
large | 40% 이상 |
middle | 30% ~ 40% 미만 |
small | 30% 미만 |
> # midwest에 grade 변수 추가
> midwest <- midwest %>%
+ mutate(grade = ifelse(ratio_child >= 40, "large",
+ ifelse(ratio_child >= 30, "middle", "small")))
>
> # 미성년 비율 등급 빈도표
> table(midwest$grade)
large middle small
32 396 9
Q4. popasian은 해당 지역의 아시아인 인구를 나타냅니다. '전체 인구 대비 아시아인 인구 백분율' 변수를 추가하고, 하위 10개 지역의 state(주), county(지역명), 아시아인 인구 백분율을 출력하세요.
> midwest %>%
+ mutate(ratio_asian = (popasian/poptotal)*100) %>% # 백분율 변수 추가
+ arrange(ratio_asian) %>% # 내림차순 정렬
+ select(state, county, ratio_asian) %>% # 변수 추출
+ head(10) # 상위 10행 출력
state county ratio_asian
1 WI MENOMINEE 0.00000000
2 IN BENTON 0.01059210
3 IN CARROLL 0.01594981
4 OH VINTON 0.02703190
5 WI IRON 0.03250447
6 IL SCOTT 0.05315379
7 IN CLAY 0.06071645
8 MI OSCODA 0.06375925
9 OH PERRY 0.06654625
10 IL PIATT 0.07074865
728x90
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
반응형