티스토리 뷰

728x90
미국 동북중부 437개 지역의 인구통계 정보를 담고 있는 midwest 데이터를 사용해 데이터 분석 문제

midwest는 ggplot2 패키지에 들어 있습니다.

Q1. popadults는 해당 지역의 성인 인구, poptotal은 전체 인구를 나타냅니다. midwest 데이터에 '전체 인구 대비 미성년 인구 백분율' 변수를 추가하세요.

> midwest <- as.data.frame(ggplot2::midwest)
> midwest <- midwest %>% 
+   mutate(ratio_child=(poptotal-popadults)/poptotal*100)
> head(midwest)
  PID    county state  area poptotal popdensity popwhite popblack popamerindian popasian popother
1 561     ADAMS    IL 0.052    66090  1270.9615    63917     1702            98      249      124
2 562 ALEXANDER    IL 0.014    10626   759.0000     7054     3496            19       48        9
3 563      BOND    IL 0.022    14991   681.4091    14477      429            35       16       34
4 564     BOONE    IL 0.017    30806  1812.1176    29344      127            46      150     1139
5 565     BROWN    IL 0.018     5836   324.2222     5264      547            14        5        6
6 566    BUREAU    IL 0.050    35688   713.7600    35157       50            65      195      221
  percwhite  percblack percamerindan  percasian  percother popadults  perchsd percollege percprof
1  96.71206  2.5752761     0.1482826 0.37675897 0.18762294     43298 75.10740   19.63139 4.355859
2  66.38434 32.9004329     0.1788067 0.45172219 0.08469791      6724 59.72635   11.24331 2.870315
3  96.57128  2.8617170     0.2334734 0.10673071 0.22680275      9669 69.33499   17.03382 4.488572
4  95.25417  0.4122574     0.1493216 0.48691813 3.69733169     19272 75.47219   17.27895 4.197800
5  90.19877  9.3728581     0.2398903 0.08567512 0.10281014      3979 68.86152   14.47600 3.367680
6  98.51210  0.1401031     0.1821340 0.54640215 0.61925577     23444 76.62941   18.90462 3.275891
  poppovertyknown percpovertyknown percbelowpoverty percchildbelowpovert percadultpoverty
1           63628         96.27478        13.151443             18.01172        11.009776
2           10529         99.08714        32.244278             45.82651        27.385647
3           14235         94.95697        12.068844             14.03606        10.852090
4           30337         98.47757         7.209019             11.17954         5.536013
5            4815         82.50514        13.520249             13.02289        11.143211
6           35107         98.37200        10.399635             14.15882         8.179287
  percelderlypoverty inmetro category ratio_child
1          12.443812       0      AAR    34.48631
2          25.228976       0      LHR    36.72125
3          12.697410       0      AAR    35.50130
4           6.217047       1      ALU    37.44076
5          19.200000       0      AAR    31.81974
6          11.008586       0      AAR    34.30845

Q2.미성년 인구 백분율이 가장 높은 상위 5개 county(지역)의 미성년 인구 백분율을 출력하세요.

> midwest %>% 
+   arrange(desc(ratio_child)) %>% 
+   select(county, ratio_child) %>% 
+   head(5)
     county ratio_child
1  ISABELLA    51.50117
2 MENOMINEE    50.59126
3    ATHENS    49.32073
4   MECOSTA    49.05918
5    MONROE    47.35818

Q3. 분류표의 기준에 따라 미성년 비율 등급 변수를 추가하고, 각 등급에 몇 개의 지역이 있는지 알아보세요.

분류 기준
large 40% 이상
middle 30% ~ 40% 미만
small 30% 미만

 

> # midwest에 grade 변수 추가
> midwest <- midwest %>%
+   mutate(grade = ifelse(ratio_child >= 40, "large",
+                         ifelse(ratio_child >= 30, "middle", "small")))
> 
> # 미성년 비율 등급 빈도표
> table(midwest$grade)  

 large middle  small 
    32    396      9

Q4. popasian은 해당 지역의 아시아인 인구를 나타냅니다. '전체 인구 대비 아시아인 인구 백분율' 변수를 추가하고, 하위 10개 지역의 state(), county(지역명), 아시아인 인구 백분율을 출력하세요.

> midwest %>%
+   mutate(ratio_asian = (popasian/poptotal)*100) %>%  # 백분율 변수 추가
+   arrange(ratio_asian) %>%                           # 내림차순 정렬
+   select(state, county, ratio_asian) %>%             # 변수 추출
+   head(10)                                           # 상위 10행 출력 
   state    county ratio_asian
1     WI MENOMINEE  0.00000000
2     IN    BENTON  0.01059210
3     IN   CARROLL  0.01594981
4     OH    VINTON  0.02703190
5     WI      IRON  0.03250447
6     IL     SCOTT  0.05315379
7     IN      CLAY  0.06071645
8     MI    OSCODA  0.06375925
9     OH     PERRY  0.06654625
10    IL     PIATT  0.07074865
728x90
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
반응형