티스토리 뷰
수업 개요
- 대상: 비전공자 및 프로그래밍 초보자
- 목표: 텍스트 데이터를 분석하고 시각화하며, 텍스트마이닝의 기초를 체계적으로 학습
- 텍스트 데이터를 처리하기 위한 파이썬 기본 문법과 라이브러리를 학습한다.
- 데이터 시각화 기법을 익히고 텍스트 데이터를 시각적으로 표현할 수 있다.
- 텍스트 데이터를 분석하기 위한 전처리 기법을 적용할 수 있다.
- 크롤링과 데이터 수집의 기초를 익힌다.
- 텍스트 데이터를 분석하고 머신러닝 모델에 적용할 수 있다.
- 텍스트마이닝의 주요 응용 분야를 이해하고 실습을 통해 적용할 수 있다.
- 학습 도구: Python (Google Colab), 주요 라이브러리(Numpy, Pandas, Matplotlib, Scikit-learn 등)
- 평가기준:
- 출석: 10%
- 과제 및 수업참여: 20%
- 중간고사: 30%
- 기말고사 및 과제: 40%
주차별 수업계획
| 주차 | 주제 | 이론 | 실습 |
| 1주차 | 1장. 텍스트마이닝 개요 및 환경설정 |
- 수업 오리엔테이션 - 텍스트마이닝 정의 및 활용 사례 - Google Colab 소개 및 기본 사용법 |
- Colab에서 "Hello, Text Mining!" 출력 - Python 간단한 코드 실행 |
| 2주차 | 2장 파이썬 기초 I |
- 환경 설정 및 기본 문법 - 데이터 유형(숫자, 문자열, 리스트 등) - 조건문, 반복문 기초 |
- 변수 선언 및 조건문/반복문 실습 - 간단한 계산 프로그램 작성 |
| 3주차 | 3장 파이썬 기초 II |
- 제어문 (조건문, 반복문) - 함수 정의와 호출 |
- 숫자의 홀짝 판단 프로그램 만들기 - 리스트와 반복문 활용 - 내장모듈 실습 |
| 4주차 | 4장. 데이터 분석 기초 I - Numpy |
- Numpy 라이브러리 소개 - 배열(Array) 생성 및 연산 |
- 2D 배열 생성 및 행렬 연산 |
| 5주차 | 5장. 데이터 분석 기초 II - Pandas |
- Pandas를 활용한 데이터프레임 생성 및 주요 메서드 - 데이터 분석의 기본 개념 |
- 타이타닉 데이터셋 로드 - 주요 컬럼 탐색 및 데이터 통계 분석 |
| 6주차 | 6장. 데이터 시각화 기초 |
- Matplotlib을 활용한 그래프 시각화 기초 - 데이터 시각화의 중요성 |
- 간단한 데이터프레임 생성 및 시각화 - 타이타닉 생존률 데이터로 막대그래프 및 파이 차트 그리기 - Iris데이트셋 활용 |
| 7주차 | 7장. 텍스트 데이터 전처리 I |
- 텍스트 데이터를 다루는 기본 기술 - 텍스트 데이터 전처리의 중요성 - 문자열 처리(소문자 변환, 불필요한 문자 제거) |
- 간단한 텍스트 정규화 및 클리닝 실습 |
| 8주차 | 중간고사 | ||
| 9주차 | 8장. 텍스트 데이터 전처리 II |
- 불용어 제거 및 토큰화 - NLTK 라이브러리 소개 - 형태소 분석 개요 (KoNLPy 활용) |
- NLTK를 활용한 간단한 토큰화 실습 - 불용어 제거 및 단어 빈도 계산 |
| 10주차 | 9장. 웹 크롤링 기초 |
- BeautifulSoup을 활용한 웹 데이터 크롤링 개요 | - 뉴스 웹사이트에서 기사 제목 크롤링 - 크롤링 데이터를 저장 및 확인 |
| 11주차 | 10장. 텍스트 데이터 시각화 |
- WordCloud를 활용한 시각화 - 단어 빈도를 효과적으로 표현하는 방법 |
- 크롤링된 데이터로 WordCloud 생성 |
| 12주차 | 11장 텍스트 데이터를 벡터화 |
- Bag-of-Words와 TF-IDF 개념 - Scikit-learn을 활용한 텍스트 벡터화 |
- 영화 리뷰 데이터를 TF-IDF로 벡터화 - 벡터 데이터를 확인 |
| 13주차 | 12장 텍스트 분류 기초 |
- 머신러닝 분류 모델 개요 - 로지스틱 회귀 모델을 활용한 텍스트 분류 |
- 영화 리뷰 데이터를 긍정/부정으로 분류 - 모델의 정확도 평가 |
| 14주차 | 13장 텍스트 데이터 클러스터링 |
- K-Means 클러스터링 개념 - 텍스트 데이터를 군집화하는 방법 |
- 뉴스 제목 데이터를 K-Means로 군집화 - 각 클러스터의 핵심 키워드 확인 |
| 15주차 | 14장 종합 실습 1: 영화 리뷰 감성 분석 |
- 감성 분석의 기초와 응용 | - IMDB 영화 리뷰 데이터로 긍정/부정 감성 분석 - WordCloud로 긍정/부정 단어 시각화 |
| 종합 실습 2: 트윗 데이터 키워드 분석 | - 키워드 분석과 군집화 활용 | - 트윗 데이터를 전처리 및 K-Means 클러스터링 - WordCloud로 키워드 시각화 |
728x90
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
반응형