티스토리 뷰

수업 개요

  • 대상: 비전공자 및 프로그래밍 초보자
  • 목표: 텍스트 데이터를 분석하고 시각화하며, 텍스트마이닝의 기초를 체계적으로 학습
    • 텍스트 데이터를 처리하기 위한 파이썬 기본 문법과 라이브러리를 학습한다.
    • 데이터 시각화 기법을 익히고 텍스트 데이터를 시각적으로 표현할 수 있다.
    • 텍스트 데이터를 분석하기 위한 전처리 기법을 적용할 수 있다.
    • 크롤링과 데이터 수집의 기초를 익힌다.
    • 텍스트 데이터를 분석하고 머신러닝 모델에 적용할 수 있다.
    • 텍스트마이닝의 주요 응용 분야를 이해하고 실습을 통해 적용할 수 있다.
  • 학습 도구: Python (Google Colab), 주요 라이브러리(Numpy, Pandas, Matplotlib, Scikit-learn 등)
  • 평가기준:
    • 출석: 10%
    • 과제 및 수업참여: 20%
    • 중간고사: 30%
    • 기말고사 및 과제: 40%

주차별 수업계획

 

주차 주제 이론 실습
1주차 1장.
텍스트마이닝 개요 및 환경설정
- 수업 오리엔테이션
- 텍스트마이닝 정의 및 활용 사례
- Google Colab 소개 및 기본 사용법
- Colab에서 "Hello, Text Mining!" 출력
- Python 간단한 코드 실행
2주차 2장
파이썬 기초 I
- 환경 설정 및 기본 문법
- 데이터 유형(숫자, 문자열, 리스트 등)
- 조건문, 반복문 기초
- 변수 선언 및 조건문/반복문 실습
- 간단한 계산 프로그램 작성
3주차 3장
파이썬 기초 II
- 제어문 (조건문, 반복문)
- 함수 정의와 호출
- 숫자의 홀짝 판단 프로그램 만들기
- 리스트와 반복문 활용
- 내장모듈 실습
4주차 4장.
데이터 분석 기초 I - Numpy
- Numpy 라이브러리 소개
- 배열(Array) 생성 및 연산
- 2D 배열 생성 및 행렬 연산
5주차 5장.
데이터 분석 기초 II - Pandas
- Pandas를 활용한 데이터프레임 생성 및 주요 메서드
- 데이터 분석의 기본 개념
- 타이타닉 데이터셋 로드
- 주요 컬럼 탐색 및 데이터 통계 분석
6주차 6장.
데이터 시각화 기초
- Matplotlib을 활용한 그래프 시각화 기초
- 데이터 시각화의 중요성
- 간단한 데이터프레임 생성 및 시각화
- 타이타닉 생존률 데이터로 막대그래프 및 파이 차트 그리기
- Iris데이트셋 활용
7주차 7장.
텍스트 데이터 전처리 I
- 텍스트 데이터를 다루는 기본 기술
- 텍스트 데이터 전처리의 중요성
- 문자열 처리(소문자 변환, 불필요한 문자 제거)
- 간단한 텍스트 정규화 및 클리닝 실습
8주차 중간고사    
9주차 8장.
텍스트 데이터 전처리 II
- 불용어 제거 및 토큰화
- NLTK 라이브러리 소개
- 형태소 분석 개요 (KoNLPy 활용)
- NLTK를 활용한 간단한 토큰화 실습
- 불용어 제거 및 단어 빈도 계산
10주차 9장.
웹 크롤링 기초
- BeautifulSoup을 활용한 웹 데이터 크롤링 개요 - 뉴스 웹사이트에서 기사 제목 크롤링
- 크롤링 데이터를 저장 및 확인
11주차 10장.
텍스트 데이터 시각화
- WordCloud를 활용한 시각화
- 단어 빈도를 효과적으로 표현하는 방법
- 크롤링된 데이터로 WordCloud 생성
12주차 11장
텍스트 데이터를 벡터화
- Bag-of-Words와 TF-IDF 개념
- Scikit-learn을 활용한 텍스트 벡터화
- 영화 리뷰 데이터를 TF-IDF로 벡터화
- 벡터 데이터를 확인
13주차 12장
텍스트 분류 기초
- 머신러닝 분류 모델 개요
- 로지스틱 회귀 모델을 활용한 텍스트 분류
- 영화 리뷰 데이터를 긍정/부정으로 분류
- 모델의 정확도 평가
14주차 13장
텍스트 데이터 클러스터링
- K-Means 클러스터링 개념
- 텍스트 데이터를 군집화하는 방법
- 뉴스 제목 데이터를 K-Means로 군집화
- 각 클러스터의 핵심 키워드 확인
15주차 14장
종합 실습 1: 영화 리뷰 감성 분석
- 감성 분석의 기초와 응용 - IMDB 영화 리뷰 데이터로 긍정/부정 감성 분석
- WordCloud로 긍정/부정 단어 시각화
  종합 실습 2: 트윗 데이터 키워드 분석 - 키워드 분석과 군집화 활용 - 트윗 데이터를 전처리 및 K-Means 클러스터링
- WordCloud로 키워드 시각화

 

728x90
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
반응형