Ch0_비전공자를 위한 텍스트마이닝 with Python

티스토리 뷰

Python/Text Mining

Ch0_비전공자를 위한 텍스트마이닝 with Python

jsBae 2025. 1. 16. 17:55

수업 개요

대상: 비전공자 및 프로그래밍 초보자
목표: 텍스트 데이터를 분석하고 시각화하며, 텍스트마이닝의 기초를 체계적으로 학습
- 텍스트 데이터를 처리하기 위한 파이썬 기본 문법과 라이브러리를 학습한다.
- 데이터 시각화 기법을 익히고 텍스트 데이터를 시각적으로 표현할 수 있다.
- 텍스트 데이터를 분석하기 위한 전처리 기법을 적용할 수 있다.
- 크롤링과 데이터 수집의 기초를 익힌다.
- 텍스트 데이터를 분석하고 머신러닝 모델에 적용할 수 있다.
- 텍스트마이닝의 주요 응용 분야를 이해하고 실습을 통해 적용할 수 있다.
학습 도구: Python (Google Colab), 주요 라이브러리(Numpy, Pandas, Matplotlib, Scikit-learn 등)
평가기준:
- 출석: 10%
- 과제 및 수업참여: 20%
- 중간고사: 30%
- 기말고사 및 과제: 40%

주차별 수업계획

주차	주제	이론	실습
1주차	1장. 텍스트마이닝 개요 및 환경설정	- 수업 오리엔테이션 - 텍스트마이닝 정의 및 활용 사례 - Google Colab 소개 및 기본 사용법	- Colab에서 "Hello, Text Mining!" 출력 - Python 간단한 코드 실행
2주차	2장 파이썬 기초 I	- 환경 설정 및 기본 문법 - 데이터 유형(숫자, 문자열, 리스트 등) - 조건문, 반복문 기초	- 변수 선언 및 조건문/반복문 실습 - 간단한 계산 프로그램 작성
3주차	3장 파이썬 기초 II	- 제어문 (조건문, 반복문) - 함수 정의와 호출	- 숫자의 홀짝 판단 프로그램 만들기 - 리스트와 반복문 활용 - 내장모듈 실습
4주차	4장. 데이터 분석 기초 I - Numpy	- Numpy 라이브러리 소개 - 배열(Array) 생성 및 연산	- 2D 배열 생성 및 행렬 연산
5주차	5장. 데이터 분석 기초 II - Pandas	- Pandas를 활용한 데이터프레임 생성 및 주요 메서드 - 데이터 분석의 기본 개념	- 타이타닉 데이터셋 로드 - 주요 컬럼 탐색 및 데이터 통계 분석
6주차	6장. 데이터 시각화 기초	- Matplotlib을 활용한 그래프 시각화 기초 - 데이터 시각화의 중요성	- 간단한 데이터프레임 생성 및 시각화 - 타이타닉 생존률 데이터로 막대그래프 및 파이 차트 그리기 - Iris데이트셋 활용
7주차	7장. 텍스트 데이터 전처리 I	- 텍스트 데이터를 다루는 기본 기술 - 텍스트 데이터 전처리의 중요성 - 문자열 처리(소문자 변환, 불필요한 문자 제거)	- 간단한 텍스트 정규화 및 클리닝 실습
8주차	중간고사
9주차	8장. 텍스트 데이터 전처리 II	- 불용어 제거 및 토큰화 - NLTK 라이브러리 소개 - 형태소 분석 개요 (KoNLPy 활용)	- NLTK를 활용한 간단한 토큰화 실습 - 불용어 제거 및 단어 빈도 계산
10주차	9장. 웹 크롤링 기초	- BeautifulSoup을 활용한 웹 데이터 크롤링 개요	- 뉴스 웹사이트에서 기사 제목 크롤링 - 크롤링 데이터를 저장 및 확인
11주차	10장. 텍스트 데이터 시각화	- WordCloud를 활용한 시각화 - 단어 빈도를 효과적으로 표현하는 방법	- 크롤링된 데이터로 WordCloud 생성
12주차	11장 텍스트 데이터를 벡터화	- Bag-of-Words와 TF-IDF 개념 - Scikit-learn을 활용한 텍스트 벡터화	- 영화 리뷰 데이터를 TF-IDF로 벡터화 - 벡터 데이터를 확인
13주차	12장 텍스트 분류 기초	- 머신러닝 분류 모델 개요 - 로지스틱 회귀 모델을 활용한 텍스트 분류	- 영화 리뷰 데이터를 긍정/부정으로 분류 - 모델의 정확도 평가
14주차	13장 텍스트 데이터 클러스터링	- K-Means 클러스터링 개념 - 텍스트 데이터를 군집화하는 방법	- 뉴스 제목 데이터를 K-Means로 군집화 - 각 클러스터의 핵심 키워드 확인
15주차	14장 종합 실습 1: 영화 리뷰 감성 분석	- 감성 분석의 기초와 응용	- IMDB 영화 리뷰 데이터로 긍정/부정 감성 분석 - WordCloud로 긍정/부정 단어 시각화
	종합 실습 2: 트윗 데이터 키워드 분석	- 키워드 분석과 군집화 활용	- 트윗 데이터를 전처리 및 K-Means 클러스터링 - WordCloud로 키워드 시각화

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

글 보관함

multiking

티스토리 뷰

Ch0_비전공자를 위한 텍스트마이닝 with Python

수업 개요

주차별 수업계획

티스토리툴바