학습목표- Bag of Words의 개념과 원리를 이해한다.- CountVectorizer를 활용해 텍스트 데이터를 벡터화하는 방법을 익힌다.- 벡터화된 데이터를 분석하고 단어 사전과 행렬을 해석할 수 있다.- 실습과 시각화를 통해 텍스트 데이터의 유용한 정보를 추출하고 활용한다.1. Bag of Words ?스파이의 암호 해독 이야기어느 날, 스파이들이 사용하는 암호 메시지를 해독해야 하는 상황에 놓였다고 상상해보자. 메시지는 온갖 단어로 이루어져 있지만 그 안에 숨겨진 패턴을 찾아야 한다. 이때 우리가 사용하는 도구가 바로 "Bag of Words"이다. "Bag of Words"는 단어를 '그냥 모아놓은 주머니'처럼 생각하는 기법으로, 단어가 몇 번 사용되었는지만 세는 아주 단순하면서도 강력한 방법..
학습목표- 텍스트 데이터를 시각화하는 방법으로서 워드클라우드의 원리를 이해한다.- 파이썬 WordCloud 라이브러리를 사용하여 텍스트 데이터를 시각화한다.- 불용어 제거와 같은 기본적인 데이터 정리를 배운다.- 마스크 이미지를 사용해 다양한 형태의 워드클라우드를 만든다.- 워드클라우드를 통해 중요한 키워드와 패턴을 파악한다.텍스트 데이터 시각화에서 워드클라우드(WordCloud)는 텍스트 데이터에서 중요한 키워드나 빈도수가 높은 단어를 효과적으로 시각화하는 데 유용하다. 이번 학습에서는 워드클라우드의 기본 개념과 함께 실제 구현 예시와 연습문제를 통해 활용 방법을 익힌다. "단어에도 무게가 있다면, 어떤 단어는 가벼이 지나가고, 어떤 단어는 무겁게 남는다." 1. WordCloud의 개념 "단어에도 ..
학습목표- 웹 크롤링의 기본 개념과 BeautifulSoup 사용법을 이해한다.- 실제 웹사이트에서 필요한 데이터를 가져올 수 있는 능력을 배운다.- 크롤링한 데이터를 저장하고 활용하는 방법을 익힌다.1. 웹 크롤링 (Web Crawling) 개요거미가 거미줄을 기어다니는 것처럼1) 웹 크롤링 (Web Crawling) 이란?웹 크롤링(Web Crawling)은 인터넷 상의 다양한 웹 페이지를 탐색하며 데이터를 수집하는 기술이다. "크롤링(Crawling)"이라는 용어는 거미(Spider)가 거미줄(Web)을 탐색하듯, 프로그램이 웹(Web)을 탐색하면서 데이터를 수집하는 방식을 비유적으로 표현한 데서 유래되었다. 초기 인터넷 시대에는 웹사이트의 수가 폭발적으로 증가하면서 사람이 원하는 정보를 효율적으로..
학습목표- 한국어 텍스트 데이터를 전처리하는 기본 개념과 실습 방법을 익힌다.- 형태소 분석의 개념과 대표적인 한국어 형태소 분석기(Konlpy)를 익힌다.- NLTK와 KoNLPy 라이브러리를 활용하여 텍스트 데이터의 토큰화와 불용어 제거를 학습한다.- 실습을 통해 단어 빈도를 계산하고 간단한 텍스트 분석을 수행한다. "한국어와 자연어 처리의 첫 만남""규칙과 예외, 그리고 맥락이 어우러진 예술 언어는 인간이 세상과 소통하는 가장 오래된 도구이자, 가장 정교한 시스템입니다. 하지만 그중에서도 한국어는 특별합니다. 세계의 언어학자들은 한국어를 "규칙과 예외, 그리고 맥락이 어우러진 예술"이라고 부르곤 합니다. 왜냐하면 한국어는 단순히 단어와 문장이 아닌, 의미를 담은 구조로 구성되어 있기 때문입니다.“왜..
학습목표- 텍스트 데이터 전처리의 중요성을 이해한다.- 텍스트 데이터 전처리를 통해 노이즈를 줄이고 정보를 정리할 수 있는 방법을 배운다. - 간단한 텍스트 정규화와 클리닝을 실습한다. 텍스트 데이터를 정리하고 깨끗하게!텍스트 데이터는 우리가 일상에서 접하는 이메일, 리뷰, 소셜 미디어 게시글, 뉴스 기사 등 다양한 형태로 존재하며, 세상에서 가장 흔히 볼 수 있는 비정형 데이터 중 하나이다. 이 데이터는 단순한 숫자나 표와 달리 사람들이 실제로 사용하는 언어를 담고 있어, 이를 분석하면 소비자 감정, 사회적 트렌드, 혹은 기술적인 지식까지도 파악할 수 있는 무궁무진한 가능성을 제공한다. 하지만 텍스트 데이터는 그 복잡성과 노이즈 때문에 분석하기 까다로운 데이터로도 유명하다. 과연 어떻게 방대한 양의 텍..
학습목표- 데이터 시각화의 중요성을 이해한다.- Python 라이브러리 Matplotlib의 기본 사용법을 학습한다.- 데이터프레임 생성 및 시각화를 통해 기본적인 그래프를 그리는 방법을 익힌다.- 타이타닉 데이터셋과 Iris 데이터셋을 활용하여 다양한 그래프를 그려보고 데이터를 분석한다.1. 데이터 시각화란? 데이터는 이야기이다.데이터 시각화는 단순히 숫자나 텍스트로 표현된 데이터를 시각적인 형태(그래프, 차트, 지도 등)로 변환하여 정보를 쉽게 이해할 수 있도록 전달하는 과정이다. 즉. 시각화된 데이터는 책 속에서 핵심 문장만을 하이라이트해 독자가 단번에 이야기를 이해하도록 돕는 것이다.1.1 데이터 시각화가 중요한 이유 (1) 복잡한 데이터를 쉽게 이해 복잡한 데이터를 쉽게 이해: 데이터를 숫자와 ..
- Total
- Today
- Yesterday
- 스마트기술
- IOT
- 텍스트마이닝
- 휴리스틱평가
- 챗GPT
- 컴퓨팅사고력
- 피그마
- 파이썬기초
- 4차산업혁명
- python
- 프로토타입
- 초보자를 위한 텍스트마이닝
- 파이썬
- Idle
- HIG
- Text Mining
- 텍스트 마이닝
- UX
- 관계자분석
- 데이터R지
- 챗봇
- HCI
- 파이썬 기초
- matplotlib
- 안드로이드
- 데이타R지
- figma
- UI
- 사물인터넷
- 라이브러리
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
