학습목표- 텍스트 데이터 전처리의 중요성을 이해한다.- 텍스트 데이터 전처리를 통해 노이즈를 줄이고 정보를 정리할 수 있는 방법을 배운다. - 간단한 텍스트 정규화와 클리닝을 실습한다. 텍스트 데이터를 정리하고 깨끗하게!텍스트 데이터는 우리가 일상에서 접하는 이메일, 리뷰, 소셜 미디어 게시글, 뉴스 기사 등 다양한 형태로 존재하며, 세상에서 가장 흔히 볼 수 있는 비정형 데이터 중 하나이다. 이 데이터는 단순한 숫자나 표와 달리 사람들이 실제로 사용하는 언어를 담고 있어, 이를 분석하면 소비자 감정, 사회적 트렌드, 혹은 기술적인 지식까지도 파악할 수 있는 무궁무진한 가능성을 제공한다. 하지만 텍스트 데이터는 그 복잡성과 노이즈 때문에 분석하기 까다로운 데이터로도 유명하다. 과연 어떻게 방대한 양의 텍..
학습목표- 데이터 시각화의 중요성을 이해한다.- Python 라이브러리 Matplotlib의 기본 사용법을 학습한다.- 데이터프레임 생성 및 시각화를 통해 기본적인 그래프를 그리는 방법을 익힌다.- 타이타닉 데이터셋과 Iris 데이터셋을 활용하여 다양한 그래프를 그려보고 데이터를 분석한다.1. 데이터 시각화란? 데이터는 이야기이다.데이터 시각화는 단순히 숫자나 텍스트로 표현된 데이터를 시각적인 형태(그래프, 차트, 지도 등)로 변환하여 정보를 쉽게 이해할 수 있도록 전달하는 과정이다. 즉. 시각화된 데이터는 책 속에서 핵심 문장만을 하이라이트해 독자가 단번에 이야기를 이해하도록 돕는 것이다.1.1 데이터 시각화가 중요한 이유 (1) 복잡한 데이터를 쉽게 이해 복잡한 데이터를 쉽게 이해: 데이터를 숫자와 ..
학습목표- Pandas의 핵심 데이터 구조인 DataFrame과 Series를 이해한다.- 데이터 처리 및 분석에 필요한 Pandas 함수와 메서드를 학습한다.- 데이터를 정리, 필터링, 변환, 요약하는 방법을 실습한다.1. Pandas 란?Pandas는 파이썬(Python)에서 데이터셋의 데이터 분석, 정리, 탐색과 조작을 위해 널리 사용되는 라이브러리이다. Pandas는 구조화된 데이터를 효율적으로 다룰 수 있는 다양한 도구를 제공하며, 데이터 분석에서 중요한 역할을 한다.기원:"Pandas"라는 이름은 **"Panel Data"**와 **"Python Data Analysis"**를 의미한다.2008년 Wes McKinney가 개발하였다.Pandas의 주요 특징다양한 데이터 형식 지원CSV, Exc..
학습목표- Numpy의 개념과 역할 이해- 배열(Array) 생성 및 기본 연산- 배열 조작 및 데이터 처리 방법 학습"넘파이와 함께하는 데이터의 새로운 세계!“데이터 분석의 시작, 넘파이(Numpy)와 함께 효율적이고 강력한 배열 연산을 배워보자!1. Numpy 소개Numpy( Numerical Python. )란 무엇인가?2005년 Travis Oliphant에 의해 개발됨.Python에서 과학적 계산을 위한 라이브러리, 오픈소스: 무료로 사용할 수 있는 오픈소스 프로젝트.고성능 다차원 배열 객체 제공왜 사용하는가?속도와 효율성: Numpy 배열은 일반적인 Python 리스트보다 최대 50배 빠름.데이터 분석 및 머신러닝에 필수적임 : 속도와 자원이 중요한 데이터 분석에서 필수 도구.넘파이 설치pip..
학습목표- 파이썬 프로그래밍 언어의 특징 이해- Google Colab 환경 설정과 사용법 익히기- 파이썬 기초 문법 학습 (변수, 자료형, 기본 연산 등) " 🐍 뱀과는 무관한 프로그래밍 언어"1. 알아보기 : 파이썬 소개 1.1 파이썬 (Python) 이란?위키피디아파이썬(Python)은 1991년 네덜란드의 소프트웨어 엔지니어인 귀도 반 로섬이 발표한 고급 프로그래밍 언어로, 인터프리터를 사용하는 객체지향 언어이자 플랫폼에 독립적인 동적 타이핑(dynamically typed) 대화형 언어입니다. 파이썬(Python) 이름에 담긴 의미 한때 한 소프트웨어 개발자가 지루한 크리스마스 휴가를 보내고 있었습니다. 그는 자신이 필요로 하는 작업을 처리할 수 있는 간결하고 재미있는 프로그래밍 언어를 만들고..
학습목표- 텍스트 마이닝의 개념과 다양한 활용 사례를 이해한다.- 텍스트 마이닝을 위한 파이썬 환경을 익히고, Google Colab의 활용법을 학습한다. 세상은 매일 거대한 디지털 바다를 만들어냅니다. 그 바다에서 숨겨진 진주를 찾아볼 준비가 되셨나요? 💎 21세기는 엄청난 양의 다채로운 데이터가 홍수처럼 일상에 넘쳐나는 빅데이터의 시대입니다. 인터넷과 디지털 기술의 발달로 우리는 그 어느 때보다 많은 데이터를 생성하고 매일 엄청난 양의 텍스트를 접하고 있습니다. 예를 들어 매일 소셜 미디어에서 흥미로운 글을 읽거나, 리뷰를 확인하고, 이메일을 작성할 때 우리는 끊임없이 텍스트와 상호작용하고 있습니다. 그런데 이 텍스트들이 단순한 단어의 나열이 아니라, 세상을 이해하고 숨은 의미를 발견하는 보..
수업 개요대상: 비전공자 및 프로그래밍 초보자목표: 텍스트 데이터를 분석하고 시각화하며, 텍스트마이닝의 기초를 체계적으로 학습텍스트 데이터를 처리하기 위한 파이썬 기본 문법과 라이브러리를 학습한다.데이터 시각화 기법을 익히고 텍스트 데이터를 시각적으로 표현할 수 있다.텍스트 데이터를 분석하기 위한 전처리 기법을 적용할 수 있다.크롤링과 데이터 수집의 기초를 익힌다.텍스트 데이터를 분석하고 머신러닝 모델에 적용할 수 있다.텍스트마이닝의 주요 응용 분야를 이해하고 실습을 통해 적용할 수 있다.학습 도구: Python (Google Colab), 주요 라이브러리(Numpy, Pandas, Matplotlib, Scikit-learn 등)평가기준:출석: 10%과제 및 수업참여: 20%중간고사: 30%기말고사 및..
학습목표:pillow 라이브러리의 활용https://pillow.readthedocs.io/en/stable/ 1.필로우(Pillow)라이브러리란?Python Imaging Library(PIL)라는 파이썬 이미지 처리 라이브러리의 지원이 2011년 중단되고, Pillow가 PIL의 후속 프로젝트로 나왔습니다. 즉, Pillow가 공식 PIL이라고 보면 되겠네요. 실제로 import 할 때에도 PIL이라는 이름을 사용한답니다.다룰 수 있는 이미지 파일 형식으로는 PPM, PNG, JPEG, GIF, TIFF, BMP 등이 있으며, 지원하지 않는 파일 형식은 라이브러리를 확장해서 새로운 파일 디코더를 만드는 것이 가능하다고 합니다.이미지 처리를 위한 라이브러리 - , 이미지 파일을 생성, 수정, 열기 등 ..
학습목표:라이브러리의 개념을 익히고 외부 라이브러리를 설치 할 수 있다.다양한 외부 라이브러리를 익히고 프로그램에 사용 해 본다.1.라이브러리 개념라이브러리(library)는 도서관이라는 말 뜻대로 다양한 함수가 모인 곳즉 특정 작업을 수행하기 위해서 미리 작성된 코드의 집합다양한 기능을 제공하며, 프로그래머가 새로운 코드를 처음부터 작성할 필요없이 효율적으로 프로그램을 개발할 수 있게 도와 줌2.다양한 라이브러리 예NumPy: 과학 계산을 위한 기본적인 라이브러리, 강력한 N차원 배열 객체와 이를 처리하는 다양한 함수를 제공합니다. 선형대수, 푸리에 변환, 난수 생성 등의 기능을 포함합니다. 기본 패키지 중 하나입니다.Pandas: 데이터 처리와 분석을 위한 라이브러리, 특히 테이블 형태의 데이터를 다..
- Total
- Today
- Yesterday