본문 바로가기

Study21

[NLP] 3. Cluster Analysis 군집 분석이란 유사성을 기반으로 군집을 분류하고 군집에 따라 유형 별 특징을 분석하는 기법이다.텍스트에 대한 군집 분석에서는 군집으로 묶여진 텍스트들끼리 최대한 유사하고 다른 군집으로 묶여진 텍스트들과는 최대한 유사하지 않도록 분류한다.1. 텍스트 유사도텍스트 쌍에 대한 자카드 유사도와 코사인 유사도를 계산한다.Jaccard Similarity두 텍스트 문서 사이에 공통된 용어의 수와 해당 텍스트에 존재하는 총 고유 용어 수의 비율을 사용한다. from nltk import word_tokenizefrom nltk.stem import WordNetLemmatizerfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.metric.. 2024. 8. 19.
[NLP] 2. Keyword Analysis 키워드 분석핵심어(keyword)란 텍스트 자료의 중요한 내용을 압축적으로 제시하는 단어 또는 문구이다.키워드 분석이란 불용어 제거와 어간 추출 및 형태소 분석 등의 자연어 처리를 시행한 후 텍스트에서 많이 등장하는 형태소의 등장 빈도를 분석함으로써 핵심어를 추출하는 것이다.특정 텍스트 자료에 많이 나타나는 형태소가 그 텍스트 주제를 표출할 가능성이 높다는 가정에 기초한다.빈도 분석에서 영어의 전치사나 한국어의 조사와 같이 의미를 별로 담고 있지 않은 불용어는 제외하는 것이 좋다.키워드 분석은 텍스트의 주제 추정, 텍스트 유사도, 검색 엔진의 검색 결과 우선 순위 측정 등 다양하게 사용될 수 있다.네이버 영화 리뷰 데이터데이터를 확인해 보면 모두 바이트로 이루어져 있으며, 리뷰 외의 다른 데이터도 존재한.. 2024. 8. 19.
[NLP] 1. National Language Processing 자연어는 일상 생활에서 사용하는 언어를 뜻한다.자연어 처리는 자연어의 의미를 분석 처리하는 일이다.텍스트 분류, 감정 분석, 문서 요약, 번역, 질의 응답, 음성 인식, 챗봇과 같이 응용될 수 있다.텍스트 처리1. 대소문자 통합대소문자를 통합하지 않는다면 컴퓨터는 같은 단어를 다르게 받아들인다.파이썬의 내장 함수인 lower(), upper()를 통해 간단하게 통합이 가능하다.word = 'AbCdEfGh'lower = word.lower()upper = word.upper()print(lower, upper)---------------------abcdefh ABCDEFG2. 정규 표현식정규 표현식은 특정 문자들을 편리하게 지정하고 추가, 삭제가 가능하다.데이터 전처리에서 정규 표현식을 많이 사용한다... 2024. 8. 19.