AI | ML | LLM
2025. 8. 29.
머신 러닝 워크플로우(Machine Learning Workflow)
데이터를 수집하고 머신 러닝을 하는 과정은 크게 6가지로 나눌 수 있습니다.수집조사나 연구 목적에 의해 특정 도메인으로 수집된 데이터의 집합을 코퍼스 라고 부릅니다. 파일 형식은 txt, csv, xml 등으로 다양하며 출처 또한 음성 데이터, 웹 수집기 등을 통해 다양한 데이터가 수집됩니다. 탐색적 데이터 분석수집된 데이터를 점검하고 탐색하는 과정으로, 데이터의 구조, 노이즈, 머신 러닝 적용을 위해 어떻게 정제해야 하는지를 파악합니다.이를 EDA(Exploratory Data Analysis)라도도 하는데 독립 변수, 종속 변수, 변수 유형, 데이터 타입 등을 점검하여 데이터의 구조적 특징과 관계를 알아내는 과정을 거치게 됩니다. 전처리 및 정제파악한 데이터를 바탕으로 자연어 처리를 한다면 토큰화, ..