시작하며
머신러닝 공부를 시작하는 이유는 요새 LLM 등이 핫한데 이것 저것 만지다보니, 어떻게 이렇게 사고하는 모델을 만들었을까? 되게 궁금증이 많이 들었고 이런 기술을 좀 더 잘 이해하기 위해서는 기초 수학 -> 머신 러닝 -> 딥러닝 -> LLM 순으로 공부해서 조금 이해도를 점진적으로 확장시켜야 겠다는 생각을 했다. 여하튼, 이게 도움이 될지 안될지는 모르겠지만, 지금 당장 AI 를 공부하는것이 흥미 있어서 2025년은 조금 AI 공부에 많은 시간을 쏟지 않을까 싶다.
머신러닝이란?
머신러닝이란 주어진 데이터를 기반으로 일련의 패턴을 찾아 학습된 모형을 만드는 것을 뜻합니다. 학습된 모형을 이용해 제공되는 데이터에 대한 분류가 이뤄지거나, 일련의 예측등을 수행합니다.
지도 학습 vs 비지도 학습
지도학습은 정답을 알고 있는 데이터를 기반으로 학습하는 방법입니다. 이미 데이터에 대한 특성(feature)을 알고 있으며 해당 특성이 어떠한 타겟(Target) 으로 분류되어야 하는지도 알고 있는 상태입니다. 아직은 저도 머신러닝 입문이라 모르겠지만, 주로 초반에 데이터셋을 설정하는게 일련의 이 과정이지 않을까 싶습니다.
비지도 학습은 데이터에 대한 특성(feature) 만 알고 있는 상태이며 어떤 타겟으로 이뤄져야 하는지는 모르는 상태입니다. 즉, "빨간색", "주근깨 있음", "과일" 이라는 특성이 있을때 이 특성이 "딸기" 라는 타겟으로 이어져야 하는지 모르는 상태입니다. 따라서, 비지도 학습의 경우 어떤 타겟 데이터인지 정확하게 알수 없으므로 데이터 분포 형태를 통해 추측만이 가능합니다. 위와 같이 특성 데이터를 통해 데이터를 나누는 것을 군집(clustering) 이라고 부릅니다.