청개구리

Baseline Model 본문

알고리즘/Planning

Baseline Model

hylajaponica 2024. 6. 27. 18:03

어떤 문제를 해결함에 있어 머신러닝 혹은 딥러닝 모델을 개발하였다면, 이것의 비교군으로 삼을 수 있는 모델이 필요한 법이다.

그러한 목적으로 사용되는 모델을 Baseline Model이라 한다.

이는 보통 매우 간단한 통계 기법을 포함한 단순한 알고리즘을 사용하여 구축하며, 아래와 같이 데이터 특성 및 패턴 파악, 문제의 복잡도를 파악, 혹은 프로젝트의 방향성을 수립하는데 있어 중요한 역할을 하게 된다.

 

- 데이터 파악: 데이터의 특성 혹은 패턴을 파악하여 preprocessing 혹은 feature engineering 단계에서 활용 가능하다.

- 성능 평가 기준: 어떤 구조의 모델이 성능이 좋은지, 어느 정도의 성능 향상이 필요한지를 결정하는 기준이 된다.

- 프로젝트 방향성 수립: 성능 평가 결과에 따라 그에 맞추어 모델의 개발 방향을 속도 향상, 정확도 향상 등으로 맞춘다.

 

정리하자면, Baseline Model 수립은 매우 중요하다.

단순한 Baseline Model을 사용하더라도 성능이 좋다면 굳이 새로운 모델을 개발하고자 시간과 노력을 들일 필요가 없으며, 만약 복잡한 모델을 개발했을 때 Baseline Model보다 성능이 크게 향상되지 않는다면, 모델링 과정에서 문제가 있다고 볼 수도 있다.

 

아래는 간단한 예시이다.

빨간색은 데이터에 대해 단순한 평균값을 구한 것으로, 데이터를 잘 설명하지 못하고 있는 것을 볼 수 있다. 따라서 이를 더 잘 설명하기 위해 새로운 특성을 만들거나 제거할 수 있다.

혹은, 데이터의 특성과 문제 유형에 적합한 더 복잡한 모델을 사용하는 방법도 있다.

초록색은 비교적 복잡한 linear regression을 했을 때의 결과로, 데이터의 패턴을 학습하여 더 정확한 예측을 하는 것을 볼 수 있다.

Baseline Model: mean prediction / Complex Model: linear regression

 

이외에도, 문제 해결을 위해, 또는 모델의 성능을 개선하기 위해서는 Baseline Model을 기반으로 하여 아래와 같은 접근이 가능하다.

- Feature engineering

- Complex model, model ensemble

- Tuning hyperparameter

- Data preprocessing

- Model evaluation and improvement with new metrics