2026년 1월 16일 금요일

인공지능에서 데이터 셋(data set), 샘플(sample), 혹은 모수(population)

  크게 세 종류로 분류된다. 

training set: 입력데이터를 적용해서 실제 결과와 이상적인 결과의 에러를 측정하여 네트워크의 값들을 적절하게 업데이트하는데 사용하는 데이터.

validation set: 위와 같은 학습 중간중간에 학습에 투여되지 않은 데이터를 입력으로 넣어서 마찬가지의 에러를 측정한다. 그래서 과적합(overfitting)을 측정하는데 사용한다. 

test set: 위의 두 종류의 데이터로 최종 학습된 인공지능의 최종 성능을 평가 하기 위한 또 다른 데이터 셋.

종종 validation 과 test set이 혼동된다.

다음은 Ripley가 1996에 쓴 책 Pattern Recognition and Neural Networks (p.354)에 정의한 내용이다.

Training set:
    A set of examples used for learning, that is to fit the parameters [i.e., weights] of the classifier.  - 학습에 사용하는 데이터, 분류기의 내부 파라미터(가중치)를 적절하게 결정하는데 사용한다.


Validation set:
    A set of examples used to tune the parameters [i.e., architecture, not weights] of a classifier, for example to choose the number of hidden units in a neural network. - 분류기의 외부 파라미터(가중치가 아니라 일종의 외부 변수 - 네트워크 깊이, 학습법, 평가법, 학습횟수, 등)을 선택하는데 사용하는 데이터.


Test set:
    A set of examples used only to assess the performance [generalization] of a fully-specified classifier. - 완전히 결정된 분류기의 성능을 평가하기 위한 데이터 셋.

 참고자료:

 Archive-name: ai-faq/neural-nets/part1
Last-modified: 2002-05-17
URL: ftp://ftp.sas.com/pub/neural/FAQ.html
Maintainer: saswss@unx.sas.com (Warren S. Sarle)

댓글 없음:

댓글 쓰기