2009년 12월 10일 목요일

[번역] 부분최소제곱 회귀분석 Partial Least Squares Regression (PLSR)

[출처 http://www.vcclab.org/lab/pls/m_description.html]

Partial Least Squares (PLS) regression 기법은 독립변수의 수 (# of descriptors (independent variables)) 가 샘플의 수 (# of compounds (data points)) 보다 크거나 비슷할 때나, 변수들 간의 연관성에 영향을 끼치는 또 다른 요인들이 존재할 때 같은 매우 일반적인 상황에 특히 유용하다. 이러한 경우에 전통적인 Least Squares 문제의 해법은 존재하지 않거나 있어도 불안정하고 신뢰할 수 없다. 달리 이야기 하면, PLS 접근법은 상호연관성이 있는 독립변수에 대해 안정적인, 정확한, 그리고 꽤나 잘 예측하는 모델이다 [1-3].

같은 코드 개념이 유기 화합물의 QSAR 연구에 대해 우리가 제안한 [4] Molecular Field Topology Analysis (MFTA) 기술을 구현하는 소프트웨어에 성공적으로 이식되었다.

1. 일반적인 원리

Partial Least Squares 회귀분석은 수많은 원본 데이터를 적은 수의 직교요소(orthogonal factors)들로 표현되는 새로운 변수 공간으로 선형투영(linear transition) 하는데 기초하고 있다. 다른 말로, 이러한 factor들은 원본 데이터의 상호 독립적인 (mutually independent (orthogonal)) 선형 조합 (linear combination) 이 된다. principle component regression (PCR) 과 같은 몇몇 유사한 접근법과 달리 이러한 직교 factor들은 종속변수와 극대화된 상관관계를 갖도록 하는 방향으로 선택되어진다; 그리하여, PLS 모델은 가장 최소의 필수 factor들만 갖게 된다 [2]. 만약 이러한 factor들을 많이 갖게 되면 PLS 모델은 기존의 multiple linear regression과 동일한 형태를 띄도록 된다. 게다가, PLS 접근은 핵심 직교 factor들이 주요 몇개의 주성분 (principle components)들에 낮은 연관성을 가지고 있더라도 우리가 독립변수와 종속변수 사이에 관계를 예측할 수 있도록 해준다. 이러한 개념은 두개의 독립변수 x1, x2와 하나의 종속변수 y로 이루어진 가상의 데이타 셋으로 표현되는 그림1에서 설명되고 있다. 이것은 원본 변수 x1, x2가 심하게 상호연관되어 있는 것을 쉽게 보여주고 있다. 이들로부터, 우리는 원본 변수들의 선형 조합으로 표현되는 두 개의 직교요소 (orthogonal factors)인 t1, t2로 달리 표현할 수 있다. 그 결과 첫 번째 잠재 변수인 t1으로 종속변수 y를 연관시키는 단일 factor 모델이 찾아 진다.





a



b


Fig. 1. (a) 원본 변수의 잠재 변수로의 변환, 그리고 (b) 단일 PLS factor만을 포함하는 종속변수모델 구축.

k번째 factor를 생성하는 PLS 기법의 기본 알고리즘은 다음과 같이 표현 된다:



여기서, N - 데이터의 수, M - 독립변수의 수, X[N, M] - 독립변수 행렬, y[N] - 종속변수 백터, w[M] - 보조 가중 벡터, t[N] - factor 인자 벡터, p[M] - 로딩 벡터, q - factor와 종속변수 사의 연관관계의 스칼라 인자; 모든 벡터는 컬럼 벡터이고 k+1인자가 없는 항목들은 현재의 k번째 factor에 해당되는 것들이다.

새로운 잠재 변수들은 (loading 벡터 p로 표현되는 c인자들을 가지고) 원본 독립변수들의 선형 조합이기 때문에 새로운 factor 모델은 종속변수에 대한 각 독립변수의 영향을 간접적으로 표현한다.

2. 모델 예측


factor를 구축하는 접근방법은 유용 가능한 데이터의 독립변수가 적용가능한 파라미터를 최소한 사용할 수 있도록 해준다. 그리고 그 결과, 회귀 모델은 최상의 정확성과 안정성을 가져다 준다.그러나 이 모델에서 과도하게 많은 factor들을 포함시키는 것은 독립변수의 예측 정확도를 증가 시킬 수 있지만 독립변수와 종속변수 사이의 연관성의 진짜패턴을 정확히 표현하지 못하고 랜덤 노이즈와 학습 데이터의 개개의 특성만을 대변하는 모델이 되어 벼려 예측성을 감소 시킨다. 이러한 이유때문에 모델을 구축하는 동안 교차검증 (cross-validation) 과정을 통해서 성공적인 factor를 포함 시킨 후 예측 결과를 주시해야한다. 교차 검증 과정에서 모델 구축에 사용되어지지 않은 학습데이터에서 약간을 취하는 방식으로 계산이 수차례 이루어 진다. 그런 다음, 종속변수는 이러한 모델을 이용해서 배제되었던 데이터에 대해서 예측이 이루어진다. 각 데이터는 정확히 한번 배제되어지고,

댓글 없음:

댓글 쓰기