응답 벡터입니다. 요인, 분류가 가정되면 그렇지 않으면 회귀가 가정됩니다. 생략된 경우, 랜덤포레스트는 감독되지 않은 모드에서 실행됩니다. 이 경우 OOB 데이터 집합의 출력 클래스는 `아니요`입니다. 따라서 임의 포리스트 모델이 정확하려면 OOB 데이터를 의사 결정 트리 아래로 실행하면 과반수의 `아니오` 표를 얻어야 합니다. 이 과정은 모든 OOB 샘플에 대해 수행되며, 우리의 경우에는 하나의 OOB만 있었지만 대부분의 문제에서는 일반적으로 더 많은 샘플이 있습니다. 임의 포리스트는 의사 결정 트리 및 bagging과 동일한 기본 원칙에 따라 구축됩니다(이러한 기술에 대한 재교육이 필요한 경우 이 자습서를 확인하십시오). 배깅 트리는 단일 트리예측의 분산을 줄이고 예측 성능을 향상시키는 트리 빌드 프로세스에 임의의 구성 요소를 도입합니다. 그러나 모든 원래 예측 변수는 모든 트리의 모든 분할에서 고려되기 때문에 배깅의 나무는 서로 완전히 독립적이지 않습니다. 오히려 서로 다른 부트스트랩 샘플의 트리는 일반적으로 기본 관계로 인해 서로(특히 트리의 맨 위에) 서로 유사한 구조를 갖습니다. 따라서 각 단계에서 임의 예측 변수의 하위 집합을 고려하여 더 많은 의사 결정 트리를 만들어야 합니다. 이렇게 하려면 1단계로 돌아가서 새 부트스트랩된 데이터 집합을 만든 다음 각 단계에서 변수의 하위 집합만 고려하여 의사 결정 트리를 작성합니다.

따라서 위의 단계를 수행하면 임의 포리스트가 다음과 같이 보일 수 있습니다. 더 단순한 튜닝 특성과 필요한 기능이 거의 없기 때문에 사전 처리를 통해 예측 모델링 문제에 직면할 때 첫 번째 알고리즘 중 하나인 경우가 많습니다. 자세한 내용은 Breiman, L (2002), `임의의 숲 V3.1`을 설정, 사용 및 이해에 대한 설명서`, https://www.stat.berkeley.edu/~breiman/Using_random_forests_V3.1.pdf . 앞에서 언급한 것처럼 임의 포리스트는 의사 결정 트리의 앙상블이며 임의로 매개 변수 집합을 선택하고 선택한 각 매개 변수 집합에 대한 의사 결정 트리를 만듭니다. mtry 매개 변수를 시작하고 튜닝하는 데 관심이 있다면 randomForest::tuneRF를 사용하여 빠르고 쉽게 튜닝할 수 있습니다. tuneRf는 OOB 오류가 지정된 양으로 개선이 중지 될 때까지 공급하고 특정 단계 계수에 의해 증가 mtry의 값에서 시작합니다. 예를 들어 아래는 mtry = 5로 시작하여 OOB 오류가 1% 향상되지 않는 때까지 1.5배씩 증가합니다. tuneRF에는 별도의 x y 사양이 필요합니다. 이 시퀀스의 최적 mtry 값이 의 기본 mtry 값에 매우 가깝습니다.

이 튜토리얼은 당신이 R에서 임의의 숲을 구현하기 시작하거나 적어도이 놀라운 기술이 작동하는 방법 뒤에 기본 아이디어를 이해하기에 충분바랍니다. 또한 DataCamp의 R에서 앙상블 학습 및 트리 기반 모델링이라는 트리 기반 모델링에서 가장 좋아하는 코스 중 하나를 제안합니다. 이제 랜덤 포리스트의 작동 방식을 알았으므로 다양한 기계 학습 알고리즘에 대해 자세히 알아보고 싶습니다. 다음은 깊이있는 기계 학습 알고리즘의 다른 유형을 다루는 블로그 목록입니다, 우리는 22 수준으로 내려있어 그래서 우리는 우리가 마지막 수업에서했던 것처럼 다시 테스트를 분할하고 기차를 다시 훈련하고 임의의 포리스트를 성장.