파이썬 xgboost 예제

와우이 내가 정말이 프로그래밍을 배울 기꺼이 파이썬과 R 프로그래밍에 새로운 매우 흥미로운 것 같다. 여기에 사람이 내가 먼저 무엇을 배워야하거나 어디서부터 시작해야하는지 통해 나를 안내 할 수 있다면 감사하게 될 것입니다. 참조를 위해 XGBoost 파이썬 API 참조를 검토할 수 있습니다. 이 명령은 최신 xgboost 버전을 설치하지만 이전 버전을 사용하려는 경우 지정하면 극단적 인 그라데이션 부스팅 (xgboost)은 그라데이션 증폭 프레임 워크와 유사하지만 더 효율적입니다. 선형 모델 솔버와 트리 학습 알고리즘이 모두 있습니다. 따라서 단일 컴퓨터에서 병렬 계산을 수행할 수 있는 능력이 빠르게 작동합니다. XGBoost 설치 가이드에서 다른 플랫폼에 대해 XGBoost를 설치하는 방법에 대해 자세히 알아볼 수 있습니다. 파이썬을위한 XGBoost를 설치하기위한 최신 지침은 XGBoost 파이썬 패키지를 참조하십시오. 병렬 컴퓨팅: 병렬 처리(OpenMP 사용)로 활성화됩니다. 즉, xgboost를 실행할 때 기본적으로 랩톱 / 기계의 모든 코어를 사용합니다. 이 코드는 GBM에 사용한 코드와 약간 다릅니다.

이 문서의 초점은 코딩이 아니라 개념을 다루는 것입니다. 당신이 그것의 어떤 부분을 이해하는 데 어떤 도전을 발견하면 코멘트에 메모를 드롭 주시기 바랍니다. xgboost의 sklearn 래퍼에는 “feature_importances” 메트릭이 아니라 동일한 작업을 수행하는 get_fscore() 함수가 있습니다. 나는 이것을 사용하려고 : xgboost 가져오기 XGBClassifier 안녕하세요, 제이슨, 그런 좋은 설명을 주셔서 감사합니다, 당신은 우리가 xgboost에 맞는 기능을 호출하는 동안 훈련 정확도를 인쇄하는 방법에 대해 저를 도울 것인가? 교차 유효성 검사 사용: R에서는 일반적으로 카를트 및 mlr와 같은 외부 패키지를 사용하여 CV 결과를 얻습니다. 그러나 xgboost는 내부 CV 기능으로 활성화되어 있습니다 (아래 참조). 아나콘다2-4.2.0으로 xgboost 0.6a2를 사용하고 있습니다. 비슷한 문제가 있었는지 궁금합니다. 다음 단계는 XGBoost (파이썬의 다른 모든 기계 학습 알고리즘과 마찬가지로)가 모든 기능 벡터에 숫자만 포함해야하기 때문에 문자열 범주가있는 기능에 대한 서수 인코딩을 사용하는 것입니다. 그러나 이 작업을 제대로 수행하려면 두 가지를 함께 조인하고 인코딩을 적용하여 학습/테스트 연화 작업을 수행할 때 두 데이터 집합에 동일한 범주가 존재하도록 해야 합니다. 기술적으로 범주형 기능에 대해 one-hot 인코딩을 사용해야하는지 여부에 대한 몇 가지 논쟁이 있지만 (내재 된 순서가 없기 때문에) 주제에 대한이 토론을 흥미롭게 발견했습니다.

트리 기반 알고리즘에는 One-hot 인코딩이 필요하지 않은 것처럼 보이지만 선형 모델에서 이 것을 사용하는 데 문제가 발생할 수 있습니다. 나는 개인적으로 서수 인코딩이 충분하고 꽤 많은 범주적 기능이있는 경우 메모리 공간을 크게 줄인다.

カテゴリー未分類