Was ist Bagging (Bootstrap Aggregation)?

Das maschinelle Lernen von Ensembles kann hauptsächlich in Absacken und Boosten unterteilt werden. Die Absacktechnik ist sowohl für die Regression als auch für die statistische Klassifizierung nützlich. Das Absacken wird bei Entscheidungsbäumen verwendet, wo es die Stabilität von Modellen bei der Verringerung der Varianz und der Verbesserung der Genauigkeit erheblich erhöht, wodurch die Herausforderung einer Überanpassung beseitigt wird.

Absacken

Abbildung 1. Ablauf des Absackens (Bootstrap-Aggregation). Quelle

Das Absacken beim maschinellen Lernen im Ensemble erfordert mehrere schwache Modelle, bei denen die Vorhersagen zusammengefasst werden, um die beste Vorhersage auszuwählen. Die schwachen Modelle sind auf bestimmte Bereiche des Funktionsbereichs spezialisiert, sodass von jedem Modell Vorhersagen zur Hebelwirkung beim Absacken getroffen werden können, um den größtmöglichen Zweck zu erreichen.

Schnelle Ergänzung

  • Absacken und Boosten sind die beiden Hauptmethoden des maschinellen Lernens im Ensemble.
  • Das Absacken ist eine Ensemble-Methode, die bei der Regression und Klassifizierung verwendet werden kann.
  • Es ist auch als Bootstrap-Aggregation bekannt, die die beiden Klassifikationen des Absackens bildet.

Was ist Bootstrapping?

Das Absacken besteht aus zwei Teilen: Aggregation und Bootstrapping. Bootstrapping ist eine Stichprobenmethode, bei der eine Stichprobe mithilfe der Ersetzungsmethode aus einem Satz ausgewählt wird. Der Lernalgorithmus wird dann an den ausgewählten Proben ausgeführt.

Die Bootstrapping-Technik verwendet Stichproben mit Ersetzungen, um das Auswahlverfahren vollständig zufällig zu machen. Wenn eine Stichprobe ersatzlos ausgewählt wird, hängen die nachfolgenden Auswahlen von Variablen immer von den vorherigen Auswahlen ab, sodass die Kriterien nicht zufällig sind.

Was ist Aggregation?

Modellvorhersagen werden aggregiert, um sie für die endgültige Vorhersage zu kombinieren und alle möglichen Ergebnisse zu berücksichtigen. Die Aggregation kann basierend auf der Gesamtzahl der Ergebnisse oder auf der Wahrscheinlichkeit von Vorhersagen erfolgen, die aus dem Bootstrapping jedes Modells in der Prozedur abgeleitet werden.

Was ist eine Ensemble-Methode?

Sowohl das Absacken als auch das Boosten bilden die bekanntesten Ensemble-Techniken. Eine Ensemble-Methode ist eine Plattform für maschinelles Lernen, die mehreren Modellen beim Training hilft, indem sie denselben Lernalgorithmus verwendet. Die Ensemble-Methode ist Teilnehmer einer größeren Gruppe von Multi-Klassifikatoren.

Multi-Klassifikatoren sind eine Gruppe von mehreren Lernenden, die zu Tausenden zusammenlaufen, mit einem gemeinsamen Ziel, das ein gemeinsames Problem verschmelzen und lösen kann. Eine weitere Kategorie von Multi-Klassifikatoren sind Hybridmethoden. Die Hybridmethoden verwenden eine Reihe von Lernenden, können jedoch im Gegensatz zu den Multi-Klassifikatoren unterschiedliche Lernmethoden verwenden.

Das Lernen steht vor zahlreichen Herausforderungen, z. B. Fehlern, die hauptsächlich auf Verzerrungen, Rauschen und Varianz zurückzuführen sind. Die Genauigkeit und Stabilität des maschinellen Lernens wird durch Ensemble-Methoden wie Absacken und Boosten gewährleistet. Kombinationen aus mehreren Klassifizierern verringern die Varianz, insbesondere wenn Klassifizierer instabil sind, und sie sind wichtig für die Darstellung zuverlässigerer Ergebnisse als ein einzelner Klassifizierer.

Die Anwendung von Absacken oder Boosten erfordert zunächst die Auswahl eines Basislernalgorithmus. Wenn man beispielsweise einen Klassifizierungsbaum wählt, ist Boosten und Absacken ein Pool von Bäumen mit einer Größe, die der Präferenz des Benutzers entspricht.

Vor- und Nachteile des Absackens

Zufälliger Wald Zufälliger Wald Zufälliger Wald ist eine Technik, die zur Modellierung von Vorhersagen und Verhaltensanalysen verwendet wird und auf Entscheidungsbäumen basiert. Ein zufälliger Wald mit vielen Entscheidungsbäumen ist einer der beliebtesten Absackalgorithmen. Das Absacken bietet den Vorteil, dass viele schwache Lernende ihre Bemühungen kombinieren können, um einen einzelnen starken Lernenden zu übertreffen. Es hilft auch bei der Reduzierung der Varianz, wodurch die Überanpassung beseitigt wird. Überanpassung Überanpassung ist ein Begriff, der in Statistiken verwendet wird und sich auf einen Modellierungsfehler bezieht, der auftritt, wenn eine Funktion einem bestimmten Datensatz von Modellen in der Prozedur zu genau entspricht.

Ein Nachteil des Absackens besteht darin, dass die Interpretierbarkeit eines Modells verloren geht. Das resultierende Modell kann viele Verzerrungen erfahren, wenn das richtige Verfahren ignoriert wird. Obwohl das Absacken sehr genau ist, kann es rechenintensiv sein und dies kann in bestimmten Fällen von seiner Verwendung abhalten.

Absacken vs. Boosten

Die beste Technik zwischen Absacken und Boosten hängt von den verfügbaren Daten, der Simulation und den jeweils vorhandenen Umständen ab. Die Varianz einer Schätzung wird durch Absack- und Boosting-Techniken während des Kombinationsverfahrens erheblich verringert, wodurch die Genauigkeit erhöht wird. Daher zeigen die erhaltenen Ergebnisse eine höhere Stabilität als die einzelnen Ergebnisse.

Wenn ein Ereignis die Herausforderung einer geringen Leistung darstellt, führt die Absacktechnik nicht zu einer besseren Verzerrung. Die Boosting-Technik erzeugt jedoch ein einheitliches Modell mit geringeren Fehlern, da sie sich auf die Optimierung der Vorteile und die Reduzierung von Mängeln in einem einzigen Modell konzentriert.

Wenn die Herausforderung in einem einzelnen Modell überanpasst, ist die Absackmethode besser als die Boosting-Technik. Boosting steht vor der Herausforderung, Überanpassungen zu handhaben, da es mit Überanpassungen an sich einhergeht.

Verwandte Lesungen

Finance bietet die FMVA® ™ FMVA®-Zertifizierung (Financial Modeling & Valuation Analyst) an. Schließen Sie sich mehr als 350.600 Studenten an, die für Unternehmen wie Amazon, JP Morgan und Ferrari arbeiten, um ihre Karriere auf die nächste Stufe zu heben. Um weiter zu lernen und Ihre Wissensbasis weiterzuentwickeln, lesen Sie bitte die folgenden zusätzlichen relevanten Finanzressourcen:

  • Cluster-Stichprobe Cluster-Stichprobe In der Statistik ist die Cluster-Stichprobe eine Stichprobenmethode, bei der die gesamte Population der Studie in extern homogen, aber intern unterteilt wird
  • Overconfidence Bias Overconfidence Bias Overconfidence Bias ist eine falsche und irreführende Einschätzung unserer Fähigkeiten, unseres Intellekts oder unseres Talents. Kurz gesagt, es ist eine egoistische Überzeugung, dass wir besser sind als wir tatsächlich sind. Es kann eine gefährliche Tendenz sein und ist in den Bereichen Verhaltensfinanzierung und Kapitalmärkte sehr produktiv.
  • Regressionsanalyse Regressionsanalyse Die Regressionsanalyse ist eine Reihe statistischer Methoden zur Schätzung der Beziehungen zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen. Es kann verwendet werden, um die Stärke der Beziehung zwischen Variablen zu bewerten und die zukünftige Beziehung zwischen ihnen zu modellieren.
  • Zeitreihendatenanalyse Zeitreihendatenanalyse Die Zeitreihendatenanalyse ist die Analyse von Datensätzen, die sich über einen bestimmten Zeitraum ändern. Zeitreihendatensätze zeichnen Beobachtungen derselben Variablen über verschiedene Zeitpunkte auf. Finanzanalysten verwenden Zeitreihendaten wie Aktienkursbewegungen oder Verkäufe eines Unternehmens im Zeitverlauf

Empfohlen

Wurde Crackstreams geschlossen?
2022
Ist die MC-Kommandozentrale sicher?
2022
Verlässt Taliesin die kritische Rolle?
2022