Was ist zufälliger Wald?

Random Forest ist eine Technik zur Modellierung von Vorhersagen und Verhaltensanalysen und basiert auf Entscheidungsbäumen. Es enthält viele Entscheidungsbäume, die eine eindeutige Instanz der Klassifizierung von Daten darstellen, die in die zufällige Gesamtstruktur eingegeben werden. Bei der Zufallswaldtechnik werden die Instanzen einzeln berücksichtigt, wobei die Instanz mit der Mehrheit der Stimmen als ausgewählte Vorhersage verwendet wird.

Zufälliger Wald Abbildung 1. Zufällige Waldstruktur (Quelle)

Jeder Baum in den Klassifikationen nimmt Eingaben von Stichproben im ursprünglichen Datensatz entgegen. Anschließend werden zufällig Features ausgewählt, die beim Wachsen des Baums an jedem Knoten verwendet werden. Jeder Baum im Wald sollte erst am Ende der Übung beschnitten werden, wenn die Vorhersage entscheidend erreicht ist. Auf diese Weise ermöglicht die zufällige Gesamtstruktur allen Klassifizierern mit schwachen Korrelationen, einen starken Klassifizierer zu erstellen.

Kurze Zusammenfassung

  • Random Forest ist eine Kombination von Entscheidungsbäumen, die für die Vorhersage und Verhaltensanalyse modelliert werden können.
  • Der Entscheidungsbaum in einem Wald kann nicht für die Stichprobe und damit für die Auswahl der Vorhersage beschnitten werden.
  • Die Random Forest-Technik kann große Datenmengen verarbeiten, da sie mit vielen Variablen arbeiten kann, die bis zu Tausenden reichen.

Modellierungsvorhersagen

Die Zufallswaldmethode kann Vorhersagemodelle unter Verwendung von zufälligen Waldregressionsbäumen erstellen, die normalerweise nicht beschnitten werden, um starke Vorhersagen zu erhalten. Die Bootstrap-Stichprobenmethode wird für die Regressionsbäume verwendet, die nicht beschnitten werden sollten. Optimale Knoten werden aus den Gesamtknoten im Baum abgetastet, um das optimale Aufteilungsmerkmal zu bilden.

Die Zufallsstichprobenmethode, die bei der Auswahl des optimalen Aufteilungsmerkmals verwendet wird, verringert die Korrelation und damit die Varianz der Regressionsbäume. Es verbessert die Vorhersagefähigkeit verschiedener Bäume im Wald. Das Sampling mit Bootstrap erhöht auch die Unabhängigkeit zwischen einzelnen Bäumen.

Variable Bedeutung

Variablen (Merkmale) sind für die zufällige Gesamtstruktur wichtig, da es eine Herausforderung ist, die Modelle zu interpretieren, insbesondere aus biologischer Sicht. Der naive Ansatz zeigt die Wichtigkeit von Variablen, indem einer Variablen eine Wichtigkeit zugewiesen wird, basierend auf der Häufigkeit ihrer Aufnahme in die Stichprobe durch alle Bäume. Dies kann leicht erreicht werden, stellt jedoch eine Herausforderung dar, da die Auswirkungen auf die Kostenreduzierung und die Erhöhung der Genauigkeit überflüssig sind.

Die Permutationsbedeutung ist ein Maß, das die Vorhersagegenauigkeit verfolgt, bei der die Variablen zufällig aus Out-of-Bag-Proben permutiert werden. Der Permutationsbedeutungsansatz funktioniert besser als der naive Ansatz, ist jedoch tendenziell teurer.

Da die Herausforderungen des zufälligen Waldes Vorhersagen aus biologischer Sicht nicht gut genug interpretieren können, stützt sich die Technik auf die naiven, mittleren Verunreinigungs- und Permutationsbedeutungsansätze, um ihnen eine direkte Interpretierbarkeit für die Herausforderungen zu ermöglichen. Die drei Ansätze unterstützen die Prädiktorvariablen mit mehreren Kategorien.

Im Fall von kontinuierlichen Prädiktorvariablen mit einer ähnlichen Anzahl von Kategorien weisen jedoch sowohl die Permutationsbedeutung als auch die mittlere Abnahme der Verunreinigungsansätze keine Verzerrungen auf. Data-Mining-Verzerrung Die Data-Mining-Verzerrung bezieht sich auf eine Wichtigkeitsannahme, die ein Händler einem Ereignis zuweist auf dem Markt war das eigentlich ein Ergebnis des Zufalls oder unvorhergesehen. Die variable Auswahl ist häufig mit einer Verzerrung verbunden. Um dies zu vermeiden, sollte eine ersatzlose Unterabtastung durchgeführt werden. Wenn eine bedingte Inferenz verwendet wird, sollte eine zufällige Waldtechnik angewendet werden.

Schräge zufällige Wälder

Schräge Zufallswälder sind insofern einzigartig, als sie schräge Teilungen für Entscheidungen anstelle der herkömmlichen Entscheidungsaufteilungen an den Knoten verwenden. Schräge Wälder zeigen viel Überlegenheit, indem sie die folgenden Eigenschaften aufweisen.

Erstens können sie Verteilungen an den Koordinatenachsen durch Verwendung einer einzelnen multivariaten Teilung trennen, die die herkömmlich benötigten tiefen achsenausgerichteten Teilungen enthalten würde. Zweitens ermöglichen sie eine verringerte Verzerrung der Entscheidungsbäume für die dargestellten Einschränkungen. Die herkömmlichen achsenausgerichteten Teilungen würden zwei weitere Verschachtelungsebenen erfordern, wenn ähnliche Klassen durch die schrägen Teilungen getrennt würden, was die Verwendung einfacher und effizienter macht.

Zufälliger Waldklassifikator

Der zufällige Waldklassifikator ist eine Sammlung von Vorhersagebäumen, wobei jeder Baum von zufälligen Vektoren abhängig ist, die unabhängig voneinander abgetastet werden, mit einer ähnlichen Verteilung wie jeder andere Baum in der zufälligen Gesamtstruktur. Ursprünglich für maschinelles Lernen entwickelt, hat der Klassifikator in der Fernerkundungsbranche an Beliebtheit gewonnen, wo er aufgrund seiner hohen Genauigkeit bei der Klassifizierung von Bildern mit Fernerkundung angewendet wird. Dabei wird auch die erforderliche Geschwindigkeit und effiziente Parametrierung erreicht. Der zufällige Waldklassifizierer bootet zufällige Stichproben, bei denen die Vorhersage mit der höchsten Stimme aus allen Bäumen ausgewählt wird.

Die Individualität der Bäume ist im gesamten Prozess wichtig. Die Individualität jedes Baumes wird durch die folgenden Eigenschaften garantiert. Erstens verwendet jedes Baumtraining in der Stichprobe zufällige Teilmengen aus den anfänglichen Trainingsstichproben. Zweitens wird die optimale Aufteilung aus den zufällig ausgewählten Merkmalen der nicht beschnittenen Baumknoten ausgewählt. Drittens wächst jeder Baum ohne Grenzen und sollte überhaupt nicht beschnitten werden.

Vorteile zufälliger Wälder

Zufällige Wälder enthalten Schätzungen für die variable Bedeutung, dh neuronale Netze. Sie bieten auch eine überlegene Methode für die Arbeit mit fehlenden Daten. Fehlende Werte werden durch die Variable ersetzt, die in einem bestimmten Knoten am häufigsten vorkommt. Unter allen verfügbaren Klassifizierungsmethoden bieten zufällige Wälder die höchste Genauigkeit.

Die Random Forest-Technik kann auch Big Data mit zahlreichen Variablen verarbeiten, die zu Tausenden führen. Es kann Datensätze automatisch ausgleichen, wenn eine Klasse seltener als andere Klassen in den Daten ist. Die Methode verarbeitet Variablen auch schnell und eignet sich daher für komplizierte Aufgaben.

Mehr Ressourcen

Finance bietet die FMVA® ™ FMVA®-Zertifizierung (Financial Modeling & Valuation Analyst) an. Schließen Sie sich mehr als 350.600 Studenten an, die für Unternehmen wie Amazon, JP Morgan und Ferrari arbeiten, um ihre Karriere auf die nächste Stufe zu heben. Um weiter zu lernen und Ihre Wissensbasis weiterzuentwickeln, lesen Sie bitte die folgenden zusätzlichen relevanten Finanzressourcen:

  • Querschnittsdatenanalyse Querschnittsdatenanalyse Die Querschnittsdatenanalyse ist die Analyse von Querschnittsdatensätzen. Umfragen und Regierungsunterlagen sind einige häufige Quellen für Querschnittsdaten
  • Cluster-Stichprobe Cluster-Stichprobe In der Statistik ist die Cluster-Stichprobe eine Stichprobenmethode, bei der die gesamte Population der Studie in extern homogen, aber intern unterteilt wird
  • Normalverteilung Normalverteilung Die Normalverteilung wird auch als Gaußsche oder Gaußsche Verteilung bezeichnet. Diese Art der Verbreitung ist in den Natur- und Sozialwissenschaften weit verbreitet. Das
  • Roys Safety-First-Kriterium Roys Safety-First-Kriterium Roys Safety-First-Kriterium ist eine Risikomanagementtechnik, mit der Anleger ein Portfolio anhand des Kriteriums der Wahrscheinlichkeit vergleichen und auswählen

Empfohlen

Was ist das Gesetz der großen Zahlen?
Was ist eine expansive Geldpolitik?
Was ist eine persönliche Budget-Tabelle?