Statistics Toolbox

Statistica multivariata

La statistica multivariata fornisce algoritmi e funzioni per l’analisi di più variabili. Le applicazioni tipiche includono la riduzione della dimensionalità mediante trasformazione delle feature e selezione delle feature, nonché l’esplorazione delle relazioni tra le variabili tramite tecniche di visualizzazione, quali scatter plot di matrici e scaling multidimensionale.

Fitting di una regressione ortogonale tramite analisi alle componenti principali (esempio)
Implementare la regressione Deming (minimi quadrati totali)

Trasformazione delle feature

La trasformazione delle feature (a volte chiamata “estrazione delle feature”) è una riduzione di dimensionalità che trasforma feature esistenti in nuove feature (variabili del predittore) in cui vengono eliminate le feature meno descrittive. Il toolbox mette a disposizione i seguenti approcci per la trasformazione delle feature:

Regressione parziale ai minimi quadrati e regressione delle componenti principali (esempio)
Modellare una variabile di risposta in presenza di predittori altamente correlati

Selezione delle feature

La selezione delle feature è una tecnica di riduzione della dimensionalità che seleziona solo il sottoinsieme di feature misurate (variabili del predittore) che fornisce il migliore potere predittivo nella modellazione dei dati. È utile quando si affrontano dati di ampie dimensioni oppure quando la raccolta di dati per tutte le feature è proibitiva dal punto di vista dei costi.

I metodi di selezione delle feature includono:

  • la regressione stepwise aggiunge o rimuove sequenzialmente le feature finché non si ha alcun miglioramento nell’accuratezza della previsione; può essere usata con gli algoritmi di regressione lineare o di regressione lineare generalizzata.
  • la selezione sequenziale delle feature è simile alla regressione stepwise e può essere usata con qualsiasi algoritmo di apprendimento con supervisione e una misura delle prestazioni personalizzata.
  • la regolarizzazione (di tippo lasso ed elastic net) utilizza gli stimatori di restringimento per rimuovere le feature ridondanti riducendo i loro pesi (coefficienti) a zero.

La selezione delle feature può essere usata per:

  • migliorare la precisione di un algoritmo di apprendimento automatico.
  • migliorare le prestazioni su dati di grandi dimensioni.
  • migliorare l’interpretabilità dei modelli.
  • prevenire l’overfitting.
Selezione delle feature per classificare dati di grandi dimensioni (esempio)

Selezione delle feature importanti per la rilevazione dei tumori

Visualizzazione multivariata

Statistics Toolbox contiene grafici per esplorare i dati multivariati in modo visivo, tra cui:

  • grafici di dispersione matriciali.
  • dendogrammi.
  • biplot.
  • grafici a coordinate parallele.
  • grafici di Andrews.
  • grafici di Glyph.
Matrice de nuage de points groupée montrant comment l’année du modèle a un impact sur les différentes variables.
Scatter plotmatriciale che mostra come l’anno del modello influenza le diverse variabili
Diagramme de double projection montrant les trois premiers chargements à partir de l’analyse en composantes principales.
Biplot che visualizza i primi tre loading da un’analisi alle componenti principali
Diagramme d’Andrews montrant comment le pays d’origine a un impact sur les variables.
Grafico di Andrews che visualizza come il Paese di origine influenza le variabili
Avanti: Distribuzioni probabilistiche

Prova Statistics Toolbox

Richiedi la versione di prova

Machine Learning with MATLAB

Visualizza webinar