Statistics and Machine Learning Toolbox

Analisi e modellazione di dati utilizzando la statistica e tecniche di Machine Learning

Statistics and Machine Learning Toolbox offre funzioni e applicazioni per descrivere, analizzare e modellare i dati. È possibile utilizzare la statistica descrittiva, le visualizzazioni e il clustering per l’analisi esplorativa dei dati, eseguire il fitting delle distribuzioni di probabilità ai dati, generare numeri casuali per le simulazioni Monte Carlo ed eseguire test di ipotesi. Gli algoritmi di classificazione e regressione consentono di effettuare deduzioni a partire dai dati e di costruire modelli predittivi sia in modo interattivo, utilizzando le applicazioni Regression Learner e Classification Learner, sia in modo programmatico, utilizzando AutoML.

Per l’estrazione delle feature e l’analisi dei dati multidimensionali, il toolbox offre tecniche quali l’analisi dei componenti principali (PCA), la regolarizzazione, la riduzione della dimensionalità e altri metodi di selezione delle feature che consentono di identificare le variabili con il miglior potere predittivo.

Il toolbox fornisce algoritmi di Machine Learning senza supervisione, con supervisione e semi-supervisione, tra cui le macchine a vettori di supporto (SVM, dall’inglese support vector machine), alberi decisionali con boosting, reti neurali superficiali, k-means e altri metodi di clustering. È possibile applicare tecniche di interpretabilità come i grafici di dipendenza parziale, i valori di Shapley e LIME e generare automaticamente codice C/C++ per la distribuzione embedded. I blocchi Simulink nativi consentono di utilizzare modelli predittivi con le simulazioni e la progettazione Model-Based. Molti algoritmi del toolbox sono utilizzabili su set di dati troppo grandi per essere archiviati in memoria.

Che cos’è Statistics and Machine Learning Toolbox?

Utilizzo di un grafico a dispersione multidimensionale per esplorare le relazioni tra le variabili.

Statistica descrittiva e visualizzazione

Esplora i dati tramite la rappresentazione statistica con grafici visivi e interattivi e statistiche descrittive. Analizza e descrivi set di dati potenzialmente grandi con facilità usando la statistica descrittiva, compresi gli indici di tendenza centrale, dispersione, forma, correlazione e covarianza.

Documentazione | Esempi

Analisi di cluster

Individua schemi e feature applicando k-means, metodi di clustering gerarchici, DBSCAN e di altro tipo e dividendo i dati in gruppi o cluster. Stabilisci il numero ottimale di cluster per i dati usando criteri di valutazione diversi. Rileva le anomalie per trovare outlier e novità.

Documentazione | Esempi

ANOVA

Assegna la varianza campione a diverse sorgenti e determina se la variazione appare all’interno o tra diversi gruppi di popolazione. Usa l’ANOVA a una via, a due vie, a più vie, multivariata e non parametrica, oltre all’analisi di covarianza (ANOCOVA) e all’analisi della varianza a misure ripetute (RANOVA).

Documentazione | Esempi

Regressione

Usa l’app Regression Learner oppure addestra e valuta in modo programmatico dei modelli come la regressione lineare, i processi gaussiani, le macchine a vettori di supporto (SVM, dall’inglese support vector machine), le reti neurali e gli insiemi.

Documentazione | Esempi

Classificazione

Usa l’app Classification Learner oppure addestra e convalida modelli in modo programmatico come la regressione logistica, le macchine a vettori di supporto (SVM, dall’inglese support vector machine), gli alberi con boosting e le reti neurali superficiali.

Documentazione | Esempi

La NCA aiuta a selezionare le feature che conservano gran parte della precisione del modello.

Riduzione di dimensionalità ed estrazione di feature

Estrai feature da immagini, segnali, testo e dati numerici. Esplora e crea nuove funzionalità in modo iterativo, poi seleziona quelle che ottimizzano le prestazioni. Riduci la dimensionalità trasformando le feature esistenti in nuove variabili predittive e abbandona le feature meno descrittive dopo la trasformazione, oppure applicando la selezione automatica delle feature.

Documentazione | Esempi

Grafico di distribuzione delle probabilità

Distribuzioni di probabilità

Esegui il fitting di distribuzioni continue e discrete, utilizza grafici statistici per valutare l’adeguatezza del fitting e calcola le funzioni di densità di probabilità e le funzioni di distribuzione cumulativa per più di 40 distribuzioni diverse.

Documentazione | Esempi

Regione di rifiuto in un test T unidirezionale.

Test di ipotesi

Fai inferenze su una popolazione in base a prove statistiche derivanti da un campione. Esegui test T, test di distribuzione e test non parametrici per campioni singoli, accoppiati o indipendenti. Testa l’autocorrezione e la casualità, quindi confronta le distribuzioni.

Documentazione | Esempi

Dati di guasto come esempio di valori “censurati”.

Statistica industriale

Analizza statisticamente effetti e trend di dati. Progetta esperimenti per creare e testare piani pratici su come manipolare i dati in ingresso per generare informazioni circa i loro effetti sui dati in uscita. Visualizza e analizza i dati relativi ai guasti con e senza censura quindi monitora e valuta la qualità dei processi industriali.

Documentazione | Esempi

Analisi dei Big Data con i tall array

Utilizza tall array e tabelle con svariati algoritmi di classificazione, regressione e clustering per addestrare i modelli su set di dati troppo grandi per la memoria senza dover modificare il codice.

Tall array MATLAB in azione (4:13)

Documentazione | Esempi

Generazione di codice

Genera codice C/C++ leggibile e portabile per l’inferenza di algoritmi di classificazione e regressione, statistiche descrittive e distribuzioni di probabilità. Genera codice predittivo C/C++ a precisione ridotta e aggiorna i parametri dei modelli distribuiti senza dover rigenerare il codice predittivo.

Documentazione | Esempi