Cos’è la regressione lineare multipla (MLR)?

La prima cosa che dovresti sapere prima di leggere questo post è che una relazione è stabilita da una linea retta, cioè una semplice regressione lineare. Pertanto, se il numero di variabili indipendenti è maggiore di uno, la regressione è detta multipla. In questo articolo troverai come definire un modello di regressione lineare multipla.

Cos'è la regressione lineare multipla (MLR)?
La regressione lineare multipla tenta di adattare modelli lineari o linearizzabili tra una variabile dipendente e più di una variabile indipendente. In questo tipo di modello, è essenziale testare l'eteroschedasticità, la multicollinearità e la specificazione.
La regressione lineare multipla è una tecnica statistica utilizzata per prevedere il risultato di una variabile in base al valore di due o più variabili. La variabile da prevedere è la variabile dipendente.
La regressione multipla può assumere due forme: regressione lineare e regressione non lineare.
Variabile dipendente
È quella variabile che cambia a seconda del valore di un'altra variabile o variabile indipendente.
Formula di regressione lineare multipla

In cui si:
- Yi: variabile dipendente o prevedibile
- β0: intercetta y, cioè, il valore di y quando sia xi che x2 sono 0.
- β1 e β2: coefficienti di regressione che rappresentano la variazione di y rispetto alla variazione di una unità di xi1 e xi2, rispettivamente.
- Βp: coefficiente di pendenza per ogni variabile indipendente
- ϵ: termine di errore casuale (residuo) del modello.
Importanza della regressione lineare multipla
- La regressione lineare semplice è di grande importanza, in quanto consente di prevedere il valore di una variabile utilizzando le informazioni disponibili su un'altra variabile.
- La regressione multipla è un tipo di regressione in cui la variabile dipendente mostra una relazione lineare con due o più variabili indipendenti.
- La regressione lineare tenta di stabilire quale sia la relazione tra le due variabili lungo una linea retta.
- Sia la regressione lineare che quella non lineare rappresentano una particolare risposta utilizzando due o più variabili. Tuttavia, la regressione non lineare è più difficile da eseguire poiché è generata da ipotesi derivate da tentativi ed errori.
Requisiti di regressione lineare multipla
È necessario considerare i seguenti requisiti per poter utilizzare la tecnica di regressione multipla:
Normalità ed equidistribuzione dei rifiuti
Per ottenere un buon modello di regressione multipla, non è sufficiente che i residui siano piccoli, poiché la validità del modello richiede una distribuzione normale e con la stessa dispersione ogni combinazione di valori nelle variabili indipendenti.
Numero di variabili indipendenti
Una regola che molti raccomandano è quella di includere almeno venti osservazioni per ogni variabile indipendente considerata a priori interessante nel modello, poiché numeri più bassi possono portare a nessuna conclusione ed errori di tipo II.
Linearità
Si presume che la variabile di risposta sia quella che dipende linearmente dalle variabili esplicative. Se la risposta non sembra essere lineare, i componenti non lineari devono essere inseriti nel modello.
Collinearità
Se due variabili indipendenti sono strettamente correlate ed entrambe sono incluse in un modello, è molto probabile che nessuna di queste sia considerata significativa, sebbene se solo una di queste fosse stata inclusa, potrebbe essere considerata significativa.
Una tecnica molto semplice per rilevare la collinearità consiste nell'esaminare i coefficienti del modello per vedere se diventano instabili quando viene introdotta la nuova variabile.
Osservazioni anomale
Infine, le anomalie devono essere accuratamente identificate e, se necessario, scartate, poiché queste hanno una grande influenza sul risultato. A volte, sono solo errori nell'inserimento dei dati, ma con grandi conseguenze nell'analisi.
Speriamo di aver risolto una domanda molto frequente per molte persone su ¿Cos'è la regressione lineare multipla (MLR)?