La statistica in PricePedia
Descrizione dei differenti approcci statistici implementati in PricePedia per l'uso dei database
Pubblicato da Matteo Cavallo. .
Management Determinanti dei prezziDal punto di vista generale, un dato statistico è uguale alla vera misura del fenomeno oggetto di analisi più un errore di rilevazione. Se questo errore di rilevazione è casuale, ossia non governato da fenomeni esterni, la media degli errori tende velocemente a zero man mano che si considerano più dati. Per questo motivo nelle analisi statistiche si tende a considerare i valori medi di un certo fenomeno e non le singole rilevazioni. Detto in altre parole, nell’ambito di una statistica, ciascuna singola osservazione deve essere considerata con molta prudenza.
Se l’errore di rilevazione non è casuale, in fase di elaborazione dei dati è necessario introdurre dei correttivi per limitare la distorsione che la semplice elaborazione della media potrebbe produrre. Questi correttivi fanno riferimento alle seguenti metodologie:
- individuazione outlier;
- stima dati mancanti;
- segmentazione del campione;
- stima di variabili non osservate.
Il progetto PricePedia usa come dati di base i dati di commercio estero rilevati dagli istituti di statistica dei 28 paesi dell’UE. Generalmente questi dati presentano errori di rilevazione di tipo casuale che rende facile e affidabile l’elaborazione della serie storiche di prezzo. In alcuni casi, tuttavia, gli errori di rilevazione presentano segnali che portano a non considerarli casuali. In questo caso i prezzi PricePedia sono il risultato di procedure di “correzione” che tendono a ridurre, se non a eliminare, la possibile distorsione dovuta alla non casualità degli errori di rilevazione.
Individuazione outlier
Questa metodologia consiste nel valutare se alcuni dati “fuori misura” sono il risultato di una situazione anomala del vero fenomeno economico sottostante o l’effetto di un errore di rilevazione particolarmente elevato. A maggio del 2007 i prezzi del nichel non legato rilevati alla dogana, per alcuni flussi doganali, sono risultati superiore a 50 dollari al chilo. Individuare gli outlier significa domandarsi se queste rilevazioni sono frutto di un prezzo “reale” del nichel oppure il risultato di un fenomeno sconosciuto che ha determinato errori di rilevazione distorsivi. La possibilità di comparare il prezzo rilevato alla dogana con il prezzo del nichel quotato al mercato LME (si veda il grafico qui riportato), ci consente facilmente di stabilire che i prezzi del maggio 2007 superiori a 50 $/Kg non sono l’effetto di errori di rilevazione ma il risultato di una situazione estrema sul mercato del nichel che ha portato gli operatori economici ad acquistare e vendere nichel a prezzi anche superiori a 50 $/kg.
Quando non esistono informazioni di benchmark a supporto, i metodi statistici sviluppati in letteratura fanno riferimento a due criteri di rimozione degli outlier:
- a) inter-time, in cui un dato è considerato anomalo se molto diverso dalle osservazioni del periodo precedente o successivo.
- b) intra-time, in cui un dato è considerato anomalo se, nell’ambito di uno specifico periodo temporale, risulta molto diverso dalle altre osservazioni.
Stima dati mancanti
A volte, per diversi motivi, può risultare mancante il dato di un fenomeno economico in un contesto specifico. Questo può dipendere da lacune procedurali ma anche da fattori oggettivi. Si consideri ad esempio il prezzo di un future con diverse scadenze. Può accadere che per una o più scadenze, in un dato mese, non esistano transazioni impedendo la rilevazione del prezzo per quella scadenza. In questo caso è evidente che l’insieme di informazioni non risulterà distorto se per quella scadenza verrà stimato un prezzo dato dalle medie dei prezzi delle scadenze più prossime.
Segmentazione del campione
I dati doganali europei fanno riferimento ad una classificazione merceologica definita annualmente - con apposito decreto - dalla Commissione Europea. Non sempre questa classificazione definisce prodotti che al loro interno risultano omogenei. E’ il caso ad esempio del caffè grezzo, definito dal codice 09011100. Merceologicamente, però , il caffè ha prezzi diversi a seconda che sia di tipo “arabica” oppure di tipo “robusta” (si veda il grafico qui riportato).
Tuttavia i prezzi riportati nel grafici sono rilevati sul mercato americano. Essi potrebbero essere diversi da quelli praticati sul mercato europeo. Per poter individuare i due diversi prezzi delle importazioni UE è necessario segmentare i flussi doganali per paese di provenienza. Paesi come Colombia e Honduras producono quasi esclusivamente caffè di qualità arabica mentre Vietnam e Indonesia esportano perlopiù caffè robusta. Segmentando il campione è stato quindi possibile ricostruire le serie dei prezzi reali delle due qualità di caffè (come mostrato nel grafico).
Stima di variabili non osservate
Questo è il metodo più complesso, molto utile però in alcuni contesti. Si consideri ad esempio il prezzo dell’acciaio non legato. L’acciaio viene commercializzato sotto forma di una molteplicità di beni che riflettono, oltre al prezzo dell’acciaio, anche:
- alcune lavorazioni aggiuntive (come la laminazione a freddo o a caldo);
- la forma (ad esempio arrotolato o no);
- la sua dimensione fisica: larghezza, altezza e spessore;
- la dimensione dei lotti di acquisto.
E’ evidente che il prezzo di tutti questi beni può essere pensato come prezzo dell’acciaio non legato più un fattore relativo alla specificità del bene considerato. Poiché le specificità dei diversi beni tendono ad essere costanti nel tempo, è possibile estrarre la componente “prezzo dell’acciaio” andando a considerare esclusivamente il fattore comune che ne determina la dinamica. Considerando solo la componente principale condivisa da più serie di prezzo si riesce a ricostruire la dinamica effettiva che i prodotti in acciaio hanno effettivamente e a sintetizzarla in un’unica serie.