Home > Doc > R: un ambiente opensource > Breve disamina di alcune risorse disponibili su R

R: un ambiente opensource per l'analisi statistica dei dati

Breve disamina di alcune risorse disponibili su R

E' disponibile su Internet una vasta gamma di materiale utile per avvicinarsi all'ambiente R e aiutare l'utente, anche novizio, nell'apprendimento dell'uso di questo software statistico. Cercheremo di fornire alcune indicazioni e una breve descrizione per le risorse più interessanti e fondamentali, indicando gli indirizzi da cui poterle scaricare. Si è fatta una distinzione tra la manualistica ufficiale predisposta dall'R Develpoment Core Team e altri contributi disponibili scritti da ricercatori e studiosi, soffermandoci più a lungo su quelli in lingua italiana.

a) Manualistica ufficiale

La pagina del sito del CRAN da cui si può accedere ad una vasta scelta della manualistica ufficiale su R è: http://cran.r-project.org/manuals.html. Da questa URL è possibile accedere all'ultima versione dei manuali. Al momento la versione corrente è la 2.0.1 rilasciata in data 15/11/04 e i manuali (in lingua inglese) sono disponibili in formato PDF leggibili con il software gratuito Acrobat Reader, ormai presente su tutti i personal computer, oppure scaricabile dal sito della Adobe: http://www.adobe.com/products/acrobat/readstep2.html.

In bibliografia per ciascun manuale è indicato l'URL precisa da cui effettuare il download. Un primo approccio con R lo si può avere con la lettura di "An Introduction to R" che fornisce le indicazioni di base e i concetti introduttivi sull'ambiente e su come usare R per realizzare alcune analisi statistiche e i grafici. Dopo aver preso una certa dimestichezza con l'ambiente di lavoro si può passare a "The R language definition", testo di livello più avanzato che tratta dell'uso di R come un vero e proprio linguaggio di programmazione orientata ad oggetti. Altri manuali trattano di problematiche specifiche come, ad esempio, l'importazione e l'esportazione di dati da e verso altri programmi che gestiscono database (si veda "R Data Import/Export"), le indicazioni per poter creare personali librerie ad hoc in ambiente R utili a risolvere le proprie specifiche problematiche (si veda "Writing R Extentions"), oppure sulle modalità di installazione di R nei vari sistemi operativi e sulle diverse piattaforme di computers (si veda " R Installation and Administration ").

È disponibile, inoltre, "The R Reference Index" il manuale completo di riferimento del software R che, per le più diffuse librerie, fornisce una descrizione dei singoli comandi e delle istruzioni ed il loro funzionamento. Inoltre ogni libreria aggiuntiva dispone di una specifica manualistica con dettagli sulle proprie funzionalità. Si ricorda che dalla linea di comando del programma è sempre possibile richiamare l'aiuto on line e dalla barra dei menù si possono consultare i principali manuali di cui si è detto sopra (sia in formato PDF che in formato HTML) nonché una pagina delle FAQ (Frequently Asked Questions) su R

b) Risorse in lingua italiana

L'ambiente R sta prendendo sempre più piede anche nel nostro paese, soprattutto come software utilizzato nell'ambito dei corsi universitari di statistica. Esistono su Internet manuali, dispense e appunti realizzati e predisposti da docenti per i propri corsi e, in alcuni casi, è possibile trovare anche delle esercitazioni pratiche con R. Una prima risorsa è quella scritta da Claudio Agostinelli, "Introduzione ad R" (150 pagine, scaricabili dall'indirizzo Internet: http://www.dst.unive.it/~claudio/R/index.html#manuale) che costituisce una buona base di partenza per cominciare lo studio del linguaggio R trattando i concetti fondamentali e soffermandosi sulla regressione lineare.

Assieme al manuale è possibile scaricare dei files contenti i dati per svolgere le esemplificazioni pratiche trattate nello stesso. Di livello leggermente più avanzato è la dispensa di Angelo M. Mineo, "Una guida all'utilizzo dell'ambiente statistico R", (67 pagine, scaricabili dall'indirizzo Internet: http://cran.r-project.org/doc/contrib/Mineo-dispensaR.pdf), il quale, oltre a trattare i fondamenti di R, dà qualche cenno sull'uso del linguaggio di programmazione.

Tale risorsa manca, tuttavia, di esempi pratici e di riferimenti concreti alle applicazioni statistiche. Seppure estremamente sintetica, può essere utile la dispensa di Vito M. R. Muggeo, "Il linguaggio R: concetti introduttivi ed esempi" (33 pagine, scaricabili dall'indirizzo Internet: http://cran.r-project.org/doc/contrib/nozioniR.pdf) per avere giusto una panoramica sull'ambiente e un interessante e breve accenno all'impiego dei modelli lineari generalizzati con R. “Introduzione ad R” di Roberto Baggiani (100 pagine scaricabili dall’URL: http://digilander.libero.it/robicox/manuali/pdf/mainr.pdf) è un testo ben strutturato e completo che spazia dagli aspetti meramente introduttivi del software, ad alcuni brevi cenni sulla programmazione e sullo scripting, sino alla trattazione analitica delle principali tecniche di analisi statistica univariata (grafici, regressione, tests, ANOVA).

La presenza di parecchio codice in R, con relativa esemplificazione, corona questa risorsa preziosa per l’utente che si avvicina al package statistico. "La statistica applicata attraverso il programma R" di Francesca Parpinel) è un testo alquanto pratico e tratta di alcune applicazioni del linguaggio R in diversi ambiti statistici (serie storiche, intervalli di confidenza, analisi delle dipendenza).

Altrettanto pratico, dopo aver fornito al lettore alcuni contenuti di livello elementare sull'ambiente R, è pure "Note sul linguaggio e ambiente statistico R" realizzato da Luca Scrucca che si occupa di statistica univariata, rappresentazioni grafiche, modelli lineari e ANOVA con l'uso di R.

Per chi voglia passare subito all'azione usando direttamente il software R, senza indugiare troppo sugli aspetti teorici, si consigliano le seguenti dispense con delle esercitazioni di laboratorio d'informatica:

- Alessio Pollice, "Esercitazioni con R", materiale utilizzato nel corso di Statistica IV presso la facoltà di Economia dell'Università di Bari, si sofferma soprattutto sull'impiego di R per l'analisi di dati multivariati (si può scaricare dall'URL: www.dip-statistica.uniba.it/html/docenti/pollice/materiale.htm)

- Lea Petrella, Silvia Polettini, "Laboratorio di Statistica I, metodi matematici e statistici", utilizzato per l'omonimo corso presso l'Università Roma 3, si occupa dell'applicazione di R a problemi di calcolo delle probabilità e di statistica matematica (si può scaricare dal seguente indirizzo Internet: www.mat.uniroma3.it/didatticacds/corsi/didattica_interattiva/aa_01_02/st1/st1.html).

- A. Brazzale, M. Chiogna, C. Gaetan e N. Sartori, “Laboratorio di R, Materiale didattico per i laboratori del corso di Modelli Statistici I”, (80 pagine scaricabili da: http://www.isib.cnr.it/~brazzale/ModStatI/): è un testo di carattere applicativo (si tratta di 12 lezioni utilizzate per un laboratorio di R), con ricche esemplificazioni e con files dei dati scaricabili per riprodurre gli esempi riportati negli appunti. Gli argomenti trattatati sono relativi alla regressione lineare semplice e multipla, l’analisi della varianza e della covarianza.

Di un certo interesse, anche se non organizzati in forma di manuale, sono gli appunti per un corso introduttivo all'uso dell'ambiente statistico R preparati da Stefano Iacus e consultabili al seguente indirizzo Internet: http://www.economia.unimi.it/iacus/corsoR/. Si tratta di tre lezioni, in forma estremamente schematica ed efficace, sui fondamenti di R, sugli strumenti statistici di base e su alcune tecniche avanzate. È un materiale decisamente pratico e l'utente, attraverso la funzione copia e incolla, può sperimentare direttamente i comandi e le istruzioni riportati nelle lezioni nell'ambiente R.

Può essere un utile strumento da usare come guida dopo aver preso una certa familiarità a livello teorico con il software R. Per chi vuole affrontare l’analisi delle serie temporali usando le funzionalità messe a disposizione di R si consiglia la lettura di “Analisi delle serie storiche con R” (64 pagine) realizzato da chi scrive e consultabile al seguente indirizzo web: http://cran.r-project.org/doc/contrib/Ricci-ts-italian.pdf. Il manuale cerca di fornire una trattazione delle principali tematiche dell’analisi delle serie storiche (decomposizione, test di specificazione, grafici, processi stocastici) attraverso delle esemplificazioni pratiche.

c) Risorse in lingua inglese

In lingua inglese esiste una più vasta letteratura sull'ambiente R. Accenneremo ad alcune risorse disponibili gratuitamente sul Web rinviando alla bibliografia riportata a conclusione dell'articolo per i riferimenti a testi cartacei. "R for beginners" di Emmanuel Paradis, come lascia supporre il titolo, è una dispensa abbastanza elementare diretta ad utenti poco esperti che vogliono avvicinarsi al software R, è a carattere meramente introduttivo. Sicuramente di livello più avanzato (per i quali si presuppone una certa padronanza e dimestichezza con R, oltre che, in alcuni casi, una discreta conoscenza di alcune specifiche metodologie statistiche) ed anche con ricche esemplificazioni dell'uso del programma in analisi statistiche sono i tre seguenti manuali:

- John Maindonald, "Using R for Data Analysis and Graphics, An Introduction" (112 pagine, scaricabili dall'URL:http://cran.r-project.org/doc/contrib/usingR.pdf) il quale, dopo un breve riferimento alla caratteristiche di R, va direttamente alla trattazione di analisi della regressione, modelli lineari generalizzati, analisi della varianza, grafici. Alla fine di ciascun capitolo sono proposti degli esercizi. Assieme al materiale didattico si possono scaricare anche i files contenti tutti i codici esemplificativi del programma usati nel testo e i files con i dati impiegati nelle esercitazioni.

- John Verzani, "SimpleR: Using R for Introductory Statistics",: è un testo eminentemente applicativo che presuppone la conoscenza dell'ambiente R. Si occupa delle principali tecniche di analisi della statistica descrittiva e di quella inferenziale con esempi concreti (i cui dati sono scaricabili e disponibili in apposito file) riproducibili dall'utente in fase di esercitazione pratica.

- Julian Faraway, "Practical Regression and Anova using R". E' un manuale di livello molto avanzato, senza alcuna introduzione al software (salvo un brevissimo accenno in appendice), che si rivolge ad utenti esperti con una buona competenza in materia di statistica inferenziale e multivariata. Come suggerisce il titolo della dispensa, l'autore si sofferma dettagliatamente sull'uso di R nella soluzione dei problemi relativi alla regressione e ai modelli lineari (stima, inferenza, diagnostica, trasformazioni di variabili e cambiamento di scala, scelta della variabili, componenti principali e collinearità, analisi della varianza e della covarianza, metodo dei minimi quadrati generalizzati) e unitamente alla dispensa è possibile scaricare un apposito package, messo a punto dallo stesso autore, indispensabile per la comprensione del contenuto del manuale e che consente all'utente di riprodurre concretamente su proprio PC gli esempi riportati nel testo.

- P.M.E. Altham, “Introduction to Generalized Linear Modelling in R” (pagine 54 scaricabili da: http://www.statslab.cam.ac.uk/~pat/) è un testo che si occupa di argomenti statistici decisamente avanzati che possono essere trattati e gestiti nell’ambiente R, come l’analisi della varianza twoway e le regressioni logistica, binomiale e di Poisson. Il testo è corredato di files di dati relativi alle applicazioni pratiche richiamate nello stesso.

- Oleg Nenadic, Walter Zucchini, “Statistical Analysis with R, a quick start” dopo una breve introduzione all’ambiente R tratta di argomenti come i modelli lineari, l’analisi delle serie storiche, la grafica avanzata.

Altre due risorse si occupano dell'utilizzo di R in particolari ambiti statistici come l'analisi di dati categoriali: "An Introduction to Categorical Data Analysis Using R" di Brett Presnell (38 pagine, scaricabili dall'URL: http://web.stat.ufl.edu/~presnell/Teaching/sta4504-2000sp/R/R-CDA.pdf) con file di esempio delle analisi statistiche riportate nella dispensa; oppure nel campo degli esperimenti e dei questionari in psicologia: "Notes on the use of R for psychology experiments and questionnaires" di Jonathan Baron e Yuelin Li (39 pagine, scaricabili dall'URL: http://cran.r-project.org/doc/contrib/Baron-rpsych.pdf).

Forniamo qui di seguito tre indirizzi Internet che possono risultare utili in relazione alla ricerca e al reperimento di ulteriori risorse sull'ambiente R:

a) questa pagina contiene una serie di link ad utili risorse e materiale disponibili in rete in lingua inglese

b) http://cran.r-project.org/other-docs.html: da questo indirizzo è possibile scaricare altro materiale didattico per l'apprendimento e lo studio di R in lingua inglese

c) risposte brevi ad una pluralità di quesiti e problemi relativi ad R

Vito Ricci

Successivo: R e la statistica ambientale

Sommario: Index