NeuropsychoJolly (roger)

Bouquins et logiciels de stats

Bouquins

Pour comprendre :
Wonnacott et Wonnacott (1990) Statistique. Economica, 4e ed.

Catalogue de tests expliqués :
Zar (1999) Biostatistical analysis. Prentice Hall, 4e ed.

Un cours :
Triola et Triola (2009) Biostatistique. Pearson Education.

Logiciels
(je ne parle ici que des logiciels que j'ai essayés, il en existe probablement d'autres qui sont mieux) 

Règles générales :

- Pour introduire les données, on doit mettre un sujet (1 seul) par ligne.
- Si on effectue deux mesures sur un même sujet (mesures répétées ou échantillons appariés), on crée une colonne par mesure.
- Pour introduire un facteur dont les modalités impliquent des groupes indépendants, on crée une colonne supplémentaire (portant le nom du facteur) et en face de chaque sujet, on indique la modalité à laquelle il appartient.
- Pour indiquer qu'il s'agit d'une colonne "facteur", on termine le nom du facteur par un "$" (en langage informatique ancien, "$" signifie que l'on a affaire à des "chaînes de caractères", c'est-à-dire à des lettres).


Choix d'un logiciel

Les tableurs (MsExcel, OpenCalc...)
Ces tableurs possèdent des possibilités statistiques que l'on trouve dans les "fonctions" à insérer. Ne pas hésiter à utiliser l'aide pour chaque fonction.
Etant donné que l'on travaille sur tableur, il n'y a pas de contraintes sur l'organisation des données. Pratique au début, mais se transforme vite en casse tête. Il est donc utile de se conformer aux règles générales.
En 2007, OpenCalc était assez buggé. Excel ne l'est pas trop (contrairement à ce qui est dit dans l'aide, le nombre aléatoire ne suit pas une loi normale, la classification par rangs permet de classer des coureurs cyclistes mais ne permet pas de faire des tests non paramétriques...).
Rappelons ici quelques fonctionnalités des tableurs :
- tout le monde sait qu'on peut remplir des cellules avec des nombres, les passer en couleur...
- On peut également coller des "fonctions" (Menu Insértion / Fonction... / Choix de la fonction...).
- On peut également enregistrer ou écrire des "macros" qui sont des programmes que l'on peut utiliser pour des tâches répétitives (Menu Outil / Macro / Nouvelle Macro).
- Enfin, les "Modèles de documents" sont rarement utilisés alors qu'en les combinant avec des fonctions, ils permettent de se fabriquer des petits logiciels statistiques.

Greffon sur MsExcel (StatBox pro)
StatBox pro est bien pour les analyses multivariées ainsi que pour la régression PLS.

Vrais logiciels de stats
En général, plus on gagne en convivialité, plus on perd en rigueur.
Du plus convivial au moins convivial :

Statview : semble être le plus répandu dans les labos. Le plus convivial d'après les utilisateurs. Je ne l'aime pas car les auteurs ont un peu réinventé la méthodologie; il a certaines "rigidités" d'utilisation qui ne se justifient pas par des impératifs statistiques. Il tente de satisfaire le client en apportant les tests classiquement utilisés : si le client aime enfoncer des vis au marteau, il apportera le marteau.

Statistica : je le connais très peu. Il semble donner des aides à l'interprétation, donner des conseils... Ca sécurise jusqu'au moment ou ce qui est dit s'oppose radicalement à ce que l'on sait. Apparemment les dernières versions ont progressé (langage de programmation, interfaçage avec d'autres logiciels.

Systat : celui que j'utilise le plus. Certains lui reprochent son manque de convivialité. Nécessite en général de comprendre ce que l'on est en train de faire, mais donne des tas d'informations que l'on ne trouve pas chez les précédents. Permet d'automatiser certaines analyses que l'on veut faire plusieurs fois (possède les rudiments d'un langage de programmation).

R (également connu sous le nom de R-statist), et probablement S-plus
R est une imitation gratuite de S-plus. Utile pour les fauchés qui ont du temps, de la patience et de la volonté. Utile pour son potentiel de programmation (R est très proche d'un calculateur). Utile pour toutes ses potentialités et intéressant car il est "open source", c'est-à-dire que lorsque vous avez l'impression qu'il a un bug, s'il donne un résultat qui vous surprend, vous avez accès au programme lui-même. Avec des logiciels commerciaux, il arrive que vous ne sachiez pas comment le logiciel travaille et vous fait douter de vos résultats. La communauté R est très active donc il y a plein de fonctions. Inconvénients : une fois l'installation terminée, il faut beaucoup de patience pour réussir à faire son premier t de Student. Si on ne l'utilise pas pendant plusieurs mois, l'apprentissage est un petit peu plus rapide que la fois précédente, surtout si... la nouvelle version n'a pas trop évolué par rapport à celle que vous avez utilisée. Donc pas pratique du tout, mais c'est la mentalité free, open, coopératif...

Calculateurs
Les calculateurs sont des logiciels permettant de faire... du calcul (matriciel, équations...)

Octave (et probablement Matlab) : Octave était l'imitation gratuite de Matlab. Peu utile pour les stats, mais pratique pour le calcul intensif, la méthode de Monte Carlo, le bootstrap, le Jackknife, l'invention de ses propres tests... Matlab a par contre développé des applications très poussées.

Scilab : également gratuit. Je ne l'utilise pas car je préfère le langage Octave (parce que j'ai commencé par Octave), mais son potentiel semble comparable.    


12/03/2009
0 Poster un commentaire

A découvrir aussi


Inscrivez-vous au blog

Soyez prévenu par email des prochaines mises à jour

Rejoignez les 75 autres membres