tests non paramétriques sous excel
tests non paramétriques sous excel
tests non paramétriques sous microsoft® excel
è télécharger
les tests -
récupérer le fichier au format.pdf
-
revu le 3 juillet 2003 - section en cours
plan
: i. principaux
tests non-paramétriques : 1. chi2
- 2. tableau de contingence - test exact de fisher - g-test ou log-likelihood ratio - 3. mann-whitney - 4. fisher-yates-terry - 5. t de wilcoxon - sign test - 6. kruskal-wallis - 7. wald-wolfowitz - run test
- moses test of extreme reaction - 8. coefficient de spearman - 9. test de friedman 9bis. test de page - 9ter - coefficient de
concordance w de kendall - 10. test de kolmogorov smirnov
- 11. tau de
kendall
- 12. test de la
médiane [mood test - extension
of the median test] 13. test de mcnemar
- 14. test de jonckheere
terpstra - ii. autres tests
: durbin-watson - iii. le logiciel : feuille - commandes - boîte
de dialogue du menu - bibliographie
[références par tests, cf. infra]- tables - liens - logiciels
-
remerciements:
je dois à m. christian delaruelle d'avoir mis en évidence
un bogue majeur dans le calcul des rangs sur le test de mann
whitney. non seulement ce bogue a été
corrigé, mais cela m'a permis de repenser entièrement
le mode de détermination du test de kruskal-wallis dont la
méthode de mann whitney ne constitue qu'un cas
particulier pour deux colonnes. la méthode de calcul
des rangs est maintenant basée sur l'élimination
progressive des minima ( ou du minimum quand il n'y a pas d'ex aequo)
des colonnes de données. de substantielles améliorations
ont été apportées dans la présentation
des résultats des tests de mann whitney wilcoxon [les deux
sont liés intrinsèquement] et de kruskal wallis.
consultez aussi le superbe
site « disciplus
simplex » où l'on peut trouver de très
nombreuses pages sur excel. et des meilleures. cet algorithme peut
servir pour de nombreux exemples où le calcul des rangs est
nécessaire. je rappelle que ces pages sur les statistiques
n'ont de vertu que didactique et qu'elles sont
proposées - à titre d'illustration et de même
que les programmes macro qui y sont annexées - pour faire valoir
les vertus du raisonnement par analogie. elles tâchent
d'illustrer
ce que l'on peut réaliser tout en ne comprenant rien aux
mathématiques, pourvu que l'on ait un peu de bonne
volonté
et de l'obstination. en définitive, le mail que m'a
envoyé
m. delaruelle m'a conduit à repogrammer entièrement les
tests non paramétriques et à faire de multiples addenda
et
errata.
au fil de l'exposé, je commente le contenu de nombreux sites web
sur les tests non paramétriques, en donnant bien sûr
toutes
les sources, car j'en tire des équations et des exemples. je
dois
faire une mention spéciale pour un site unique où l'on
trouve des tables ailleurs parfaitement introuvables :
http://www.dsa.unipr.it/soliani/soliani.html.
il s'agit de l'ensemble de cours en ligne le plus complet qui se puisse
trouver sur le web, du moins à ma connaissance. même si
l'on ne parle pas l'italien, une oreille latine ne peut manquer de
comprendre, par intuition immédiate, le texte
généreusement proposé par l'auteur. de nombreux
exemples viennent agrémenter les chapitres où
l'étudiant trouvera toutes les formules mathématiques et
toutes les tables voulues.
nos macros sont - en principe - compatibles au travers des
différentes versions - d'excel
4.0 à excel xp.
les tests
non-paramétriques sont utilisés dès que l'effectif
n d'un échantillon est inférieur à 30. on
admet en effet, en biologie humaine tout au moins, que la
normalité d'un échantillon est atteinte à partir
de
n =30. en dessous de n=30, les tests nécessitent certaines
hypothèses [normalité
des distributions, égalité des variances, etc.].
ceci est particulièrement vrai quand les effectif sont
très faibles. une mention spéciale, à cet
égard, est à décerner au très utile
test de kolmogorov
smirnov pour un échantillon.
« un
test non paramétrique est donc un test d'hypothèse pour
lequel il n'est pas nécessaire de spécifier la forme de la
distribution de la population
étudiée. il faut cependant en général que
les observations soient indépendantes, c'est-à-dire que
la
sélection d'un quelconque individu dans la population en vue de
former l'échantillon ne doit pas influencer le choix des autres
individus.
les
méthodes non paramétriques requièrent peu
d'hypothèses concernant la population étudiée.
elles ignorent notamment l'hypothèse classique de la normalité
de la population.
ces
tests peuvent être appliquer, comme nous l'avons dit, à
de petits échantillons.
ils
peuvent s'appliquer à des caractères qualitatifs,
à des grandeurs de mesure, à des rangs de classement. ils
peuvent s'appliquer à des données incomplètes ou
imprécises.
des
recherches théoriques ont montré que l'efficacité
des tests non paramétriques n'est que
légèrement inférieure à celle de leurs
équivalents paramétriques quand la distribution de la
population étudiée est spécifiée, par
exemple la loi normale. elle est en revanche supérieure à
celle des tests paramétriques quand la distribution de la
population dévie sensiblement de la distribution
spécifiée (normale).
» [ michel le-her.]
il convient de
s'assurer de la normalité d'un échantillon, avant
d'employer un test dit paramétrique, comme le test t de
student fisher. le test de kolmogorov smirnov,
que nous retrouverons plus loin, peut encore être utilisé
à cette fin [c'est
le
test le plus protéiforme que je connaisse ! il permet de
tester la normalité d'un échantillon, en le testant
à travers différentes lois : uniforme, normale, poisson,
etc.]
« dans le cas
général, le test de kolmogorov-smirnov vise à
déterminer si les fonctions de répartition de deux
populations sont identiques. il est utilisé lorsqu'on est en
présence de deux échantillons provenant de deux
populations pouvant être différentes. contrairement au
test
de mann-whitney ou au test de wilcoxon [...] dont l'objet est de
détecter des différences entre deux moyennes ou
médianes, le test de kolmogorov-smirnov a l'avantage de prendre
en considération les fonctions de répartitions dans leur
ensemble.
mais le
test
de kolmogorov-smirnov peut aussi être utilisé comme test
d'adéquation. dans ce cas, on est
en présence d'un seul échantillon aléatoire
tiré d'une population; sa fonction de répartition
sera comparée à une fonction de répartition
spécifique et connue (par exemple celle de la loi
normale,
celle de la loi uniforme ou encore celle de la loi de chi-carré).
» [ michel
le-her.]
on pourra lire une
documentation très précise, complète et pratique,
sur l'emploi des tests non paramétriques et leur degré de
pertinence, comparés à des tests paramétriques,
sur
le site : cours de
deug, probabilités et statistiques, avner ba-hen, aix-marseille
iii.
i.
principaux tests non-paramétriques
1)- le chi2
la 1ère
méthode est le test du chi2 ; l'inconvénient de ce test
consiste en une perte d'informations par la transformation d'une
variable quantitative en variable qualitative. il est donc
à déconseiller dans les cas où l'on peut
utiliser une variable quantitative. ce test est disponible en
standard dans excel. voici un exemple :
tableau i
(chi2)
sur cet
exemple, on voit 2 colonnes, la 1ère
représente la variable d'un échantillon de 12
individus ; la 2ème colonne est la moyenne [soit 55,48]. le
test du chi2 montre que la moyenne observée ne diffère
pas
de la moyenne théorique , avec p = 0,08 [non significatif : ns]. toutefois, excel ne permet que de comparer un
vecteur d'observations avec un autre vecteur donnant les valeurs
théoriques [ici, nous avons choisi la moyenne]. la formule
à employer est :
(1)
dans l'exemple présenté,
répétons-le, il s'agit de comparer une distribution
observée à une distribution théorique : il s'agit
du test du chi2 dit d'ajustement. au §2,
on envisage le chi2 dit d'homogénéité, permettant
de mesurer le fait que deux échantillons appartiennent ou non
à la même population.
2)- le tableau de contingence è ne
figure
pas dans l'analysis tool pack d'excel
« another useful way of looking at the relationship
between two nominal (or categorical) variables is to cross-classify the
data and get a count of the number of cases sharing a given
combination of levels (i.e., categories), and then create a
contingency table (cross-tabulation) showing the levels and the
counts.
a contingency table lists the frequency of the joint
occurrence of two levels (or possible outcomes), one level for each of
the two categorical variables. the levels for one of the categorical
variables correspond to the columns of the table, and the levels for
the
other categorical variable correspond to the rows of the table. the
primary interest in constructing contingency tables is usually to
determine whether there is any association (in terms of statistical
dependence) between the two categorical variables, whose counts are
displayed in the table. a measure of the global association between the
two categorical variables is the chi-square statistic, which is
computed as follows:
consider a contingency table with k rows and h
columns. let nij denote the cross-frequency of cell (i,
j). let hij denote the expected frequency of the cell.
the deviation between the observed and expected frequencies characterizes the disagreement between the
observation and the hypothesis of independence. the expected frequency
for any cell can be calculated by the following formula:
hij=(rt´ ct) / n
where
ñ3=
expected frequency in a given cell (i, j)
rt =
row total for the row containing that cell.
ct =
column total for the column containing that cell.
n
= total number of observations.
all the deviations can be studied by computing the quantity, denoted by
(2)
this statistic is distributed according to pearson's chi-square law with (k-1)´ (h-1) degrees of
freedom. thus, the statistical significance of the relationship between
two categorical variables is tested by using the test which
essentially finds out whether the observed frequencies in a
distribution
differ significantly from the frequencies, which might be expected
according to a certain hypothesis (say the hypothesis of
independence between the two variables). » [guide
to advanced data analysis using idams software, p.s. nagpaul, new delhi (india)]
ainsi, le test du
chi2 élargi au tableau de contingence consiste à
étudier plusieurs répartitions observées,
quand on ne dispose pas de répartition théorique. voici
l'exemple de 3 répartitions observées dont on se demande
si elles diffèrent :
a 88
24 27 61
20 25
b 63
17 20 39
27 25
c 41
15 18 22
31 17
tableau ii
(tableau
de contingence)
la
réponse est positive puisque p = 0,04 pour 10 degrés
de liberté [(colonnes-1)
x
(lignes-1)].
la dernière version du logiciel inclue la correction de yates,
la formulation uni ou bilatérale et le test exact de fisher pour les tableaux à 4 cases avec
effectifs théoriques < 5 [cf.
fisher r. a. the
logic of scientific inference, journal of the royal statistical
society, vol. 98, pp. 39-54]. sur la correction de yates, cf. contingency tables
involving small numbers and the c2 test
(journal of the royal statistical
society suppl. 1: 217-235).
voici d'abord un tableau 2 x 2 traité sans la correction de
continuité de yates :
15 9
10 16
contingency
table
ddl 1
chi2 2.885
p 0.089
et avec la correction :
(2bis)
contingency
table
ddl 1
chi2 2.003
p cor. yates 0.157
un autre auteur, haber, a proposé une autre correction,
mais qui n'est pas sensiblement différente de celle de yates [comparison of some
continuity corrections for the chi-squared test on 2 x 2 tables,
journal of the american statistical association, vol. 75, pp. 510-515].
voici à présent un exemple d'emploi d'un test exact de
fisher.
soit le tableau à 4 cases :
a
b
+ 20 0
- 5 6
« on considère une table de
contingence 2 x 2. on note a et b les deux variables qualitatives observées sur n individus. lorsque
les effectifs sont trop petits, on transforme l'inconvénient des échantillons de petite taille
en bénéfice en énumérant l'ensemble des
arrangements possibles des
observations puis en calculant les probabilités exactes de
chaque arrangement. » [d. chessel, a.b.
dufour & j. thioulouse - biométrie
et biologie evolutive - université lyon1]
dans le cas présent, imaginons que l'on
administre un médicament à deux groupes de malades a et b
: dans le premier groupe, on obtient 20 succès [+] et 0 dans le
groupe b. on ne peut pas appliquer le test du chi2 même en
employant la correction de yates, car l'un des effectifs
théoriques est trop petit [pour
la valeur 0 : 2.13].
l'hypothèse h0
s'énonce comme : a et b sont indépendantes.
l'hypothèse alternative h1
: a et b sont liées. voici la marche à suivre pour les
calculs :
a)- on détermine la quantité suivante :
(3)
où dans l'exemple choisi : a = 20 ; b = 0 ; c = 5 et d = 6. n = 31.
b)- on calcule ensuite les probabilités des
tables de contingence présentant des situations aussi
extrêmes que celle observée : pj avec j = 1,m.
voyons cela sur notre exemple :
possible matrices and their ps
p for 0 : [ 20,0,5,6 ]
0.00062748
p for 1 : [ 19,1,6,5
]
0.01254956
p for 2 : [ 18,2,7,4
]
0.0851577
p for 3 : [ 17,3,8,3
]
0.25547311
p for 4 : [ 16,4,9,2
]
0.36192025
p for 5 : [ 15,5,10,1
]
0.23162896
p for 6 : [ 14,6,11,0
]
0.05264294
il est intuitif de considérer qu'il existe 6
possibilités, avec des probabilités s'écartant
plus
ou moins de notre disposition, qui est celle correspondant à : p for 0 = 0.00062748. on
remarque que l'on a fait varier la valeur du plus petit
élément de la matrice, de 0 à 6. tous les choix
possibles sont couverts, puisque ptotal
=
1.
c)- il reste à interpréter ces
probabilités. trois possibilités se présentent :
celle qui correspond à la probabilité unilatérale [dite à gauche], celle
qui correspond à la probabilité bilatérale et
enfin, celle de droite.
- la probabilité unilatérale est celle où
l'effectif minimal de la matrice 2x2 varie de sa valeur
à 0.
- la probabilité bilatérale regroupe la p
précédente à laquelle s'ajoute la ou les valeurs,
situées à droite, qui sont immédiatement
inférieures à la valeur maximale de la probabilité
unilatérale.
- enfin, la probabilité à droite regroupe les autres
valeurs.
dans le cas présent, le résultat du test
exact de fisher est le suivant :
fisher's exact
test
table = [ 20,0,5,6
]
one tailed p 0.00062748
two tailed p 0.00062748
other 1
theor. value of chi2 < 3 2.13 for [0 ]
le test est significatif. nous avons pris toutefois un
cas particulier, qui n'est pas le plus simple, où la valeur
minimale de la matrice est déjà 0. en ce cas, bien
entendu, la situation bilatérale est équivalente à
la situation unilatérale et le reste de la probabilité
est
égale à 1. nous allons prendre un second exemple qui
permettra d'illustrer le cas général :
a b
+ 20 3
- 5 6
possible
matrices and their ps
p for 0 : [ 23,0,2,9 ]
1.0486e-06
p for 1 : [ 22,1,3,8 ]
7.2353e-05
p for 2 : [ 21,2,4,7 ]
0.00159176
p for 3 : [ 20,3,5,6 ]
0.01559928
p for 4 : [ 19,4,6,5 ]
0.07799642
p for 5 : [ 18,5,7,4 ]
0.21170456
p for 6 : [ 17,6,8,3 ]
0.31755684
p for 7 : [ 16,7,9,2 ]
0.25706982
p for 8 : [ 15,8,10,1 ]
0.10282793
p for 9 : [ 14,9,11,0 ]
0.01557999
interprétation :
- prob. unilatérale : il s'agit de la somme des
probabilités situées « entre » la valeur
minimale 3 et 0. c'est donc puni
= 0.01726445 [s p for 0 ---> p
for 3].
- prob. bilatérale : il s'agit de puni + p for 9 [0.01557999] qui est la valeur de p
immédiatement inférieure au max. de puni, qui est p
for 3 [0.01559928]. on a donc : pbil = 0.03284444.
- la probabilité « à droite ». il s'agit de
la somme, pour les valeurs variables de l'effectif minimal de la
matrice
2x2, des probabilités qui leur sont associées :
ici : p for 1 + p for 2 + p for
3
= 1- (1.0486e-06 + 7.2353e-05 + 0.00159176) = 0.99833483.
voici le résultat tel qu'il apparaît dans la feuille de
calcul d'excel :
fisher's exact
test
table = [ 20,3,5,6
]
one tailed p 0.01726445
two tailed p 0.03284444
other 0.99833483
theor. value of chi2 < 3 2.91 for [3 ]
voici un dernier exemple, que nous empruntons au site
: http://mathworld.wolfram.com/topics/statisticaltests.html.
« for
an example application of the 2 x 2 test, let x be a journal, say either mathematics magazine or science, and let y be
the number of articles on the topics of mathematics and biology
appearing in a given issue of one of these journals. if mathematics magazine has five articles on math and one on
biology, and science has none on math and four on biology,
then
the relevant matrix would be
the
sum of p-values less than or equal to pcutoff = 0.0238 is then 0.0476 which, because it
is less than 0.05, is significant. therefore, in this case, there would
be a statistically significant association between the journal and type
of article appearing. » [author: eric
w.
weisstein © 1999 crc press llc, © 1999-2003 wolfram research,
inc.].
ce
qui donne, avec excel :
possible
matrices and their ps
p for 0 : [ 5,0,1,4 ]
0.02380952
p for 1 : [ 4,1,2,3
]
0.23809524
p for 2 : [ 3,2,3,2
]
0.47619048
p for 3 : [ 2,3,4,1
]
0.23809524
p for 4 : [ 1,4,5,0
]
0.02380952
fisher's exact
test
table = [ 5,0,1,4
]
one tailed p 0.02380952
two tailed p 0.04761905
other 1
theor. value of chi2 < 3 2 for [0 ]
de
nombreux liens existent sur le test exact de fisher ; nous avons
sélectionné ceux-ci qui se distinguent par leur
clarté ou la présence d'applets java :
-http://www.matforsk.no/ola/fisher.htm
[remarquable applet ; donne les 3
probabilités mais pas le détail du calcul des
différentes probabilités] ;
- http://quantrm2.psy.ohio-state.edu/kris/nonpar.htm, kristopher j.
preacher and nancy e. briggs
(may, 2001) the ohio state university [idem pour l'applet] ;
- http://faculty.vassar.edu/lowry/webtext.html,©richard lowry 1998-2000
- http://mathworld.wolfram.com/topics/statisticaltests.html,author: eric w. weisstein © 1999 crc press llc,
© 1999-2003 wolfram research,
inc.
- http://oms.b3e.jussieu.fr/biostatgv/index.html [notez
que l'applet ne marche que si vous êtes connectés, alors
qu'elle fonctionne avec les deux autres, citées supra]
a noter :
-on ne peut calculer la correction de yates ou un test exact de fisher
que pour un tableau 2 x 2. ;
- dès qu'un effectif théorique est inférieur
à 5, pour un tableau de plus de 2 x 2 cases, il faut
procéder à des recoupements ou utiliser un autre test,
comme celui de kolmogorov
smirnov.
- dans le tableau de contingence, on ne doit pas avoir plus de 20% de
cases où l'effectif théorique est inférieur à 5
[sinon, on procède
à des
regroupements ou l'on utilise le test de kolmogorov smirnov] et
aucune case
où
l'effectif théorique est égal à 1.
mode
d'emploi : il suffit de sélectionner l'outil contingency table.
la boîte de dialogue suivante apparaît :
vous
devez saisir obligatoirement une zone d'entrée [input data]
ayant une taille minimale de 2 x 2 cases et la cellule de sortie [output
data]. si vous souhaitez « forcer » le test
exact de fisher, il suffit d'activer la case à cocher
correspondante. vous pouvez aussi modifier la valeur théorique
minimale en deçà de laquelle le test exact de fisher est
automatiquement calculé [vous
ne pouvez aller au-dessous de 3]. le test de fisher sera
calculé automatiquement si l'une des valeurs théoriques
est en-deçà de la valeur minimale choisie.
2bis - le test g ou log - likelihood ratio testè ne figure pas dans l'analysis tool pack
d'excel.
il s'agit d'une alternative intéressante au c2
habituel, en ceci qu'il est plus « robuste ». en effet,
dès que l'on dépasse 3 à 4 modalités
différentes pour une variable, le c2
est souvent significatif et l'on tire, dès lors, des conclusions
hâtives, voire fautives. il a été difficile de
trouver de la bibliographie en français sur ce test. on trouve
en anglais, dans le glossaire du site http://www.openlink.org/dorak/ [
common concepts in statistics, m.tevfik dorak,
b.a. (hons), m.d., ph.d.] ces lignes sur le g-test :
chi-squared test: the most commonly used
test for frequency data and goodness-of-fit. in theory, it is nonparametric but
because it has no parametric equivalent it is not classified as such. it is not
an exact test and with the current level of computing facilities, there is not
much excuse not to use fisher’s exact test for 2x2 contingency table
analysis instead of chi-squared test. also for larger contingency tables, the
g-test (log-likelihood ratio test) may be a better choice.
l'attention, comme on l'a vu, est portée sur le nombre de modalités du c2. voici d'autres considérations, extraites et adaptées de : statistical analysis in hla and disease association studies, m.tevfik dorak, b.a. (hons), m.d., ph.d.
g
statistics: an application of the log-likelihood ratio statistics for
the hypothesis of independence in an r x c contingency table. it
can also be used to test goodness-of-fit. the g-test should be preferred over
chi-squared test when for any cell in the table, ½ o-e½ > e. the chi-squared distribution is usually
poor for the test statistics g2 when n/rc is smaller than five
(preferable to the chi-squared test in hardy-weinberg equilibrium test as long
as this condition is met). statview, hyperstat and statxact perform g statistics.
the likelihood ratio (chi-squared) test or maximum
likelihood statistics are usually known as the g-test or g-statistics [sokal rr, rohlf fj. new york:
w.h. freeman & company, 1994].
whenever a chi-squared test can be employed, it can be replaced by the g-test.
in fact, the chi-squared test is an approximation of the log-likelihood ratio
which is the basis of the g-test. pearson originally worked out this
approximation because the computation of the log-likelihood was inconvenient
(but it no longer is). the pearson's statistics, c2 = å [(o-e)2/e] is mathematically an
approximation to the log-likelihood ratio or g = 2 å o ln (o/e)
the value called g approximates to the c2 distribution. the g value can also be expressed as
g = 2 [å o lno - å o lne] = 4.60517 [å o log10o - å o log10e]
the g-test as calculated above is as applicable as a test
for goodness of fit using the same number of degrees of freedom as for
chi-squared test. it should be preferred when for any cell ½o-e½ > e.
for the analysis of a contingency table for independence,
wilks [wilks ss. the likelihood test of
independence in contingency tables. annals of mathematical statistics
1935; 6: 190-196.] formulated the calculation of the g statistics as follows:
g = 2 [ å å fij ln fij - å ri ln ri - å cj ln cj + n ln n ]
where fij represents
entries in each cell, ri represents each row total, cj represents each column total, and n is the sample size. the same
formula can be written using logarithm base 10 as follows:
g = 4.60517 [ å å fij log10
fij - å ri log10 ri - å cj log10 cj + n log10
n ]
the g value approximates to c2 with d.f. = (r-1)(c-1). when necessary, yates' correction should still
be used and the formula needs to be modified accordingly. with the exception of
the above mentioned condition that ½ o-e½ should be smaller than e for the chi-squared test to be valid, there is
not much difference between the two tests and they should result in the same
conclusion. when they give different results, the g-test may be more
meaningful. the g-test has been gaining popularity in hla and disease
association studies [klitz w, aldrich cl, fildes n,
horning sj, begovich ab. localization of predisposition to hodgkin disease in
the hla class ii region. american journal of human genetics54:
497-505. 1994 ; taylor gm, gokhale da, crowther
d, et al. further investigation of the role of hla-dpb1 in adult hodgkin's
disease (hd) suggests an influence on susceptibility to different hd subtypes. british
journal of cancer 1999; 80: 1405-1411.].
c'est, comme d'habitude, dans les pages de http://www.dsa.unipr.it/soliani/soliani.html [caput3.pdf]
que nous trouverons des informations beaucoup plus
détaillées sur le g-test. l'attention des statisticiens
sur ce test date de la fin des années 70 [k. larntz : small-sample comparisons of exact levels for chi-squared goodness-of-fit statistics, journal of the american statistical association vol. 73, pp.253-263 ; d. a. williams : improved likelihood ratio test for complete contigency tables, biometrika vol. 63, pp. 33-37)]. ces auteurs montraient que le test g était plus « robuste » que le c2 de pearson. sa formule générale est donnée, dans un tableau 2 x 2 [pouvant être étendue au tableau de contingence classique] par :
rep. x rep. y
sample. y
a
b
n1
sample. y
c
d
n2
n3
n4
n
où l'on remarque 3 termes : la 1ère correspond aux entrées du tableau 2 x 2 ; la 2ème, aux sommes des colonnes et des lignes ; la 3ème, au total. dans le cas d'un seul échantillon - équivalent au c2 d'ajustement - la formule devient :
où fi représente la valeur observée et ḟi
la valeur théorique, cf. équation 1. comme pour la
correction de continuité de yates, on a écrit une
correction pour le g-test ; on l'appelle la correction de williams et
elle s'écrit :
dans le cas d'un échantillon [k est le nombre de modalités]. on l'emploie quand n < 200.
exemple : soit l'échantillon suivant
55 28 37 43
g test (log-likelihood ratio)
n 163
k 4
df 3
g 9.403
corr. williams 1.005
p 0.02439
dans le cas de plusieurs échantillons - tableau de contingence -
la correction de continuité de williams s'écrit :
où m et n représentent le nombre de lignes et de colonnes de la matrice. [n est le nombre total de sujets]. exemple :
« a biologist collects leaf litter from a 1 m2 quadrant placed
randomly at night on the ground in each of two woodlands – 1 on clay soil and
the other on chalk soil. she sorts through the leaf litter and collects
woodlice belonging to 2 species, oniscus
and armadilidium. it is assumed that
the woodlice undertake their nocturnal foraging independently. » [extrait de : multinomial gof tests, roland hall, univeristy of waterloo, lecture 15, cda ii]
oniscus
armadilidium
total
clay soil
14
6
20
chalk soil
22
46
68
total
36
52
88
traitons ces données, successivement par un c2 conventionnel, puis par le g-test et enfin par un test exact de fisher :
nij
2.86 4.14 7
0.84
1.22 2.06
nji 3.7 5.36
contingency table
ddl 1
chi2 9.061
p 0.003
g test (log-likelihood ratio)
n 88
k 2
df 1
g 8.871
corr. williams 1.017
p 0.0029
possible matrices and their ps
p for 0 : [ 0,20,52,16 ]
2.3772e-10
p for 1 : [ 1,19,51,17 ]
1.4543e-08
p for 2 : [ 2,18,50,18 ]
3.9145e-07
p for 3 : [ 3,17,49,19 ]
6.1808e-06
p for 4 : [ 4,16,48,20 ]
6.4357e-05
p for 5 : [ 5,15,47,21 ]
0.00047073
p for 6 : [ 6,14,46,22 ]
0.00251412
p for 7 : [ 7,13,45,23 ]
0.01005647
p for 8 : [ 8,12,44,24 ]
0.03064081
p for 9 : [ 9,11,43,25 ]
0.07190377
p for 10 : [ 10,10,42,26 ]
0.13080956
p for 11 : [ 11,9,41,27 ]
0.18498321
p for 12 : [ 12,8,40,28 ]
0.20315121
p for 13 : [ 13,7,39,29 ]
0.17243604
p for 14 : [ 14,6,38,30 ]
0.11208343
p for 15 : [ 15,5,37,31 ]
0.05495703
p for 16 : [ 16,4,36,32 ]
0.01985752
p for 17 : [ 17,3,35,33 ]
0.00509712
p for 18 : [ 18,2,34,34 ]
0.00087451
p for 19 : [ 19,1,33,35 ]
8.9423e-05
p for 20 : [ 20,0,32,36 ]
4.0986e-06
fisher's exact test
table = [ 6,14,46,22 ]
one tailed p 0.00305579
two tailed p 0.00402382
other 0.99945833
theor. value of chi2 < 3 27.82 for [6 ]
il est clair que pratiquer un test de fisher dans le cas présent
est caricatural, puisque la valeur théorique inférieure
pour la plus petite valeur est de 27.82 ! il n'empèche. a des
fins didactiques, nous estimons indispensable de montrer cet exemple
détaillé.
mise en oeuvre : il suffit de sélectionner dans le menu général, la case d'option correspondant à contingency table. la macro reconnaît automatiquement si l'échantillon a 1 ou plusieurs colonnes ; de même pour le g-test, toute valeur nulle [ln(0) = #nombre!] est « sautée. »
3)- le test u de mann et
whitney è ne figure pas dans l'analysis tool pack
d'excel
deux statisticiens,
mann et whitney sont partis d'une simple constatation de bon sens
: si 2 populations sont très différentes, le cas
extrême se produit quand les valeurs de l'une sont
inférieures aux valeurs de l'autre. par contre, si elles
sont confondues, il doit y avoir intrication des valeurs de ces 2
populations. pour comparer deux moyennes, il faut habituellement
employer le test t, qui suppose la normalité des distributions
et
l'égalité des variances, hypothèses
invérifiables avec des effectifs faibles, comme on va le voir
sur
l'exemple suivant, tiré de : armitage, p. & g. berry
(1994). statistical methods in
medical research (third edition). blackwell scientific
publications, oxford.
dans cet exemple, on
mesure le gain en poids de rats recevant des régimes
différents : pour le 1er groupe, un régime
avec des protéines de haut poids moléculaire et
l'autre, un régime avec des protéines de bas poids
moléculaire. l'hypothèse nulle est « il n'y a
pas de différence dans les poids moyens ».
tableau iii
(test u
de mann et whitney)
l'hypothèse
nulle est donc conservée puisque p > 0,05. le calcul consiste
à ranger les observations de façon croissante et à
comptabiliser les rangs, ici uxy = 22.5. en fait, nous avons
assemblé ici les résultats de deux tests qui sont
strictement équivalents : le mann whitney et le test
de wilcoxon [il n'a rien
à voir avec le test t de wilcoxon pour séries
appariées]. dans le tableau de droite sont
regroupés les rangs [notez
qu'il est inutile de ranger préalablement les observations
lorsque vous saisissez le tableau des deux colonnes à traiter].
des tables spéciales existent, qu'il faut employer
dès que nx ou ny sont inférieurs à 10. elles
sont intégrées dans la feuille macro. les valeurs
limites sont indiquées pour les risques à 5% et à
1% [ici, 18 et 12].
summary
for the mann whitney wilcoxon rank-sum test :
based
on ranking of all observations without regard to group associated with
each observation. can also be used with interval or ratio data that are
not normally distributed
test statistic, t, is sum of all ranks for the smaller group.
(4)
where ri is the
rank of the i th observation of the smaller group and ns is
the number of observations in
the smaller group. to determine t must first rank all observations from
both groups together. tied ranks receive average of ranks that would
have been spanned (e.g. if 3 observations are tied following rank 4,
then each of the tied observations would receive the average of ranks
5,
6 and 7, or (5+6+7)/2 = 6; the next observation would receive rank 8).
critical values of t are based on the tails of the distribution of all
possible t values (assuming no ties).
when the larger sample contains eight or more observations,
distribution of t approximates a normal
distribution with mean
(5)
where nb is the
number of samples in the bigger group, and standard deviation
(6)
can then construct test
statistic, zt
(7)
which can be compared with
t-distribution with infinite degrees of freedom (d.f.). this comparison
is more accurate with a continuity correction where
(8)
en cas d'ex-aequo, la variance de (8) doit
être remplacée par la formule :
(9)
où t est le nombre de valeurs ex-aequo et
n = ns + nb. a noter que cette correction n'est
utile que pour de petits échantillons. l'approximation de 4 est
suffisante dès que min(ns, nb) > 8.
4)- le test de
fisher-yates-terry è ne figure pas dans l'analysis tool pack
d'excel
ce test, selon d.
schwartz, est justifié par son efficacité. la
méthode revient à normaliser les observations et
à leur appliquer ensuite le test de
l'écart-réduit, qui est alors le meilleur. voyons
l'exemple suivant où 2 groupes de 10 lapins, nourris chacun avec
un régime enrichi en cholestérol, ont été
soumis à deux traitements différents x et y. on souhaite
savoir si les résultats sont différents. le tableau
suivant montre dans la 1ère colonne les observations x, et
dans la 2ème, les observations y. le
résultat du test est affiché à droite en deux
tableaux : les rangs créés à partir des nouvelles
valeurs substituées aux rangs eux-mêmes. ces rangs sont
donnés par une table intégrée à la feuille
macro. au centre, les résultats, avec la valeur c1 et le
carré de z, somme indiquée en fonction du nombre
total des observations. une table existe qui donne ces valeurs, mais
celles-ci sont calculées automatiquement [par exemple, pour n = 20, on trouve z2
= 17.7144].
tableau iv
(test c1
de fisher-yates-terry)
là encore,
on conserve l'hypothèse nulle puisque p > 0,05. on range
à nouveau les observations par ordre croissant et on
comptabilise les rangs. des tables spéciales doivent
être employées, intégrées dans le
logiciel. ces tables donnent les valeurs limites à partir
desquelles une différence devient significative. ces valeurs
limites sont indiquées dès que nx et/ou ny sont
inférieures à 10. a noter que la dénomination de
test de « fisher yates terry
» est purement française et que le test n'est connu
ailleurs que sous l'appellation de « two
sample rank test ». voici les formules
grâce auxquelles le test est calculé :
(10)
l'indice utilisé est donc z et
l'on recherche la somme des z - cf. tableau iv - soit pour les x soit
pour les y. une valeur trop petite ou trop grande indique que les x -
ou
les y - sont en moyenne trop grands ou trop petits. la valeur attendue
de c1 est donc 0. sa variance est donnée par l'équation
précédente. ici, on a z2
= 17.71. si l'approximation par la loi normale est permise, on a le
résultat par l'écart réduit de c1 :
(11)
et c1
= 1.543 dans notre exemple. le test c1, selon ce qu'en dit schwartz,
revient à normaliser les observations et à leur appliquer
ensuite le test de l'écart-réduit.
5)- le test t de wilcoxon,
appliqué aux séries appariées è ne
figure
pas dans l'analysis tool pack d'excel
on forme pour
chaque paire d'observations la différence puis on classe ces
observations en valeurs absolues croissantes, en mentionnant pour
chacune si elle est positive ou négative (les différences nulles sont
éliminées). l'exemple
suivant est tiré de : armitage, p. & g. berry (1994). statistical methods in medical
research (third
edition).
blackwell scientific publications, oxford. l'hypothèse nulle est
« il n'y a pas de différence significative entre le
médicament étudié et le placebo ». le
résultat est affiché sur le tableau suivant :
drug 19
11 14 17
23 11 15
19 11 8
placebo 22
18 17 19
22 12 14
11 19 7
tableau v
(test t
de wilcoxon)
quand le nombre de
paires est inférieure à 20 (ici, n = 10), on emploie une
table spéciale, insérée dans le
logiciel. a droite, la valeur du rang de chaque paire.
là encore, on doit tenir compte des ex-aequo. nous allons
donner quelques exemples supplémentaires de ce test fort utile
en
remployant des cas tirés de sites qui nous ont paru
intéressants [à ce
sujet, il est regrettable d'observer que de nombreux sites donnent
les formules à employer mais point ou très peu
d'exemples, ce qui nuit d'une certaine façon à la
portée didactique de leur démarche]. nous citons
à présent un extrait, superposable à celui de tout
à l'heure, concernant le test de mann whitney wilcoxon.
summary about the
rank signed wilcoxon test
ordinal data - evaluating two
interventions on the same group of individuals : wilcoxon signed-rank
test
based on ranking of absolute differences between two observations for
each individual. test statistic, w, is sum of all ranks of differences.
(12)
where n is the number
of individuals, di is the difference between
observations for the i th individual,
and ri
is the rank of the absolute difference for the i th individual (note:
the fraction in front of the ranks
will always
have magnitude, 1, and will have the sign of the difference). if no real
difference exists between individuals observations, then the signs of
the observed
differences should occur by random chance; w would then compute to a
number close to zero. extreme values of w
in either positive or negative sense, thus, lead to rejection of the
null hypothesis that no difference
exists between observations.
- individual
- observation one
- observation two
- difference rank of difference
- signed rank of difference
1 1600 1490 -110 5 -5
2 1850 1300 -550 6 -6
3 1300 1400 +100 4 +4
4 1500 1410 -90 3 -3
5 1400 1350 -50 2 -2
6 1010 1000 -10 1 -1
for present example w = -13 is not extreme enough to reject null
hypothesis. as with other parametric methods, p-values for the wilcoxon
signed-rank test are discrete in nature.
en reprenant les
données des auteurs, nous trouvons le résultat suivant :
tableau vi
(test de
wilcoxon)
for large number of individuals, however, distribution of w values
approximate a normal distribution
with mean : mw = 0 and variance :
(13)
from which test statistic, ew can be
computed as :
(14)
which can be compared with t-distribution with
infinite degrees of freedom (d.f.). ties among the absolute differences
are handled by assigning average ranks.a tie a pair creates a
difference
of zero. because these are neither positive or negative, we drop such
pairs from our sample.as in the case of the wilcoxon rank sum, ties
complicate funding a - value.there is no longer a usable exact
distribution for the signed rank statistic ,and the standard deviation
must be adjusted for the ties before we can use the normal
approximation.
a)-
exemple 1
: http://www.stat.lsu.edu/faculty/geaghan/exst7005/spring2002/freelance/
on compare des concentrations d'un médicament de cellules
suspendues dans des solutions différentes. le tableau suivant
montre les résultats obtenus avec notre programme :
hank's 14 14 5 7 17 27 6 15
sucrose 22 21 9 7 16 26 4 13
tableau
vii
(comparaison de deux solutions)
le
lecteur intéressé verra que nous donnons plus
d'informations que celles proposées par le rédacteur de
la
page. en particulier, les valeurs critiques au risque 5% et 1%.
b)- exemple
2 : http://www.nist.gov/speech/tests/sigtests/wilcoxon.htm
nous laissons
l'auteur s'exprimer :
« the
wilcoxon signed-rank test, like the sign test, is a test on speakers or
conversation sides or other prespecified subsets, but it takes
some account the magnitude of the performance differences on each
subset rather than only which system had the better performance. table 1 offers an example of using the
wilcoxon test. for each specified subset, the difference in
performance scores of systems a and b is determined, and these
differences are ranked by magnitude, irrespective of sign. a mean
rank is used in case of equal performance differences. a sign is then
attached to each rank corresponding to the sign of the difference.
»
system a
97 88 75 90 85 94 77 89 82 90
system b 96 86 79 89 91 89 86 99 94 96
tableau
viii
(performance de deux systèmes)
« for large enough n (> 8 or so), z+ has
an approximately normal distribution. the test statistic is then the
approximately standard normal value. let w be the value obtained for w. the
null hypothesis h0 is rejected if
prob (w > w) < 0.05
(one-tailed)
prob | (w | > | w | ) = 2 *
prob (w > w) < 0.05 (two-tailed)
for the example above, z+=44.0,
m=27.5, s=96.25, and w=1.68. [we find the value of
e = -1.784] at p=0.05 this is not significant as a two-tailed
test, but as a one-tailed test this is significant, by a slight margin.
thus if system b is intended to be an improved version of system a, we
may want to conclude that it does offer significant improvement. from
tables 2 and 3 it may be observed that no such conclusion could be
reached based on the sign test.
we can also define z! as the unsigned sum of the negative signed ranks.
if table lookup is
preferred to the normal
approximation to find critical regions for the test, it is easier to
use
the statistic z = min (z+, z!). source of this data : g. kanji, 100 statistical tests, sage publications, 1994.
the wilcoxon test is generally a
more powerful test than the sign test. studies have shown that the
relative efficiency of the sign test, compared to the wilcoxon, is 2/3
when the differences are normally distributed, and 1/3 when they are
uniformly distributed (w.
daniel, applied nonparametric
statistics, houghton mifflin,
1978., p. 36).
this test presumes an "interval"
level of measurement of performance on subsets; i.e., equal differences
in performance measure between two systems mean the same, whatever the
absolute level of performance. nist has used word accuracy for this
purpose, but log word error rate would better suit this requirement. it
has, for example, been suggested that the difficulty of halving the
error rate is approximately equal whatever the initial error rate of a
system may be. »
c)-exemple 3 :
tiré d'un fichier pdf. instructif car il permet d'amplifier les
résultats d'un test t « conventionnel » et
d'illustrer les possibilités conjuguées de nos macros et
de l'analysis tool pack
d'excel.
« researchers wished to determine if two
preparations of a virus would produce different effects on tobacco
plants. twelve tobacco leaves
were used in the experiment. half of each leaf, selected at random, was
treated
with preparation 1 of the virus.
the other half of each leaf was treated with preparation 2. the
response
variable
measured was the number of
lesions (small dark, easily counted rings) appearing on the half leaf.
the numbers in the table below
give the number of lesions per half leaf. »
preparation
1 55
25 21 7 16 14 7 9 5 4 4 1
preparation 2 17 17 14 11 10 9 7 5 3 2 1 0
tableau
ix
(effets de préparations
de virus sur des plants de tabac)
le
test t montre une différence significative avec p # 0.037. par
contre le test t de wilcoxon
permet de conclure avec plus de certitude à la présence
d'une différence significative.
d)- exemple 4
: http://www.euronet.nl/users/warnar/demostatistiek/stat/kruistabellen.htm
là encore, nous laisserons parler l'auteur :
« -tekentoets en wilcoxon signed rank toets
de tekentoets en de w s
r toets zijn te gebruiken indien men beschikt over 2
variabelen of testgroepen met alstestvoorwaarden: gemeten op
zelfde meetschaal en in dezelfde meeteenheid, tenminste
ordinaal en waarvan de scores gematcht, gepaard of gekoppeld
zijn. telkens wordt van 1 respondent onder verschillende omstandigheden
een meting verricht en het verschil tussen deze metingen bepaald. het
parametrisch alternatief voor deze testen is de student td test (paired
two sample t test).
testprincipes:
hieronder
volgt een eenvoudig rekenvoorbeeld voor beide testen op basis van
gegevens uit bestand: polsfrequentie (zie hieronder) (twee
polsfrequentie a = voormeting, b = nameting). het principe
is om uit de 2 getallenreeksen één verschilreeks te
bepalen op de score-paren (a-b). verschillen met waarde = 0 tellen bij
deze toetsen niet mee. bij de tekentoets gebruikt men bij de berekening
alleen de + tekens. bij de wilcoxon signed rank test (wsr) wordt uit de
verschilreeks een rangnummer vastgesteld voor elke score-paar en wordt
een + of rangteken toegevoegd al naar gelang het verschil (a - b)
groter of kleiner dan 0 is. bij de wsr toets tellen de positieve en
negatieve tekens mee. zowel van de tekentoets (t) als van de wilcoxon
signed rank toets (w) kan op de verkregen toetswaarde een z-waarde
bepaald worden met de normale benadering. »
voormeting
x 82 63 85 77 83 86 74 79 58
88
nameting y 78
63 82 71 73 81 74 80 58 86
tableau
x
nous
concluerons à une différence significative puisque le
nombre de paires p- est inférieur à la valeur critique de
2 [p-
= 1].
5)
bis - le test du signe è ne figure pas dans l'analysis tool pack
d'excel
il est à mettre au même rang - si l'on peut dire - que le
test t de wilcoxon dont il constitue en somme une
généralisation. là encore, nous mettrons
à contribution l'excellent aide-mémoire que nous avons
déjà signalé lors de l'examen du test des
séquences de wald wolfowitz. le test du signe consiste à
tester l'égalité de la médiane m à une
valeur m0 connue, avec un échantillon
de variables xi, dont la médiane m est inconnue. on trouvera
infra le test de
la médiane [mood test]
pour deux échantillons, généralisable à
plusieurs échantillons [extensed median test].
trois hypothèses h0
sont possibles selon que :
- m = m0 contre h1
: m ¹ m0 [alternative bilatérale] ;
- m £ m0
contre h'1
: m > m0 [alternative
unilatérale] ;
- m ³ m0
contre h''1
: m < m0 [alternative
unilatérale].
ce test ne peut pas s'utiliser avec de petits échantillons [lorsque n < 6] car l'on ne
peut alors dégager de région de rejet dont la
probabilité soit inférieure à 5%.
le test consiste à faire la somme des observations
supérieures à m0, notée alors s+ et des autres observations,
notées s-. sous
l'hypothèse nulle h0,
il est intuitif que s+ et s- soient proches de n/2. dès lors, la
méthode consiste à observer à partir de quelle
valeur, forcément proche de 0, on met en évidence pour s+ et/ou s- une différence
significative. les valeurs critiques de s+
et s+,s- sont tabulées
sur la table de probabilités conditionnelles cumulées
jusqu'aux valeurs : smin = 10 et n = 20. a partir de n = 20, on peut employer la formule
suivante, donnant z :
(15)
voici
un exemple qui tire parti à la fois du test t de wilcoxon [rang et signe] et du test du
signe ; il est extrait de : biostatistics for
fellows, 2001, overview
of nonparametric statistical tests 2.0 :
« residents are rated on their ability to
insert cvcs in the icu prior to and after an intensive one month icu
rotation with a critical team. the scale ranges from 1 (dangerous) to
10
(highly proficient). »
ranking
before 3 5 6 1 2 4 3 7 5 4 4
ranking after 6
7 6 6 8 5 9 6 6 7 7
wilcoxon rank
test
np 10
mx 4
my 6.64
p+ 2
p- 53
p0 1
t the. 27.5
vart 96.25
e -2.599
p p < 0.01
ties 8
critical value pmin
5% 8
critical value pmin 1% 3
sign
test
s+ 1
s- 9
s min 1
s max 9
h1bil. 0.011
h'1 uni 0.011
h''1 0.999
6)- le test de kruskal et wallis è ne
figure
pas dans l'analysis tool pack d'excel
ce test,
très utile, permet d'analyser la liaison entre un
caractère quantitatif et un caractère qualitatif
à k classes (k >2).
« the
original paper is kruskal and wallis (1952) with errata appearing in
kruskal and wallis (1953). no
attempt is made to calculate exact values, rather an incomplete beta approximation is used following wallace
(1959). » [bob wheeler, the suppdists package february 19,
2002]
ce test permet
notamment d'effectuer des comparaisons multiples en testant ce que
l'on appelle les rangs moyens. c'est ici le lieu,
néanmoins, de mettre en garde les utilisateurs contre le
danger de la « pêche à la ligne » des
comparaisons multiples : il y a en effet, un grand danger à
comparer sans discernement, plusieurs échantillons. nous dirons
que ces comparaisons multiples font appel à ce que l'on
appelle la notion de contraste. l'exemple suivant est
tiré de : zar, j. h. (1984). biostatistical
analysis
(second edition). prentice hall. un chercheur veut
savoir si l'hypothèse nulle : « l'abondance
des mouches est semblable dans les trois couches de
végétation », à partir
des
3 variables suivantes : herbes - arbrisseaux et arbres. si
l'hypothèse nulle est rejetée, le chercheur veut
savoir aussi quelle est (quelles sont) la (les) variable(s) qui est
(sont) différente(s) de(s) l'autre (autres). on obtient le
tableau suivant, à partir de 5 observations pour chaque variable
:
tableau xi
(test de
kruskal-wallis)
on observe que les
3 séries d'observation sont différentes dans
l'ensemble avec p = 0.013. cela autorise, à titre indicatif
seulement, à voir quelles sont les séries qui
diffèrent l'une de l'autre : ici, on trouve que la série
1
diffère de la série 2 et que la série 1
diffère de la série 3 (++ sur le tableau du bas) ; en
revanche, la série 2 ne diffère pas de la
série 3 (-- sur le tableau
du bas). les rangs de chaque colonne sont indiqués
dans le tableau de droite ; au-dessous, moyennes, somme des rangs,
etc. prise en compte des ex-aequo. dans le tableau du bas, valeurs des
moyennes comparées et valeur de la limite à partir
de laquelle la différence est significative [ici, 6.77]. voici la marche
à suivre pour les calculs :
- on range les
observations comme dans le test de mann-whitney
wilcoxon [ne pas confondre avec le signed rang t of wilcoxon]
en tenant compte des ex aequo.
- on calcule les scores moyens pour chaque colonne :
(16)
où rji est le rang de
l'observation i du groupe j, nj en étant l'effectif.
- on compare rj avec la somme
théorique rt :
(17)
où
n est le nombre total d'observations. on nomme d la somme de carrés
pondérée :
(18)
-
on détermine la statistique h [ou q] qui
suit approximativement une loi du chi2 à m-1 ddl, où m est le nombre
de
groupes [i.e. de colonnes].
(19)
cette
équation s'entend sans ex aequo ; s'il y en a, la variance doit
être augmentée d'une certaine quantité :
(20)
où
t représente le nombre d'ex aequo. h corrigée
s'obtient alors par : h' = h/c.
-
si h est significatif [ p < 0.05], on peut, à
titre indicatif, « aller voir » quelle moyenne est
différente de l'autre [ou des
autres]. pour cela, on pratique un test qui
s'inspire de la méthode des contrastes et qui consiste
à comparer la différence observée entre les
moyennes à une certaine quantité :
(21)
où
l est le nombre de colonnes.
conditions
d'application de la statistique de kruskal wallis : nj >= 5 pour m = 3 et n >= 10 pour m = 4. des tables
spéciales doivent être consultées pour des valeurs
inférieures. ces tables sont intégrées à la
feuille macro. elles peuvent être consultées à
l'adresse suivante : http://cons-dev.univ-lyon1.fr/enseignement/stat/tables/tabkrusk.html.ou
à l'url suivante : http://www.psychology.nottingham.ac.uk/courses/modules/statsguides/statisticaltables.htm.
voici
un exemple :
trt a 8
9 11 45 1
trt b 1
2 0 5 1
trt c 0
-2 -3 5
ces trois traitements donnent-ils des effets différents,
appliqués à 5 malades dans le groupe a, à 5
autres dans le groupe b et à 4 autres dans le groupe c ?
tableau
xii
(test de kruskal wallis)
ce tableau donne à voir le classement en
rangs, et plus bas, les résultats. on voit que la valeur de q = 5.859 [corrigée pour les ex aequo]
et significative à 5% puisque la valeur correspondante
dans la table est de 5.643
au risque 5%. elle est par contre inférieure à celle
relative au risque 1% [7.791].
toutefois, le manque de puissance ne permet pas, lorsqu'on
recherche une différence entre rangs moyens, de relever une
quelconque différence.
mise en oeuvre du test :
il
suffit de remplir les 3 blocs de saisie [les
étiquettes sont à saisir dans la première ligne].
7)- le test de wald-wolfowitz è ne
figure
pas dans l'analysis tool pack d'excel
ce test sert
à contrôler une séquence. l'exemple suivant
est emprunté à : cohen, l. & m. holliday (1983). statistics for social scientists.
harper & row. voici un exemple pour deux échantillons
tirés de l'ouvrage remarquable : introduction à
la décision statistique - fiches aide - mémoire,
ouvrage collectif, 1997. il s'agit en fait de bien plus que des fiches
aide-mémoire ! l'ouvrage peut être consulté sur le
suite suivant :
http://www.inra.fr/bia/ftp/t/fpstat/module1/version2/fiches.ps.gz.
laissons parles un peu les auteurs :
« on range
ensemble les deux échantillons par ordre croissant, et on
remplace chaque valeur par le numéro de son échantillon
d'origine. on obtient ainsi une suite de m + n symboles 1 ou 2. on
définit un run comme une séquence d'observations de l'un
des deux échantillons (une séquence de symboles 1 ou de
2)
immédiatement suivie soit d'une séquence d'observations
de
l'autre échantillon, soit de rien (fin de la suite des m + n symboles). la
statistique utilisée est le nombre total r de runs dans la suite
construite à partir des deux échantillons. sous ho, les
xi
et les yj sont tous issus d'une même population et on ne doit pas
s'attendre à observer un nombre de runs trop faible,
contrairement à certaines alternatives (cas limites : seulement
2
runs si la différence des positions est très forte par
rapport aux dispersions par exemple 111111-222222 ; ou 3 runs si la
position est commune mais si les dispersions sont très
différentes par exemple 111-222222-111'). »
par exemple, si nous
prenons les deux suites :
x 1 4 5 8 9
y 2 3 4 6 7 10
nous obtenons le
résultat suivant
tableau xiii
(test de
wald-wolfowitz sur deux séries)
le résultat montre qu'il n'y a pas de
différence significative (p = 0,251).
mise en oeuvre : il faut appeler la boîte de dialogue suivante :
input
data : saisie d'une
ou de deux colonnes, selon que les éléments sont
déjà disposés sous une forme ordinale. dans le cas
présent, la sélection correspond aux deux colonnes
contiguës x et y.
category 1 et 2 : on peut saisir n'importe quel
caractère ou une référence. ici, $b$4 correspond
à x et $c$4 à y. la macro sait faire la différence
entre la saisie d'un texte, d'un nombre ou d'une
référence.
output data : zone de réponse : le tableau
xiii permet d'observer que les résultats sont disposés
sur
5 colonnes pour l'analyse et de deux pour la synthèse. dans la
première colonne, la suite des nombres est
réordonnée ; la colonne suivante montre la
catégorie correspondante ; la colonne suivante, le rang
correspondant [la même
macro
est remployée pour tous les calculs de rang]. les deux
colonnes suivantes montrent la transposition des valeurs ordinales en 1
et 0 ; la dernière colonne, enfin, détermine le nombre de
runs, ici 8. dans le cas d'ex aequo - ici le rang moyen 4.5 qui
correspond à la valeur 4, il faut privilégier la suite
des
symboles en sorte de rendre r
le plus grand possible, ce qui signifie : privilégier
l'hypothèse nulle h0.
continuity correction :
permet de tenir compte du fait qu'une distribution continue est
utilisée dans l'approximation d'une distribution
discrète,
selon que les runs soient réparties de façon
« plutôt » unilatérale ou bilatérale.
wald wolfowitz : u = 8 runs. la macro renvoie le
résultat en valeur z et la valeur exacte, tabulée.
voyons un second exemple,
tiré du même ouvrage, remployé de sprent, 1992 :
les
auteurs se demandent si la distribution du nombre de pages est
identique
dans deux populations de livres : livres de statistiques et livres
divers :
divers 29
39 60 78
82 112 125
170 192 224
263 275 276
286 369 756
stat 126
142 156 228
245 246 370
419 433 454
478 503
wald wolfowitz test
n 28
n1 12
n2 16
runs 7
µ 14.714
s 2.541
z -2.839
p 0.00453
exact value not available
la valeur z = 2.839 autorise à conclure
que les livres de statistiques sont paginés de manière
différente que les livres « divers. »
notez que
ce test est équivalent au « run
test » ou test des signes [nous
avons 7 runs dans le dernier exemple]. la
différence entre le test de wald wolfowitz et le run test a
trait
simplement au fait que, dans le run test, les données binaires 1
et 0 sont déjà mises en place : le traitement des
données requiert une seule colonne ; alors que dans le test de
wald wolfowitz, les données sont d'abord « brutes »,
en deux colonnes séparées qu'il faut ordonner en 1 et 0.
le problème vient alors des ex aequo ; s'ils sont situés
dans une même colonne, ils sont considérés comme
d'habitude ; s'ils sont situés dans deux colonnes
différentes, il faut les ordonner en sorte de privilégier
l'hypothèse nulle h0. cela requiert davantage de temps ;
notez enfin que le test de wald wolfowitz est moins puissant que le
test
de kolmogorov
smirnov. les formules permettant de déterminer
le z sont les suivantes, sachant que l'approximation normale est
atteinte quand n1
et n2 > 10.
(22)
(23)
(24)
notez encore que le
test de la médiane se rapproche du test des signes. et qu'enfin,
il existe un test qui permet de relever si deux échantillons ont
une même variance. ce test est connu comme le moses
test for equal variability. il est
congénère du test de wald wolfowitz et se rapproche, par
sa mise en oeuvre du test de mann whitney u parce qu'il est basé
sur un classement en rang qui s'inspire absolument de celui qui est
visible au tableau vii. il y a peu d'information qui circule sur le web
pour ce test : on peut citer :
- un fichier pdf dont seule la version en cache est disponible ;
hélas, les formules en sont illisibles. c'est un fragment de
cours, débité en plusieurs leçons, qui tire son
origine de :
http://cui.unige.ch/~koval/taras/param%20nonparam%20stat%20proc/test15.pdf.
en voici un extrait :
«
developed by moses (1963), the moses test for
equal variability is
a
nonparametric procedure that can be employed in a hypothesis testing
situation involving two independent samples. if the result of the moses test for equal
variability is
significant, it indicates there is a significant difference between the
sample variances, and as a result of the latter the
researcher can conclude there is a high likelihood that the
samples represent populations with different variances. the moses test for
equal
variability is one of a number of tests of dispersion (also
referred to as tests of scale or spread) that have been developed for
contrasting the variances of two independent samples. [...].
some sources recommend the use of nonparametric tests of dispersion for
evaluating the homogeneity of variance hypothesis when there is reason
to believe that the normality assumption of the appropriate
parametric test for evaluating the same
hypothesis is violated. sources that are not favorably
disposed toward nonparametric tests recommend the use of hartley
sf test for homogeneity of variance/f
test for two population variances
»
le test permet de tester la
différence des rangs pour une variable donnée
organisée en deux groupes. le groupe «
contrôle » est défini comme étant celui qui
contient la valeur la plus basse ; l'autre groupe est
étiqueté comme « expérimental ». les
deux groupes sont combinés exactement de la même
manière que pour le test de wald wolfowitz. on définit
alors une quantité nommée par les anglo-saxons le «
span », que l'on peut traduire par
intervalle, quoique le terme, stricto sensu, soit impropre. il serait
sans doute plus avisé de dire « l'écart » ou
même mieux, la « distance
». cette distance - span -
représente donc la différence, calculée
en rang, entre la valeur minimale et la valeur maximale du
groupe contrôle + 1, ce que l'on peut écrire :
span = rank(largest control value) -
rank(smallest control value) + 1
valeur
qui doit être arrondie à l'entier le plus proche [sur excel, on utilise la fonction int() ou trunc()]. je laisse à
nouveau la parole à l'auteur du site sur lequel on peut voir le
document suivant :
« under the null
hypothesis, therefore, the very long leads, the very short leads, as
well as the moderate leads,
should all contain a mixture of e's and c's. under the alternative
hypothesis, most of the e's will be low, or most of the e's will be
high, or most of the e's will be low or high with the c's concentrated
in the middle. under these three conditions, the c's will be
concentrated at the high end, the low end, and the middle region,
respectively. the moses test determines whether the c's are so closely
compacted or congested relative to the ne + nc leads as to call for a
rejection of the null hypothesis that both e's and c's come from the
same population.
to perform the moses test, the leads
from the e and c indicators are combined and arranged in a
single ordered series, retaining the identity of each lead as
having come from the c indicator or the e indicator. then the
span of the c leads is determined by noting the lowest and
highest c leads and counting the number of leads between them,
including
both extremes. thus the span s' is defined as the smallest number of
consecutive leads in an ordered series needed to include all the c
leads. since the sampling distribution of s' is known (moses, 1952), it
may be used for tests of significance. because s' is essentially the
range of the c leads, and the range is known to be unstable, the
modification suggested by moses is to pick an arbitrary small number h,
in advance of the analysis. a value such as 1 or 2 is typical. then,
the
span sh of the c leads is determined after dropping the h most extreme
c
ranks. .. » [the lead profile and
other non-parametric tools to evaluate survey series as
leading indicators, anirvan banerji economic
cycle research institute new york, 24 th ciret
conference wellington, new zealand march 17-20, 1999]
on
a donc : g = sh -
(nc -
2h) où sh représente la distance
[span], nc l'effectif du groupe contrôle
et h ce que j'appellerai,
faute de mieux le « facteur de
moses.» la valeur de h
peut être attribuée par défaut à 0.05 x nc en prenant la
partie entière; elle peut aussi être comprise entre 1 et
3.
on calcule ensuite les probabilités conditionnelles
cumulées grâce à la formule suivante :
(25)
on
calcule p pour h = 0 puis :
« the
test is repeated, dropping the h
lowest and h highest ranks
from the control group. if not
specified by the user, h is
taken to be the integer part of 0.05
x nc or 1, whichever is greater. if h is user specified, the integer
value is used unless it is
less than one. the significance
level is determined as above. » [npar
test in spss]
les
anglo-saxons emploient le terme de « truncated span »
selon
la valeur attribuée au facteur h.
il s'agit en fait de l'équivalent des « outliers » ou
données réputées aberrantes.
- exemple 1 : soit
deux séries c et e ; on veut observer si les
variances
de c et de e diffèrent :
c 12 16 6 13 13 3 10 10 11
e 25 5 14 19 0 17 15
8
8
résultat
:
value 0
3 5 6
8 8 10
10 11 12
13 13 14
15 16 17
19 25
category e
c e c
e e c
c c c
c c e
e c e
e e
rank 1
2 3 4
5.5 5.5 7.5
7.5 9 10
11.5 11.5 13
14 15 16
17 18
sequence 0
1 0 1
0 0 1
1 1 1
1 1 0
0 1 0
0 0
runs 1
1 1 1
0 1 0
0 0 0
0 1 0
1 1 0 0
wald wolfowitz test
n 18
n1 9
n2 9
runs 9
µ 10
s 2.058
z -0.243
p 0.80801
exact value 0.39
moses test
extreme reaction
sh 9
nc 9
2h 2
g 2
p 0.0767174
- exemple 2 : soit deux
séries t et p où t figure un groupe recevant un
traitement réel et p un
autre groupe recevant un placebo ; on veut savoir si les variances
diffèrent
mise en oeuvre : on appelle la boîte de dialogue suivante :
cette
boîte est évidemment la même que pour le test de wald-wolfowitz. on y distingue
une case à cocher pour prendre en compte le moses test
; puis le facteur h à
saisir comme vu plus haut, avec une possibilité permettant de
faire varier à volonté la probabilité pour un h
différent [bouton compute
h
range for censoring of range]. le reste rejoint ce que nous
avons déjà dit. en principe, le programme reconnaît
automatiquement le groupe contrôle qui possède la valeur
la
plus basse. voici les données et les résultats :
t 64
7 73 56
82 68 94
68 29 36
81 32 39
88 38 53
p 26
23 53 74
-9 23 30
96 -6 31
47 63 21
90 26 -4
-2 49 70
98 92 7 37
value
-9 -6 -4
-2 7 7
21 23 23
26 26 29
30 31 32
36 37 38
39 47 49
53 53 56
63 64 68
68 70 73
74 81 82
88 90 92
94 96 98
category
p p p
p t p
p p p
p p t
p p t
t p t
t p p
t p t
p t t
t p t
p t t
t p p
t p p
rank
1 2 3
4 5.5 5.5
7 8.5 8.5
10.5 10.5 12
13 14 15
16 17 18
19 20 21
22.5 22.5 24
25 26 27.5
27.5 29 30
31 32 33
34 35 36
37 38 39
sequence
0 0 0
0 1 0
0 0 0
0 0 1
0 0 1
1 0 1
1 0 0
1 0 1
0 1 1
1 0 1
0 1 1
1 0 0
1 0 0
runs
0 0 0
1 1 0
0 0 0
0 1 1
0 1 0
1 1 0
1 0 1
1 1 1
1 0 0
1 1 1
1 0 0
1 0 1
1 0
wald wolfowitz
test
n 39
n1 16
n2 23
runs 21
µ 19.872
s 2.979
z 0.546
p 0.58507
exact value not available
moses test
extreme reaction
sh
21.5
nc 23
2h 2
g 0
p 2.5695e-0
8)- le
test de corrélation de rang de spearman è ne figure pas dans l'analysis tool pack
d'excel
ce test est
l'équivalent du coefficient de corrélation pour des
effectifs de taille inférieur à 30. les
données de base consistent en une série de n couples
(xi, yi). il convient ici de classer séparément les x et
les y : à chaque x correspond alors un rang allant de 1
à n ; idem pour chaque y. là encore, on départage
les ex-aequo selon un procédé analogue à celui des
autres tests [non compris le test
t de wilcoxon pour séries appariées]. voici un
exemple, emprunté à cohen, l. and holliday, m. statistics
for the social scientists [harper & row, london, 1982,
p. 155].
tableau
xiv
(coefficient de
corrélation des rangs, ou de spearman)
a gauche,
en mode de sélection,
les
données apparaissent. elles doivent figurer dans deux colonnes
contiguës. a droite, les résultats. on dispose de :
n : nombre d'observations - np : nombre de paires - mx : moyenne des x - my : moyenne des y - sd : somme des différences de
chaque rang - sd2 :
somme des carrés de chaque rang - df : nombre de degrés de
libertés - r' :
coefficient de corrélation de spearman - t : statistique de student - p : probabilité
associée - z :
statistique de la loi normale - ties
: nombre d'ex-aequo et corrections pour les ex-aequo : r', t et p.
ensuite
les colonnes des rangs puis la droite de régression selon : y = ax + b. on dispose aussi
d'un graphique :
figure i
(droite de régression)
d'autres
tests doivent être prochainement disponibles ainsi que des liens
faisant le point de ce que l'on peut trouver sur le sujet. il
s'agit de la première statistique, calculée à
partir des rangs, qui ait été proposée (1903).
soit
n le nombre d'items à classer; xi
est le rang de l'item i dans un
premier classement et yi
son rang dans un second. dj = |xi
- yi| est la différence de rangs
observés
entre les deux classements. le coefficient de corrélation des
rangs de spearman a pour expression :
(26)
plus
rs est proche de 1, plus les deux classements sont proches; a la
limite, ils sont
complètement
identiques si rs = 1. au contraire, plus rs est proche de 0, plus
les deux classements
sont indépendants. en cas d'ex aequo, on doit calculer la
quantité :
(27)
où tki est le nombre
d'ex aequo au rang i
de la variable xk.
9)- le test de
friedman è ne
figure
pas dans l'analysis tool pack d'excel
ce
test est important à connaître car il est utilisé
dans des circonstances spéciales, souvent rencontrées en
pratique : les tests de dégustation ou si l'on
préfère, et de manière plus large, les tests
« d'appréciation. »
le calcul des rangs, nécessaire, à ce test, par groupes [blocs et traitements] fait en
outre que ce test se rapproche de la statistique de page ainsi que du coefficient de
concordance w de
kendall. voyons un premier exemple.
a)-
l'hypnose : dans une
expérimentation pratiquée en 1975, lehman a
enregistré le « potentiel cutané » en
millivolts chez 8 sujets qui, par ailleurs, étaient
interrogés sur la coloration psychique « crainte, joie,
tristesse et joie » sous hypnose.
[site consulté : http://www.id.unizh.ch/software/unix/statmath/sas/sasdoc/stat/chap28/sect41.htm].
voici le tableau des observations :
fear joy
sadness calmness
1
23.1 22.7
22.5 22.6
2
57.6 53.2
53.7 53.1
3
10.5 9.7
10.8 8.3
4
23.6 19.6
21.1 21.6
5
11.9 13.8
13.7 13.3
6
54.6 47.1
39.2 37
7
21 13.6
13.7 14.8
8
20.3 23.6
16.3 14.8
comme
on peut le voir sur le tableau xv, le résultat n'est
pas significatif.
friedman's
test
n 32
n (=t) 8
k (=b) 4
srj2 1686
fr (3, 21) 2.57
p 0.08129
critical value 5% 7.5
ties no
corr. for ties 1
t' 6.45
p' 0.09166
tableau xv
(statistique de friedman)
le
tableau xv peut être lu en trois sous-ensembles : à
gauche, les résultats proprement dits [p # 0.09, donc ns mais il peut
être utile de donner la valeur au lieu du ns classique].
on peut lire n [nombre total : 32] ; t [nombre de « traitements »,
ici 8, encore appelé n]
; b [nombre de blocs, ici 4 : « fear -
joy - sadness - calmness », encore appelé k]. puis : srj2
[somme des carrés du total
des rj : 272 + 202
+ 192 + 142] ; le t de friedman est ici
inférieur à la valeur critique 7.5 [lu dans la table inclue dans la feuille
macro].
a noter que la table donnée par ce site est incomplète ;
nous avons trouvé les valeurs correspondant à k = 3 (suivant n > 8), k = 4 (suivant n > 4) et enfin k = 5 (n de 3 à 6) à
la
page suivante : http://www-class.unl.edu/psycrs/handcomp/hcfried.pdf.
poursuivons : dans le cas présent,
il n'y a pas d'ex-aequo ; sinon, il faut appliquer une correction qui
apparaît sous le label t'.
pour mémoire, même lorsque le test est non significatif,
nous avons donné à titre indicatif seulement les
comparaisons multiples - chose interdite en statistique !... - avec la
valeur critique. notez encore que le résultat t de la statistique de friedman peut
être rapporté par un test f
lorsque k est compris entre 3
et
5 ou que n est compris entre 5
et 10. ce test f est lu pour (n -1 ; k -1) ddl, cf. infra,
(30).
b)- extrait de reading/reference
(for all spss-related matters): kinnaer, p.r. and gray, c.d. (1997). spss
for windows made simple (second edition). hove:
psychology press.
un chercheur intéressé par l'apprentissage du langage
veut savoir si l'âge d'acquisition affecte les sentiments des
sujets qu'un mot est familier. il conçoit une expérience
avec les mots qui sont généralement acquis entre des
âges 3-6, 7-10, 11-14 et 15-18. il présente à des
sujets 20 noms de chaque catégorie. les sujets doivent donner
une
évaluation selon le label « caractère familier
» à une échelle de 1-5, avec 1 étant «
peu familiers » et 5 étant « familiers ».
voici
les données :
3--6
7--10 11--14 15--18
1
5 5
4
5
2
5 5
4
5
3
5 5
5
4
4
5 5
5
5
5
5 5
5
4
6
5 5
5
3
7
5 5
5
2
8
4 5
5
2
9 5
5
5 4
10 5
4
5
3
les
résultats sont intéressants : ils montrent
l'importance qu'il y a à prendre en compte les ex-aequo. le test
est en effet non significatif ; mais comme il y a 29 ex-aequo, en fait
on trouve que p < 0.05.
tableau xvi
(statistique
de friedman - problème des ex aequo)
l'interface
de cette macro mérite quelques précisions. le test de
friedman est assimilable à une anova non paramétrique
à deux facteurs : un facteur dit « traitement »
et un facteur « bloc ». dans le
cas présent, le facteur bloc consiste en les 4 classes
d'âge [les moyennes sont
respectivement de : 29 - 29 - 26.5 - 15.5]. bien
que ns en formulation bilatérale, le test est significatif en
formulation unilatérale. le facteur traitement est ici de n = 10. voici la boîte de
dialogue permettant de gérer les données :
ici, il convient donc de saisir comme bloc les
intervalles d'âge [4] et comme traitement, les 10 mesures.
voici les formules permettant la computation de ce test. il est
incompréhensible que des revues de cd classiques
distinguées - comme la revue répertoire,
que j'évoque dans la section sur sergiu celibidache - n'aient pas
employées cette statistique dans leur «
blindfold
test » lors des écoutes comparatives de
versions différentes d'une oeuvre. ce test permet de
décider si les différences observées entre t échantillons
répartis en p blocs sont dues au
hasard, ou au fait que les traitements sont différents. ce test
s'applique donc surtout pour les expériences en blocs
complètement randomisés. on commence par remplacer les
observations par leur rang. l'opération s'effectue
indépendamment pour chaque bloc. ce test distribue les
données en un tableau à double entrée ayant n
rangées et k colonnes. les rangées
représentent les différents sujets [traitements
= treatment] et les colonnes les différentes
conditions [blocs = block].
les données sont rangées. la détermination des
rangs se fait pour chaque rangée séparément [cette méthode de classement par
rangée séparée explique que nous ayons
regroupés les statistiques de friedman, de page et le
coefficient w de kendall]. donc pour k
conditions, les rangs de chaque rangée se répartissent
entre 1 et k. le test détermine si les
différentes colonnes de rangs proviennent de la même
population. le
traitement des ex-aequo à l'intérieur d'un bloc reste le
même que pour le test de kruskal-wallis. etapes :
- détermination de s
(28)
dans l'exemple du tableau
xv, on trouve s = 1686, avec rtj = {27
; 20 ; 19 ; 14}. k = 8 et n = 4.
- la statistique de friedman est alors donnée par une
formule qui suit une loi du chi carré à k-1 ddl
[df].
(29)
notons que pour des échantillons de taille réduite, une
formule différente est proposée, basée sur la
statistique de fisher [qui doit
se lire à k-1 ; (k -1) x
(n -1) ddl] :
(30)
où
comme précédemment, sti2
est la somme des rangs pour chaque colonne [attention à ne pas confondre les
« blocs » et les « traitements » !], n est le nombre de traitements et k le nombre de blocs. srij2
est la somme des carrés de chaque rang des colonnes. on en voit
un exemple au tableau xvi [à noter que la correction pour
les ex aequo a été déterminée par le test
du c2 à k -1 ddl].
mais cette formule
ne tient pas compte des ex-aequo. on peut trouver cette formule
à l'adresse suivante : http://ff123.net/.
(31)
l'auteur fait
référence à : sensory evaluation
techniques, 3rd ed., meilgaard, civille, and carr).
on remarque que les
symboles diffèrent. voici les correspondances : rtj
: x.j - n(k+1)/2 : g - b : t
- t : k. gi représente
le
nombre d'ex aequo du bloc i et ti,j le
nombre
de valeurs des ex aequo j appartenant au groupe i. si le
test de friedman conclut à un résultat globalement
significatif, on peut tester la signification de comparaisons choisies,
en étudiant les différences entre les sommes ou moyennes
de rangs des traitements. on juge significatives des différences
de sommes de rangs supérieures à la plus petite
différence significative données par :
(32)
où lsdrank
=
|ri-rk|. notez que tomassone, dans son biométrie,
rapporte le calcul de la différence des rangs à la loi
normale, alors que l'auteur la rapporte à une loi de student
fisher. on a alors a' = a/i(i-1), avec i : nombre de
colonnes.
9bis) - le test de page
il est congénère du test de jonkheere - terpstra,
à ceci près qu'on l'emploie dans le cas
d'échantillons dépendants - au lieu que la statistique de
jonkheere est à employer pour des échantillons
indépendants où l'on souhaite observer s'il existe une
« structure ». exemple : on ajoute un additif à un
produit alimentaire ; ou bien encore, on ajoute un excipient à
un
médicament en sorte d'améliorer le goût d'une forme
orale à saveur particulièrement désagréable
[surtout chez l'enfant].
on
souhaite apprécier l'effet de cette dose sur le jugement. c'est
dans ces cas que la statistique de page est conseillée.
là
encore, nous allons donner quelques extraits d'une page
rédigée en italien, tirée de : http://www.dsa.unipr.it/soliani/soliani.html.
« il
test, detto anche per le alternative ordinate fondate sulla somma dei
ranghi di friedman
(distribution-free test for ordered alternatives based on friedman rank
sums) è stato proposto da
e. b. page nel 1963 (con l’articolo
ordered hypotheses for multiple treatments: a significance test for
linear ranks pubblicato sulla rivista journal of the american
statistical association vol. 58,
pp. 216-230). esso serve per verificare l’ipotesi che le mediane dei gruppi a confronto siano
ordinate secondo una sequenza specificata a priori. il test è solo unilaterale e
quindi
occorre definire a priori l’ordine naturale dei valori delle mediane.
»
la statistique de page ressortit de l'hypothèse nulle h0 :
(33)
et
de l'hypothèse alternative h1
:
(34)
exactement
comme le test de jonckheere, dans le cas d'échantillons
dépendants.
elle est définie par l,
où :
(35)
l représente la somme des j rangs rj, de j = 1 à k, où k est le nombre de « blocs
» exactement comme dans le test de friedman. la computation de l est donc identique à celle
du test de friedman ; nous l'avons lié, du reste, sur notre
macro, au test de page. une table spéciale doit être
employée pour observer la valeur critique de l à partir
de
laquelle p < 0.05. voyons ceci sur un premier exemple - commun
d'ailleurs à tomassone et à lamberto soliani.
a
b c d e
1 2 1
4 5 3
2 2 1
3 5 4
3 1 3
2 4 5
dans
une expérience, on souhaite vérifier que l'apport d'une
substance x, à 5 doses régulièrement
espacées, entraîne un jugement de plus en plus mauvaix sur
la qualité du produit. l'hypothèse à tester est
donc : h1
: a ³ b
³ c
³ d
³ e,
où au
moins une inégalité est stricte.
nous donnons les résultats des tests de friedman et de page :
friedman's
test
n 15
t 3
b 5
srj2 471
t 8.8
p 0.0663
critical value 5%
ties no
corr. for ties 1
t' 8.8
p' 0.0663
page's
test
page's test
n (= t) 3
k (= b) 5
l 158
m 135
s 8.66
sl 2.656
p 0.05159 | exact p < 0.01
critical value for l [ 5 | 1 | 0.1 ] % 150 | 155 | 160
la
boîte de dialogue appelant le test est la même que celle du
test
de friedman,
remaniée. dans le cas où le nombre de blocs k est
inférieur à 10, on consulte une table spéciale ;
dans le cas présent,
est supérieure à la valeur critique au seuil de 1 % [l
= 158155].
le z
[sl, qui correspond à z0.5]
est approximatif dans le cas où k est inférieur à
10 et ne doit pas être employé [il est donné ici à titre
documentaire]. au-delà, la formule à employer est
:
(36)
où
l* est l'approcimation normale de l, dès que k > 10 ; elle
suit une loi de c2
à 1 ddl. n est le nombre d'observations [il doit y avoir le même nombre
à chaque colonne] et k est le nombre de « blocs
». voyons un autre exemple, pour un grand échantillon : je
le tire de l'ouvrage de lamberto soliani ; laissons s'exprimer l'auteur
:
« esempio 1 (per grandi
campioni). lungo il corso d'acqua che attraversa una città, sono
state collocate 6 stazioni (a,
b, c, d, e, f) di rilevazione dell'inquinamento. in ognuna delle 6
stazioni, per 15 giorni
è
stata fatta una misura del carico inquinante. i valori campionati, classificati per
stazione e per giorno di rilevazione, sono riportati nella tabella a due
entrate sottostante:
» [capu18.pdf,
p. 1486]
a
b c
d e f
1
20 18 24
22 29 38
2 32
37 34 31
39 38
3 18
23 19 25
23 26
4 9
7 14 11
12 11
5 29
37 32 59
40 45
6
38 25 27
47 45 45
7
8 15 7
12 15 13
8
18 13 22
26 23 22
9
32 36 37
35 48 40
10
23 25 26
25 32 56
11 6
8 12 9
10 10
12 24
18 20 27
25 27
13 13
18 14 14
19 26
14 18
26 19 19
29 32
15 14
12 25 56
54 75
étape
1 : nous devons d'abord ranger, séparément,
ces observations comme pour le test de friedman :
1 2 3
4 5 6
7 8 9
10 11 12
13 14 15
total
ri
a
2 2 1
2 1 3
2 2 1
1 1 3
1 1 2 25
b
1 4 3.5
1 3 1
5.5 1 3
2.5 2 1
4 4 1
37.5
c
4 3 2
6 2 2
1 3.5 4
4 6 2
2.5 2.5 3
47.5
d
3 1 5
3.5 6 6
3 6 2
2.5 3 5.5
2.5 2.5 5
56.5
e
5 6 3.5
5 4 4.5
5.5 5 6
5 4.5 4
5 5 4
72
f
6 5 6
3.5 5 4.5
4 3.5 5
6 4.5 5.5
6 6 6
76.5
étape
2 : calculer la moyenne µ,
l'écart type s
et la statistique z
:
moyenne: (37),iciµ
= 1102.5 [on
rappelle que n = 15 et k = 5]
écart type
: (38), ici s = 30.311
et enfin, (39), avec z0.5
= 6.103, soit p = 0.00675.
résultat
sous excel :
page's test
n (= t) 15
k (= b) 6
l 1287.5
m 1102.5
s 30.311
z 6.103
p 0.00675
critical value for l [ 5 | 1 | 0.1 ] % not available
dernier point : la
formulation du test est, par essence, unilatérale [z = 1.645, avec p < 0.05].
9 ter - coefficient
de concordance de kendall w
là encore, on range les observations d'une façon
semblable à ce qui est réalisé pour la statistique
de friedman. il s'agit d'une sorte de généralisation
à k classes [les blocs
dans
friedman] du coefficient t de kendall. w
exprime
donc le degré de concordance entre k classes. pour calculer ce
test, on procède ainsi :
- étape 1 : on classe les observations en rang,
séparément pour chaque observation [il s'agit des
étiquettes « traitement » dans friedman] ;
- étape 2 : on calcule la somme des rangs j srj
de chaque colonne n x k [k
= classe = bloc et n = nombre
d'observations = traitements ; il va de soi que le nombre
d'observations
doit être égal pour chaque classe, sinon le test n'a aucun
sens].
- étape 3 : on détermine w
:
(40)
il
convient de tenir compte des ex aequo, qui diminuent un peu la variance
de w ; le terme soustractif du dénominateur de w peut être
déterminé par :
(41)
oùti, comme dans le
test de friedman, est le nombre d'ex aequo du groupe i de chaque colonne j ; gj correspond,
précisément, au nombre total de ces ex aequo dans le
groupe j. le
degré de signification de w
peut être lu dans une table du c2, pour la
valeur :
(42)
pourn -1 ddl [df]. voyons cela sur un
exemple. supposons
que l'on demande à trois mélomanes d'une revue x
d'écouter 6 versions différentes d'une symphonie de
beethoven [mettons la
3ème,
l'héroïque]
et de les ranger séparément suivant l'organisation des
plans sonores [qui ressortissent
de l'oganisation spatiale des instruments, laquelle varie en
général grandement selon le chef d'orchestre].
les
trois séries indépendantes de rangs données par
les
trois mélomanes a, b, c sont exposées dans le tableau
suivant :
a
b c d
e f
a
1 6 3
2 5 4
b
1 5 6
4 2 3
c
6 3 2
5 4 1
nous pratiquons d'abord le test de friedman :
friedman's
test
n 18
t 3
b 6
srj2 687
t 2.429
p 0.78715
critical value 5%
ties no
corr. for ties 1
t' 2.429
p' 0.78715
avec le détail des rangs, base de la computation du
coefficient w de kendall :
a
b c total ri
a
1 1
6 8
b
6 5
3 14
c
3 6 2 11
d
2 4
5 11
e
5 2
4 11
f
4 3 1
8
kendall's
coefficient of concordance
k 3
n 6
df 5
s 25.5
w 0.162
f 0.162
t for ties 0
w* 0.162
p 0.787
critical value of w [5 | 1] % |
on voit que le test n'est pas significatif ; les mélomanes n'ont
pu départager les différentes versions de l'héroïque !
nous allons voir un autre exemple, avec des ex aequo :
tableau des données :
a
b
c d
i
1 3
3 3
ii
1
4
2 3
iii
2 3
1 4
iv
1.5 1.5
3.5 3.5
transformation en rangs et sr
i
ii iii iv total ri
a
1 1 2
1.5 5.5
b
3 4 3
1.5 11.5
c
3 2 1
3.5 9.5
d
3 3 4
3.5 13.5
notez que la transposition est faite automatiquement par le logiciel,
à partir du moment où l'on a saisi la colonne des
étiquettes du tableau comme « traitements » [i.e.
observations] et la ligne des étiquettes dudit tableau comme
« blocs ». voici du reste la boîte de dialogue qui
correspond à la saisie de ce tableau.
résultat :
kendall's
coefficient of concordance
k 4
n 4
df 3
s 35
w 0.438
f 0.515
t for ties 3
w* 0.515
p 0.103
critical value of w [5 | 1] % |
10)- le test de
kolmogorov smirnov è ne
figure
pas dans l'analysis tool pack d'excel
c'est une alternative des plus intéressantes au test du c2 quand celui-ci n'est pas
possible, au cas où les effectifs théoriques ne sont pas
suffisants. mais les propriétés de ce test sont beaucoup
plus étendues que celles du c2. ce test, en fait, est un
véritable «
couteau suisse » qui permet aussi bien de
décider entre 4 auditeurs, quel est le meilleur
violon entendu lors d'un «
blindfold test », ou encore de décider si
une
courbe présente telle ou telle tendance [normale, . aussi
peut-on paraître un peu étonné, en néophyte,
des qualités protéiformes de ce test.
mise en oeuvre : elle s'établit en appelant la macro
correspondante qui donne accès à cette boîte de
dialogue :
- de haut en bas : saisie d'une ou de deux colonnes de
données, selon que l'on traite un ou deux échantillons,
cf. exemples infra. saisie éventuelle des étiquettes des
données [qui doivent
figurer dans la première ligne] ; saisie de la cellule
où l'analyse prendra forme. puis : saisie du « facteur
classe » pour l'établissement des classes de la fonction
de répartition empirique, conduisant, sur option, à la
construction d'un graphe. chois de la modalité : un ou deux
échantillons. dans le cas où l'on dispose de deux
échantillons de taille différente, il est obligatoire de
classer les distributions cumulées [range of...]. enfin,
formulation uni ou bilatérale.
voyons tout cela sur un premier exemple.
a)- cas de deux échantillons
trt 0.38
1.26 0.34 0.7
1.75 50.57 1.55
0.08 0.42 0.5
3.2 0.15 0.49
0.95 0.24 1.37
0.17 6.98 0.1 0.94
placebo 1.19
2.37 2.16 14.82
1.73 41.04 0.23
1.32 2.91 39.41
0.11 27.44 4.51
0.51 4.5 0.18
14.68 4.66 1.3
2.06
le cas de figure est le suivant : comparaison de deux modalités
thérapeutiques, avec des tailles < 30. cet exemple est
extrait du site : http://www.physics.csbsju.edu/stats/ks-test.n.plot_form.html
laissons parler l'auteur :
« the
kolmogorov-smirnov test (ks-test) tries to determine if two
datasets differ significantly. the ks-test has the advantage of making
no assumption about the distribution of data. (technically speaking it
is non-parametric and distribution free.) note however, that this
generality comes at some cost: other tests (for example student's t-test)
may be more sensitive if the data meet the requirements of the test.
[...] »
l'intérêt de ce test est de
mettre en évidence une différence
significative, là où le test t de student fisher ne
permet
pas de conclure. voici par exemple la conclusion du test t de l'analysis
tool pack :
t-test: two-sample assuming
equal variances
traitement placebo
mean
3.607 8.3565
variance
124.649148 164.336582
observations
20 20
pooled variance 144.492865
hypothesized mean difference 0
df 38
t -1.24946671
p(t<=t) one-tail 0.10956794
t critical one-tail 1.68595307
p(t<=t) two-tail 0.21913589
t critical two-tail 2.02439423
quelle est la procédure à suivre pour calculer la
statistique de kolmogorov - smirnov ? ici, nous avons deux
échantillons. nous devons :
- ranger les deux séries d'observations en
fréquences cumulées [ce qui
peut se faire de deux façons, selon que l'on distingue des
classes ou pas ; en ce cas, nous calculons ce que l'on appelle la
fonction de répartition empirique]. a propos de
la
fonction de répartition empirique, voici un extrait du site http://conte.montesquieu.u-bordeaux.fr/index.html
où des précisions fort intéressantes sont mises en
exergue :
« la
fonction de répartition est la fonction qui associe à
tout nombre réel le nombre d individus de la population
étudiée qui ont une valeur inférieure au dit
réel. par inférieure,
on entend en france strictement inférieur,
alors que dans les pays anglo-saxons on entend inférieure
ou égale.
dans ce qui suit, donc, si f est la fonction de répartition,
pour
tout x
de r,
l image f(x)
est l effectif de la sous-population formée par les individus
dont la valeur est strictement inférieure
à x.
[...] la
représentation graphique (diagramme intégral) est alors
un escalier, chaque
marche étant ouverte à gauche et fermée à
droite, la première
étant de longueur infinie de -oo à x1 et la
dernière
de longueur infinie de xn à +oo. »
- calculer la différence, en valeur absolue, de la
quantité :
(43)
fn1 (x) symbolise le vecteur de
fréquences cumulées de la variable x - ici
le traitement - et gn2 (y), le vecteur de la variable y
- ici le placebo. on détermine la position de la
différence maximale, en valeur absolue, des deux vecteurs.
- on relève, sur une table appropriée, la
valeur critique de dn1,n2 - ici dans une table pour deux
échantillons.
exemple, dans le cas présent :
fn1 (x)
0.00526754
0.02273357
0.02744663
0.03714999
0.06140837
0.76240643
0.78389243
0.78500139
0.7908234
0.79775437
0.84211256
0.84419185
0.8509842
0.86415304
0.8674799
0.88647075
0.88882728
0.98558359
0.98696978
1
gn2 (x)
0.00712021
0.02130078
0.03422485
0.12289834
0.13324957
0.37880692
0.38018309
0.38808113
0.40549273
0.64129719
0.64195536
0.80613893
0.83312392
0.83617543
0.86310058
0.86417759
0.9520134
0.97989589
0.98767427
1
diff.
0.81
1.11
1.82
14.12
0.02
9.53
1.32
1.24
2.49
38.91
3.09
27.29
4.02
0.44
4.26
1.19
14.51
2.32
1.2
1.12
d n1,n2
0.00185267
0.00143279
0.00677822
0.08574836
0.07184119
0.38359952
0.40370934
0.39692025
0.38533067
0.15645717
0.20015719
0.03805292
0.01786028
0.0279776
0.00437932
0.02229317
0.06318612
0.0056877
0.00070448
0
on voit ici que dn1,n2
=
0.403. on remarque évidemment que ce tableau est pour le moins
rébarbatif ; on peut pallier cette austérité en
mettant en oeuvre un graphique approprié. ce graphique n'est
autre que celui qui illustre la fonction de répartition
empirique
associée à un échantillon x1,...
xn. cette fonction est définie par :
(44)
on en voit le résultat dans les colonnes de
gauche du tableau [fn1 (x) et gn2
(x)]. la fonction de répartition empirique est
une fonction en escalier qui fait des sauts de hauteur 1/n
en
chaque point de l échantillon. elle est donc dite «
ouverte à gauche » et « fermée à
droite. »
figure ii
(fonction de répartition empirique)
la série colorée en rouge est le traitement,
celle en bleu est le placebo : de façon
générale, la série de gauche est donc en rouge et la série en bleu est disposée à droite.
le tableau suivant montre l'analyse du test de kolmogorov smirnov pour
deux échantillons :
tableau xvii
nous
avons accès aux informations suivantes : taille n d
l'échantillon ; tailles n1 et n2 des colonnes ;
sommes et moyennes ; puis deux indices qui forment le résultat
du
test, exprimés par dk et kd. ici, la valeur dk
=
0.404 est significative, avec p < 0.05 puisqu'elle est
supérieure à la valeur critique 0.4, de justesse. c'est
ce
qui est exprimé sur le graphique : la barre verte verticale
indique le point où l'on a trouvé la valeur supdedn1,n2
[ici, le point 7] avec la
valeur correspondante. les valeurs critiques peuvent être
trouvées dans les tables appropriées et ce sont les
indications qui apparaissent plus bas, avec les valeurs critiques au
seuil de 5% et de 1%. ces tables peuvent être trouvées,
pour partie, sur le site suivant : http://cons-dev.univ-lyon1.fr/enseignement/stat/
il est nécessaire de disposer des tables suivantes :
- valeurs critiques pour un
échantillon [siegel s (1956), non-parametric statistics for the
behavioral sciences mcgraw hill] ;
- idem pour deux échantillons, avec n1 = n2 pour n < 40
[sprent, 1992] et n > 40 [siegel, 1956] ;
- idem pour deux échantillons avec n1 <> n2 ;
- grands échantillons, bilatéral [siegel, 1956].
ces tables sont intégrées dans la feuille macro ; elles
peuvent être consultées et copiées.
mais il y a une autre manière de regrouper les distributions
cumulées, en classes. on pourra trouver le détail de la
façon de classer des distributions sur le site suivant dont nous
tirons, là encore, cet extrait http://conte.montesquieu.u-bordeaux.fr/index.html
:
« rappel : par définition, ni< (ou ) ni<= est le nombre total d individus ayant
une
valeur prise dans l'ensemble des i - 1 (ou i)
premières modalités, la ième modalité étant notée
[xi-1, xi[ .
dans un cumul à la française (ou à
l'anglo-saxonne), on inscrit donc à la ligne i,
en face de [xi-1,
xi[,
le nombre ni< (ou ni<=), c'est-à-dire le nombre
d'individus dont la valeur est inférieure à xi-1 (ou à xi).
insistons sur la manière
de lire le tableau pour en extraire l'information disponible. puisque
à la ligne i, ni< est le nombre d'individus qui ont une
valeur prise dans les i -1
premiers intervalles, la plus grande valeur possible d'un individu pris
dans ces ni< individus est
donc au plus égale à la plus grande valeur du (i ,
1)ème
intervalle, donc inférieure à sa borne droite, xi-1. ainsi, la plus grande valeur possible
des ni< premiers
individus
(ligne i d'un cumul à la française)
est donc inférieure à xi-1, qui est la borne droite de la (i -
1)ème
modalité
mais aussi la borne gauche de la ième.
de même ni<= est le nombre de ceux dont la valeur est au plus égale à la plus grande valeur du ième intervalle de valeurs, donc inférieure à sa borne droite, xi, qui est aussi la borne gauche du i +1ème.
au total, les effectifs ni< sont décalés comme
précédemment, vers le bas ou vers la droite.
»
appliquons
cela à notre exemple :
rank
[
0 - 1 [
[
2 - 3 [
[
4 - 5 [
[
6 - 7 [
[
8 - 9 [
[
10 - 11 [
[
12 - 13 [
[
14 - 15 [
[
16 - 17 [
[
18 - 19 [
[
20 - 21 [
[
22 - 23 [
[
24 - 25 [
[
26 - 27 [
[
28 - 29 [
[
30 - 31 [
[
32 - 33 [
[
34 - 35 [
[
36 - 37 [
[
38 - 39 [
[
40 - 41 [
[
42 - 43 [
[
44 - 45 [
[
46 - 47 [
[
48 - 49 [
[
50 - 51 [
fn1
(trt)
0.65
0.85
0.9
0.95
0.95
0.95
0.95
0.95
0.95
0.95
0.95
0.95
0.95
0.95
0.95
0.95
0.95
0.95
0.95
0.95
0.95
0.95
0.95
0.95
0.95
1
gn2
(placebo)
0.2
0.6
0.75
0.75
0.75
0.75
0.75
0.85
0.85
0.85
0.85
0.85
0.85
0.85
0.9
0.9
0.9
0.9
0.9
0.9
0.95
1
1
1
1
1
d
n1,n2
0.45
0.25
0.15
0.2
0.2
0.2
0.2
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.05
0.05
0.05
0.05
0.05
0.05
0
0.05
0.05
0.05
0.05
0
complété par le graphique suivant ; voici, à cette
étape, les commentaires de l'auteur [http://www.physics.csbsju.edu/stats/ks-test.n.plot_form.html
] :
« you can see that the control and
treatment
datasets span much the same range of values (from about .1 to about
50).
but for most any x
value, the fraction of the treatment
group that is strictly less than x
is clearly less than the fraction of the control
group that is less than x.
that is, by-and-in-large the treatment values are larger than the
control values for the same cumulative fraction. for example, the
median (cumulative fraction =.5) for the control is clearly less than
one whereas the median for the treatment is more than 1. the ks-test
uses the maximum vertical deviation between the two curves as the
statistic d.
in this case the maximum deviation occurs near x=1
and has d=.45.
(the fraction of the treatment group that is less then one is 0.2 (4
out of the 20 values); the fraction of the treatment group that is less
than one is 0.65 (13 out of the 20 values). thus the maximum difference
in cumulative fraction is d=.45.) »
figure iii
(fonction de répartition empirique)
b)- cas d'un
échantillon
exemple 1 : nous le tirons de l'ouvrage de tomassone [cf.
ref.]. il s'agit d'un test de dégustation de vin dans des verres
plus ou moins foncés. voici les données de base :
couleur du verre
de moins foncée
à plus foncée
nombre
de personnes
désignant le vin
comme le meilleur
1
2
3
4
5
0
1
0
5
4
et voici les résultats :
tableau xviii
et
les auteurs d'écrire :
« nous pouvons conclure que la couleur du
verre a une influence sur la sensation gustative. ce qui fait mentir le
vieux dicton : " qu'importe le flacon pourvu qu'on ait l'ivresse. " ...
»
en effet, on trouve dk =
0.5, valeur supérieure au seuil critique à
1%, 0.49. la colonne de gauche fn (vin) représente la
fréquence théorique et f (vin) la fréquence
observée. dans la colonne de droite, d, la valeur maximale est
0.5 [point 3], ce qu'illustre la figure suivante :
figure iv
(fonction
de répartition empirique)
c)- un dernier exemple
il est tiré du site : http://www.physics.csbsju.edu/stats/ks-test.n.plot_form.html.
« two near-by apple trees are in bloom in an otherwise
empty field. one is a whitney crab the other is a redwell. do bees
prefer one tree to the other? we collect data by using a stop watch to
time how long a bee stays near a particular tree. we begin to time when
the bee touches the tree; we stop timing when the bee is more than a
meter from the tree. (as a result all our times are at least 1 second
long: it takes a touch-and-go bee that long to get one meter from the
tree.) we wanted to time exactly the same number of bees for each tree,
but it started to rain. unequal dataset size is not a problem for the
ks-test. »
voici comment se présentent les
données brutes :
redwell = {23.4, 30.9, 18.8, 23.0, 21.4, 1, 24.6,
23.8, 24.1, 18.7, 16.3, 20.3, 14.9, 35.4, 21.6, 21.2, 21.0, 15.0,
15.6, 24.0, 34.6, 40.9, 30.7, 24.5, 16.6, 1, 21.7, 1, 23.6, 1, 25.7,
19.3, 46.9, 23.3, 21.8, 33.3, 24.9, 24.4, 1, 19.8, 17.2, 21.5, 25.5,
23.3, 18.6, 22.0, 29.8, 33.3, 1, 21.3, 18.6, 26.8, 19.4, 21.1, 21.2,
20.5, 19.8, 26.3, 39.3, 21.4, 22.6, 1, 35.3, 7.0, 19.3, 21.3, 10.1,
20.2, 1, 36.2, 16.7, 21.1, 39.1, 19.9, 32.1, 23.1, 21.8, 30.4,
19.62, 15.5}
whitney =
{16.5, 1, 22.6, 25.3, 23.7, 1, 23.3, 23.9, 16.2, 23.0, 21.6, 10.8,
12.2, 23.6, 10.1, 24.4, 16.4, 11.7, 17.7, 34.3, 24.3, 18.7, 27.5,
25.8, 22.5, 14.2, 21.7, 1, 31.2, 13.8, 29.7, 23.1, 26.1, 25.1, 23.4,
21.7, 24.4, 13.2, 22.1, 26.7, 22.7, 1, 18.2, 28.7, 29.1, 27.4, 22.3,
13.2, 22.5, 25.0, 1, 6.6, 23.7, 23.5, 17.3, 24.6, 27.8, 29.7, 25.3,
19.9, 18.2, 26.2, 20.4, 23.3, 26.7, 26.0, 1, 25.1, 33.1, 35.0,
25.3, 23.6, 23.2, 20.2, 24.7, 22.6, 39.1, 26.5, 22.7}
en
quelques étapes, nous allons traiter ces données :
1. transformation des données brutes en données
tabulées : cf. infra la macro space.
2. construction de la fonction de réparition empirique :
a. classement des données :
rank
[ 1 - 2 [
[ 3 - 4 [
[ 5 - 6 [
[ 7 - 8 [
[ 9 - 10 [
[ 11 - 12 [
[ 13 - 14 [
[ 15 - 16 [
[ 17 - 18 [
[ 19 - 20 [
[ 21 - 22 [
[ 23 - 24 [
[ 25 - 26 [
[ 27 - 28 [
[ 29 - 30 [
[ 31 - 32 [
[ 33 - 34 [
[ 35 - 36 [
[ 37 - 38 [
[ 39 - 40 [
[ 41 - 42 [
fn1 (redwell))
0.09459459
0.09459459
0.09459459
0.10810811
0.10810811
0.12162162
0.12162162
0.17567568
0.22972973
0.36486486
0.58108108
0.7027027
0.81081081
0.83783784
0.83783784
0.87837838
0.90540541
0.94594595
0.95945946
0.98648649
1
gn2
(whitney)
0.07594937
0.07594937
0.07594937
0.08860759
0.08860759
0.12658228
0.17721519
0.18987342
0.25316456
0.30379747
0.36708861
0.62025316
0.78481013
0.89873418
0.94936709
0.96202532
0.97468354
1
1
1
1
d
n1,n2
0.01864522
0.01864522
0.01864522
0.01950052
0.01950052
0.00496066
0.05559357
0.01419774
0.02343483
0.06106739
0.21399247
0.08244954
0.02600068
0.06089634
0.11152925
0.08364694
0.06927813
0.05405405
0.04054054
0.01351351
0
b)- test
tableau
xix
en formulation unilatérale, on observe que la
valeur dk est supérieure à la valeur critique 0.132.
c)- graphique associé
figure v
(fonction de
répartition empirique)
l'auteur conclue en ces termes :
« this example is based on data distributed according
to
the cauchy distribution: a particularly abnormal case. the plots do not
look particularly abnormal, however the large number of outliers is a
tip off of a non-normal distribution. the web page is silent on if this
data is normal or lognormal; that means it finds no evidence for either
possibility. this relatively large sample size can not save the t-test:
it cannot see the difference, whereas the ks-test can. the t-test
is not robust enough to handle this highly non-normal data with n=80.
»
effectivement, le test t ne montre pas de
différence significative :
t-test: two-sample assuming
equal variances
variable 1 variable 2
mean 21.4354054 21.1126582
variance 91.3832279 65.8441967
observations 74 79
pooled variance 78.1908807
hypothesized mean difference 0
df 151
t 0.22561506
p(t<=t) one-tail 0.41090295
t critical one-tail 1.65500751
p(t<=t) two-tail 0.8218059
t critical two-tail 1.97579993
11.
tau de kendall : la corrélation de rang
ce test est congénère du coefficient de spearman. aussi
a-t-il été intégré dans le logiciel avec le
calcul de ce coefficient. comme tous les autres tests relatifs à
la corrélation, on doit dire avant tout que s'il s'agit d'un
test
qui met en évidence un certain degré de liaison entre
deux
variables, il ne peut en aucun cas assurer qu'il existe un lien de
causalité entre ces deux variables. le tau - t - de kendall est employé dans
les cas ou les variables sont ordinales et
discontinues ou encore dans les cas où les distributions des
deux
variables sont dites « non-normales ». en somme, le tau de
kendall est un autre indicateur du caractère
éventuellement significatif de la relation qui existe entre deux
classements. mais il possède un caractère singulier : il
mesure la corrélation d'observations appariées, ce qui le
rend, d'une certaine façon, semblable au test t de wilcoxon.
la marche à suivre pour
déterminer le t de kendall est sensiblement la même que
lorsqu'on classe les observations en rang, séparément,
pour chaque colonne. on range ainsi les colonnes x et y. dans un second
temps, on arrange le vecteur x par valeurs croissantes [sur excel, il faut employer la commande trier
et indiquer une seule clef de tri, en sorte que les valeurs du vecteur
y
soient réarrrangéses en fonction de celles du vecteur x].
puis pour tout couple d'items dont l'ordre dans le premier classement
est concordant avec celui du second on attribue un score de + 1; dans
le
cas de discordance on attribue un score de - 1. s est la somme de ces scores
sur
l'ensemble des n(n - 1)/2
comparaisons possibles. le coefficient
de corrélation de rangs de kendall est défini par :
(45)
voyons cela sur un premier
exemple, tiré du site : http://www.cohort.com/index.html.
« data for the sample run is from sokal and
rohlf (box 15.6, 1981; or box 15.7, 1995): "computation of rank
correlation coefficient between the total length (y1) of 15
aphid stem mothers and the mean thorax length (y2) of their
parthenogenetic offspring." »
y1
y2
--------- --------- 8.7 5.95 8.5 5.65 9.4 6 10 5.7 6.3 4.7 7.8 5.53 11.9 6.4 6.5 4.18 6.6 6.15 10.6 5.93 10.2 5.7 7.2 5.68 8.6 6.13 11.1 6.3 11.6 6.03
voici le résultat
obtenu sur excel, au moyen de la macro spécifique au coefficient
de rang de spearman auquel est ajouté - par une case à
cocher - le tau de kendall
spearman rank order
correlation
n 30
np 15
mx 9
my 5.74
sd 0
sd2 196.5
df 13
r' 0.649
t 3.076
p 0.00885
z 0.00758
ties 2
r' corr. 0.649
t corr. 3.074
p corr. 0.00888
kendall's tau
n 15
s 52
tau 0.4952
tk for ties x : 0 - y : 1
tau corr. for ties 0.4976
p 0.0101
p corr. 0.0097
critical value tau (n<13) not available
un graphique - le même que celui
du coefficient de spearman - est en outre disponible :
figure vi
les
auteurs du site expriment ce résultat sous la forme suivante :
y1 column: 1) y1y2 column n kendall tau p spearman r p------------------- ------- ------------- --------- ------------- ---------2) y2 15 0.49761335153 (n<=40) 0.64910714286 .0088 **
p is the probability that the variates
are not correlated. the low p value (<=0.05) for this data set
indicates that the two variates probably are correlated.
il y a 2
ex aequo ; la formule à employer devient :
(46)
où t1
et t2 sont calculés ainsi :
(47)
où ti
est le nombre d'ex aequo au rang i
pour la variable xk
(k
= 1, 2). dans le cas présent, tk
= 1 pour la variable y [x2].
la correction, comme on voit, est minime sur cet exemple. le
résultat est significatif puisque p = 0.01. ici, n = 15 et s = 52 ; on peut donc employer
l'approximation suivante :
(48)
qui suit une loi normale. si n < 13 et s < 50, il faut disposer d'une
table spéciale. elle est intégrée au
logiciel et consultable comme les autres. a noter que je n'ai pu
réussir à la trouver sur le net, malgré des
recherches approfondies. j'ai donc pris cette table dans le tomassone,
référencé infra. nous allons présenter un
autre exemple, tiré du site :
http://cons-dev.univ-lyon1.fr/enseignement/stat/stat7/st7.html
[notez que cette page n'est plus
disponible qu'en cache, sur google].
« la relation entre l'autoritarisme
des étudiants et leur conformisme social est recherché.
l'autoritarisme des sujets et leur conformisme social sont
appréciés par le passage de tests. »
étudiant
conformisme autoritarisme
a
82
42
b
98
46
c
87
39
d
40
37
e
116
65
f
113
88
g
111
86
h
83
56
i
85
62
j
126 92
k
106
54
l
117
81
spearman rank order
correlation
n
24
np 12
mx 97
my 62.33
sd 0
sd2 52
df 10
r' 0.818
t 4.497
p 0.00115
z 0.00333
ties no
r' corr.
t corr.
p corr.
kendall's
tau
n
12
s 44
tau 0.6667
tk for ties x : 0 - y : 0
tau corr. for ties 0.6667
p 0.0026
p corr. 0.0026
critical value tau (n<13) 0.001
notez que la valeur critique s'entend au
seuil unilatéral ; alors que nous avons calculé la valeur
de p en formulation
bilatérale. on peut aussi déterminer un coefficient de
rang partiel txy.quand
une corrélation est observée entre deux variables, il y a
toujours la possibilité que cette corrélation soit due
à l'association entre chacune des deux variables et une
troisième variable. les effets de
variation due à une troisième variable sur la relation
entre deux autres variables x
et y
sont éliminés par une corrélation partielle. d'une
autre façon, la corrélation entre x et y
est calculée alors que la troisième variable est
maintenue
constante. nous espérons donner bientôt une suite pratique
à cet exposé sur le coefficient de rang partiel.
il est certain que le tau de kendall possède des avantages
pratiques et pédagogiques. les statisticiens calculent assez
souvent une quantité comme un coefficient de corrélation
sans demander ce que la quantité signifie, au sens de : «
est-elle signifiante ? ». car une différence peut
être significative sans que pour autant elle soit le moins du
monde signifiante. le coefficient de kendall, d'autre part, a une
interprétation intuitivement simple. qui plus est, sa structure
algébrique est beaucoup plus simple que celui du coefficient de
spearman. il peut même être calculé à partir
des observations réelles sans passer par le classement en rang,
se rapprochant un peu, en cela, du test de komogorov smirnov. un
coefficient de corrélation est destiné à mesurer
« la force d'une liaison ». mais des coefficients de
corrélation différents mesurent une force de liaison de
différentes façons. seul le coefficient kendall a une
interprétation simple [adapté
de why kendall tau? de g. e. noether, university of
connecticut].
12. test de la
médiane [mood test]
il s'agit du test du signe, adapté
à deux ou à plusieurs échantillons
« this is a crude version of the kruskal-wallis anova
in
that it assesses the difference in samples in terms of a contingency
table. the number of cases in each sample that fall above or below the
common median is counted and the chi-square value for the resulting 2 x
k samples contingency table is calculated. under the null hypothesis
(all samples come from populations with identical medians),
approximately 50% of all cases in each sample are expected to fall
above
(or below) the common median. the median test is particularly useful
when the scale contains artificial limits, and many cases fall at
either
extreme of the scale (off the scale). in this case, the median test is
the most appropriate method for comparing samples... »
exemples :
soit deux groupes de livres de statistique et de livres divers ; on
cherche à savoir s'ils sont paginés de la même
façon. voici les données
divers 29
39 60 78 82 112 125 170 192 224 263 275 276 286 756
stat 126 142 156 228 245 246 370 419 433 454
478 503 369
la médiane vaut 236.5.
divers
stat
x
< 236.5 10
4 14
x
>= 236.5
6
8 14
16 12 28
divers
stat nij
x
< 236.5
0.5 0.67 1.17
x >=
236.5
0.5 0.67
1.17
nji 1
1.34 2.34
contingency
table
ddl
1
chi2
2.33
p
0.123
le test exact de fisher permet de
trouver une valeur semblable
possible matrices and
their ps
p
for 0 : [ 14,0,2,12
]
2.9913e-06
p
for 1 : [ 13,1,3,11
]
0.00016751
p
for 2 : [ 12,2,4,10
]
0.00299427
p
for 3 : [ 11,3,5,9
]
0.02395417
p
for 4 : [ 10,4,6,8
]
0.09881097
p
for 5 : [ 9,5,7,7
]
0.22585364
p
for 6 : [ 8,6,8,6
]
0.2964329
p
for 7 : [ 7,7,9,5
]
0.22585364
p
for 8 : [ 6,8,10,4
]
0.09881097
p
for 9 : [ 5,9,11,3
]
0.02395417
p
for 10 : [ 4,10,12,2
]
0.00299427
p
for 11 : [ 3,11,13,1
]
0.00016751
p
for 12 : [ 2,12,14,0
]
2.9913e-06
fisher's exact
test
table
= [ 10,4,6,8 ]
one tailed p 0.12592991
two
tailed p 0.15304886
other
0.97288
theor.
value of chi2 < 3 6 for [4 ]
le test de la médiane peut être étendu à
plusieurs groupes [extension of the median test].
on peut trouver un exemple fort instructif au site suivant :
http://cons-dev.univ-lyon1.fr/enseignement/stat/st.html.je
laisserai le lecteur aller consulter la page.
voici enfin les formules qui
permettent d'opérer la computation du test, qui se résume
en fait à un classement des différentes valeurs selon la
médiane [inclue
ou exclue selon le cas] suivi d'un test du chi2
classique ou d'un tableau de contingence. ces formules sont extraites
de: npartests.
(49)
voici un exemple ; il
est tiré du site :http://cons-dev.univ-lyon1.fr/enseignement/stat/st.html.
«supposons qu'un chercheur veuille
étudier l'influence du niveau d'instruction des mères sur
le degré d'intérêt qu'elles présentent pour
la scolarité de leurs enfants. le niveau d'instruction de chaque
mère est apprécié par le diplôme le plus
important obtenu par chacune d'elle et leur degré
d'intérêt pour la scolarité des enfants est
mesuré par le nombre de visites volontaires que chacune d'elle
rend à l'école. en tirant au hasard un nom sur dix d'une
liste de 440 enfants inscrit à l'école, il obtient les
noms de 44 mères, qui
constituent son échantillon. son hypothèse est que le
nombre de visites varie en fonction du niveau d'éducation des
mères.
comme les groupes de mères de
divers niveau d'instruction sont indépendants les uns des autres
et que plusieurs goupes sont formés, un test pour k échantillons
indépendants est envisagé. comme le nombre
d'années
de scolarité des mères et que le nombre de visites
constituent au mieux des mesures ordinales du niveau d'instruction et
du degré d'intérêt, le test des médianes est
considéré comme le mieux adapté à tester
l'hypothèse concernant des différences des tendances
centrales. »
voici les
données :
primaire
4 3
0 7 1
2 0 3
5 1
collège
2 4
1 6 3
0 2 5
1 2 1
terminale
2 0
4 3 8
0 5 2
1 7 6
5 1
université (1 ans)
9 4
2 3
univ. (2) 2
4 5 2
univ. (>2) 2
6
tableau
xx
(tableau de contingence du mood test)
mais
comme plusieurs effectifs théoriques sont inférieurs
à 3, on ne peut traiter ce tableau par un c2
d'homogénéité. on doit, soit regrouper des
données, soit pratiquer un test de kolmogorov smirnov
; essayons cette option :
rank
fn1 (x < 2.5) gn2 (x >=
2.5) d n1,n2
[ 0 - 1.5 [
0.33333333
0.16666667 0.16666666
[ 1.5 - 2.1 [
0.5
0.33333333
0.16666667
[ 2.1 - 2.7 [
0.5
0.33333333 0.16666667
[ 2.7 - 3.4 [
0.5
0.5
0
[ 3.4 - 4 [
0.5
0.66666667 0.16666667
[ 4 - 4.6 [
0.5
0.83333333 0.33333333
[ 4.6 - 5.3 [
0.66666667 1
0.33333333
[ 5.3 - 5.9 [
0.66666667
1
0.33333333
[ 5.9 - 6.5 [
0.83333333 1
0.16666667
[
6.5 - 7.2 [
1
1 0
kolmogorov-smirnov
for two samples
n
12
n1 6
n2 6
s1 22
s2 22
m1 3.67
m2 3.67
dk 0.333
kd 1
pd ns
d critical 0.05 0.833
d critical 0.01 1
pkd ns
kd critical 0.05 5
kd critical 0.01 6
figure vii
le test n'est pas significatif ; notez qu'un regroupement des
catégories comme le pratique l'auteur donne une valeur du c2 qui est ns.
13. test
de mcnemar
il
s'agit
d'un test qui traite une
variable dichotomique [réussite
/ échec, favorable/défavorable, etc.]
mesurée sur les mêmes sujets, à
deux moments [avant /
après
apprentissage, condition 1/ condition 2] notés t1 et t2. ce test se rapproche
donc de celui de wald wolfowitz
et du sign test
;
il en est congénère. voici un extrait - du site http://www2.chass.ncsu.edu/garson/pa765/index.shtml
- qui permettra de s e faire une exacte idée de l'importance de
ce test :
« the
mcnemar test assesses
the significance of the difference between two dependent samples when
the variable of interest is a dichotomy. it is used primarily in
before-after studies to test for an experimental effect. also for two
dependent samples, the marginal
homogeneity test
is an extension of the mcnemar test for multinomial variables (more
than
two categorical values). the sign
test
and the more powerful wilcoxon
signed-ranks test are for two dependent samples when the
variable of interest is continuous. [...] mcnemar's
test is sometimes called mcnemar's
test of symmetry
or mcnemar
symmetry chi-square
because it, and the marginal homogeneity test which extends it beyond
dichotomous data, apply to square tables in which the diagonal reflects
subjects who did not change between the beforeandafter samples (or matched pair
samples). the test of symmetry tests whether the counts in cells above
the diagonal differ from counts below the diagonal. if the two counts
differ significantly, this reflects change between the samples, such as
change due to an experimental effect between the before and after
samples. [...] the
marginal homogeneity test
is similar to the mcnemar test, extending it to the case where the
variable of interest assumes more than two nominal values. while it may
be used with ordinal data, the sign test is preferred.»
pour l'utilisation du
test d'homogénéité, nous renvoyons donc le lecteur
au sign test.
sous excel, la computation de ce test ne pose aucun problème :
il
faut disposer en deux colonnes contigues les séries
d'observations - de taille égale - en deux catégories :
par exemple 1 et 0, et ce avant et après.
voilà un exemple généré avec des nombres
aléatoires :
a 1
3 1 3
3 3 3
1 3 1
3 3 1
1 3 3
b
1 3 1
1 3 1
3 3 3
3 1 1
3 1 3 3
+ -
+
6 3
-
4 3
mc nemar
test
n1,n2 a :
4, b : 3
exact p 0.5
chi2 0
p 1
l'approximation par la loi normale est permise à partir de n1 +
n2 >= 25. deux formules permettent d'obtenir soit la
probabilité exacte, soit l'approximation par le chi carré
à 1 ddl.
(50)
où
r = min (n1,n2),
donc ici r = 3. la p obtenue
doit être multipliée par 2 dans le cas d'un test
bilatéral.
(51)
pour appeler le test,
il suffit de lancer la boîte de dialogie suivante à partir
du menu général :
deux
possibilités sont offertes, selon que l'utilisateur
possède déjà les données à traiter
(ici, par exemple, 5 et 20, où que les données
soient brutes ; notez que la macro donne par défaut les valeurs
discrètes 1 et 0 par défaut. l'entrée
des données se fait comme d'habitude en sélectionnant les
plages de cellules voulues. ici, au cas où l'option 1 serait choisie, le résultat
serait :
mc nemar
test
n1,n2 5, 20
exact p 0.002
chi2 7.84
p 0.005
14. test de jonckheere -
terpstra
alors que le test de kruskal wallis - anova non
paramétrique - permet de mesurer une différence entre
plusieurs moyennes, sans préjuger de leur ordre, le test de j -
t
permet de mesurer un ordonnancement de différentes moyennes,
pourvu que ces échantillons soient indépendants, ce qui
différencie la statistique de jonckheere de celle de page : voilà donc un test
à utiliser pour évaluer, par exemple, un effet dose. il
est donc congénère de la statistique de page qu'évoque tomassone
à la page 243 de sa biométrie.
curieusement, le test de j - t n'est pas cité. il s'agit
ici de voir s'il existe une structure sous les traitements. mais,
à la différence de la statistique de page, ce test ne
s'emploie que lorsqu'on est porté à considérer que
les échantillons dont l'on dispose sont indépendants.
il n'a pas été aisé de trouver une documentation
substancielle sur ce test. j'ai pu néanmoins sélectionner
les sources suivantes :
- capu18.pdf
- testing
for trends [school of
psychology university of nottingham] -
- http://evolution.unibe.ch/teaching/expdesign/exp.designstats/kapitel_54_files
-
- http://www.id.unizh.ch/software/unix/statmath/sas/sasdoc/stat/chap28/index.htm
-http://software.biostat.washington.edu/%7erossini/courses/intro-nonpar/text
/computing_the_jonckheere_terpstra_test_.html
nous donnons ici - en italien mais parfaitement
compréhensible pour des oreilles latines - un extrait de
la première référence citée :
« nel
caso di k campioni indipendenti, come nell’analisi della varianza ad un
criterio di classificazione,
quando
si suppone che essi siano ordinati secondo il valore delle loro mediane
(non importa se in
modo
crescente o decrescente), con il test di jonckheere è possibile
verificare l'ipotesi se i vari
campioni
o gruppi abbiano tendenze centrali in accordo con la sequenza fissata a
priori.
e’ chiamato anche test di jonckheere-terpstra o delle alternative
ordinate (ordered alternatives),
in quanto proposto quasi contemporaneamente ed in modo indipendente da
t. j. terpstra nel 1952
(nell’articolo the asymptotic
normality
and consistency of kendall’s test against trend when ties are present in one ranking
pubblicato
su indagationes mathematicae vol. 14, pp. 327-333) e da
a. r. jonckheere nel 1954 (con un
articolo intitolato a distribution-free k-sample test against ordered alternatives pubblicato su
biometrika vol. 41, pp. 133-145). »
le test a donc été « inventé
» d'abord par t.j. terpstra. l'idée de base est que les
moyennes de k échantillons ne diffèrent pas entre elles,
considérées du point de vue de leur rang.
l'hypothèse nulle h0
est donc :
(52)
et
l'hypothèse alternative s'énonce comme :
(53)
marche
à suivre :
-
étape 1 : à partir de k échantillons, construire
un tableau où les rangs sont envisagés deux à
deux,
par un test u de mann
whitney wilcoxon
:
« compute the k(k-1)/2 mann-whitney counts uij , comparing group i
with group j , for i
< j . the mann-whitney count for groups 3
and 4 (for example), are the sum of the number of pairs (x,y)
with x in group 3, y in
group 4, and x<y , i.e. if xi,j is the jth
item in the ith group, then [...] »
la
formule générale à employer est, dans le cas
présent, si l'on considère le groupe u3,4
:
(54)
-
étape 2 : faire la somme des ui,j
:
(55)
-
étape 3 : consulter une table appropriée pour voir si j
est supérieur à la valeur critique. cette table peut
être trouvée dans le document pdf en italien - pp.
1447-1449 ; elle est intégrée à la feuille macro
et les valeurs critiques sont indiquées au risque 5%, 1% et
0.5%. pour de grands échantillons - qui correspondent en fait
à la taille de ceux pour lesquels les valeurs critiques ne sont
pas disponibles, on peut utiliser l'approximation suivante :
(56)
nous
indiquons systématiquement la valeur approchée j*
à des fins didactiques. dans (56), nj correspond au nombre d'observations du
groupe j.
voyons cela sur un premier exemple :
a 99
114 116 127 146
b 111
125 143 148 157
c 133
139 149 160 184
u 1, j u 2, j
u i, 2
18
u i, 3
23 18
ce
tableau donne la valeurs des rangs ui,j comparés deux à
deux (cf. formule 33). sous excel, le résultat apparaît
ainsi :
jonckheere
- terpstra test
n 15
levels 3
ni 5 | 5 | 5
mi 120.4 | 136.8 |
153
j [x | µ | ± ]
59 | 37.5 | 9.46
j* 2.272
p 0.024
critical exact value for j [5 | 1 | 0.5] % 54
| 59 | 62
pour j, nous donnons la valeur [59], la moyenne et l'écart
type. rappelons que la moyenne µj [37.5]
est :
(57)
et que la variance s2j [9.46]
est :
(58)
la
valeur de j [59]
est égale à la valeur critique au risque 1%. voyons un
autre exemple :
d
12 15 18
20 38 47
48 51 90
108
c
28 30 38
48 60 66
70 71
b
31 36 39
44 54 57
63 77 87
123 124
a
35 40 52
67 78 83
88 101 119
tableau des ui,j
u 1, j u 2,
j u 3, j
u i, 2
51
u i, 3
78
55
u i, 4
68
55 58
jonckheere -
terpstra test
n 38
levels 4
ni 10 | 8 | 11 | 9
mi 44.7 | 51.38 | 66.82
| 73.67
j [x |
µ | ± ]
365 | 269.5 | 38.34
j* 2.491
p 0.006
critical
exact value for j [5 | 1 | 0.5] % not available
la
taille de l'échantillon dépasse les valeurs de la table.
le test est significatif. l'examen des moyennes montre donc qu'il
existe un « effet dose » [en
situation unilatérale]
a
noter que la statistique de kruskal
wallis
ne permet pas de mettre en évidence de différence
significative :
kruskal
wallis
sample
size 38
count
10 8
11 9
average
45 51
67 74
rank
sum 138 137
240 226
rank
average 13.8
17.13 21.82 25.11
ties
4
q
5.769
q
corr. 5.77
p
ns
et
que l'anova paramétrique ne permet pas de mettre en
évidence de différence entre les doses :
anova
source of
variation
ss df ms
f
p-value f
crit
between
groups 5113.23074 3
1704.41025 2.02313695
0.12911837 2.88260082
within
groups 28643.6114 34
842.459158
total
33756.8421 37
l'anova a été calculée en utilisant l'analysis tool pack
d'excel. la mise en oeuvre du test est semblable aux autres ; à
partir de la boîte de dialogue générale, on appelle
la boîte suivante :
ii.
autres tests statistiques
1)- test de durbin watson è ne figure pas dans l'analysis tool pack
d'excel alors qu'un utilitaire de régression est
présent...
si
les résidus obéissent à un « bruit blanc
», il ne doit pas exister d'autocorrélation
dans une série. on peut alors utiliser entre autre le test de
durbin watson [test de l
autocorrélation d ordre 1]. la statistique de durbin
et
watson est une valeur appartenant à l'intervalle [0 ; +4] . elle est dite normale si
elle avoisinne la valeur 2. la valeur dw
du test de durbin et watson peut être anormalement faible ou
forte, ce qui peut être l'effet de causes diverses :
à un processus liant les résidus successifs
(dans le cadre des séries chronologiques) ;
à l'existence d'un changement de structure ;
au choix d'une spécification inadaptée ;
à l'omission d'une variable explicative importante ; [les variables explicatives sont les
vecteurs x ; on les nomme aussi les régresseurs.]
notons qu'il existe un rapport entre le coefficient de
corrélation et la statistique de durbin et watson :
dw = 0 si r = +1 (coefficient de corrélation)
dw = 2 si r = 0
dw = 4 si r = -1
le
test de durbin watson fait partie de l'ensemble des tests qui figurent
dans l'analyse d'une régression linéaire. voici un
exemple
:
figure
viii
(un exemple de résumé
d'analyse de régression linéaire)
ce
test permet, comme d'autres, de mesurer l'importance des résidus
et de vérifier, comme tel, les hypothése de la
régression : linéarité, normalité,
indépendance, variance constante (homoscédasticité).
comme l espérance des résidus est nulle, on peut
écrire :
(59)
qui
définit le test dw. on peut montrer que dw # 2 - 2.r où r vaut
(60)
« l'indépendance des résidus
est une hypothèse fondamentale à considérer car
c'est une condition indispensable dans de nombreux tests. or, si
plusieurs mesures sont réalisées sur un même
individu, les résidus du modèle déterministe
forment une série chronologique et il est intéressant de
tester si c'est un bruit blanc ou non. la statistique de durbin-watson
ou le test de portemanteau (seber et wild, 1989, p.322) permettent de
tester l'hypothèse que les coefficients de corrélation
entre observations successives sont nuls si les observations sont
réalisées à intervalles de temps réguliers.
» [f. husson]
exemple
: tiré de henri theil, principles of
econometrics, 1971, wiley, p. 102
[cité in shazam user's reference manual.
a listing of the data set (filename: theil.txt)].
« this example
uses the theil textile data set. the shazam commands (filename: dw.sha) below first estimate an equation with price as the explanatory variable. but economic
theory suggests that income is an important variable in a demand
equation. a statistical result is that if important variables are
omitted from the regression then the ols estimator is biased. the
second
ols regression is the preferred model specification that includes both price and income as explanatory variables.
» [http://shazam.econ.ubc.ca/intro/index.html]
the data is time series for
the period 1923 to 1939 (17 observations) for the consumption of
textiles in the netherlands. the variables are:
year
volume of textile consumption per capita (base 1925=100)
real income per capita (base 1925=100)
relative price of textiles (base 1925=100)
year consume income price 1923 99.2 96.7 101.0 1924 99.0 98.1 100.1 1925 100.0 100.0 100.0 1926 111.6 104.9 90.6 1927 122.2 104.9 86.5 1928 117.6 109.5 89.7 1929 121.1 110.8 90.6 1930 136.0 112.3 82.8 1931 154.2 109.3 70.1 1932 153.6 105.3 65.4 1933 158.5 101.7 61.3 1934 140.6 95.4 62.5 1935 136.2 96.4 63.6 1936 168.0 97.6 52.6 1937 154.3 102.4 59.7 1938 149.0 101.6 59.5 1939 165.5 103.8 61.3
voici la marche à suivre pour
exploiter ces données sous excel [de la version 4.0 à la version xp]
:
a)-
sélectionnez les quatre colonnes dans votre browser [ici mozilla !] ; il faut ensuite les coller
où bon vous semble dans une feuille excel. vous aurez alors des valeurs dans une
seule cellule, séparées par un certain nombre d'espaces
["
"] : il s'agit de données non tabulées. une macro va
permettre de restituer à chaque colonne sa propre colonne dans
excel, c'est-à-dire de la tabuler. [la macro a été
rentrée dans la colonne b et spaceest
son nom, dans la cellule b1].
space
=pour("y";1;40)
=poser.valeur(b4;nbcar(cellule.active()))
0
=pour("x";1;b4)
=si(b4=0;atteindre(b30);)
=cherche(" ";cellule.active();1)
=poser.valeur(b9;b7)
6
=gauche(cellule.active();b9-1)
=poser.valeur(b12;b10)
103.8
=selectionner("rc"&colonne(cellule.active())+x&"")
=formule(b12)
=selectionner("rc"&colonne(cellule.active())-x&"")
=remplacer(cellule.active();1;b9;"")
=formule(b16)
=cherche(" ";cellule.active();1)
=poser.valeur(b20;b18)
=si(estnum(b20);atteindre(b26);poser.valeur(b22;cellule.active()))
61.3
=selectionner("rc"&colonne(cellule.active())+x+1&"")
=formule(b22)
=si(estnum(b20);;atteindre(b27))
=suivant()
=selectionner("r"&y+1&"c"&colonne(cellule.active())-si(b4=0;-1;x)-1&"")
=si(nbcar(cellule.active())=0;atteindre(b30);atteindre(b31))
=edition.supprimer(2)
=suivant()
=retour()
cette macro ne marche que s'il y a un seul " ". en cas de
plusieurs " " [ici : 3], il est plus simple d'employer
d'abord la commande remplacer du menu où vous demandez
à remplacer à chaque fois 2 " " par 1 seul "
". la macro marchera correctement à partir du moment
où les valeurs numériques ne seront plus
séparées que par un seul " ".
b)- on aboutit au tableau
de
données suivant, après avoir disposé les
étiquettes :
tableau
xxi
(tableau de données
tabulées)
c)- il faut lancer la procédure de régression
linéaire. le plus simple consiste à utiliser d'abord les
ressources de l'analysis tool pack
d'excel et de sélectionner l'outil régression :
(outil
régression)
l'astuce
va alors consister à substituer une boîte de dialogue
propre à notre macro qui va permettre de « piloter »
l'outil régression.
l'accent est mis sur le fait que
l'utilisateur peut employer soit ses propres données
déjà calculées [predicted
y], soit qu'il va réaliser une première
analyse. posons que nous soyons dans ce deuxième cas de figure.
la figure suivante montre les
équivalences de zones de saisie entre la boîte de dialogue
du dw et celle de l'outil régression. en effet, pour
l'utilisateur, le fonctionnement de l'outil régression sera
« transparent » puisque la boîte de dialogue propre
à cet outil n'apparaîtra pas. si nous reprenons les
données de shazam, nous obtenons d'abord, en
sélectionnant
2 [at first, perform an analysis
of linear regression], les données suivantes :
regression statistics
multiple
r 0.9753367
r square
0.95128167
adjusted r
square 0.94432191
standard
error 5.56335574
observations
17
analysis of variance
df
sum of squares mean square
f significance f
regression
2 8460.93643
4230.46822 136.683086
6.514e-10
residual 14
433.312979 30.950927
total
16 8894.24941
coefficients standard
error t statistic
p-value lower 95% upper 95%
intercept 130.706587
27.0942926 4.8241373
0.00018691 72.5950577 188.818117
income 1.06170963
0.26667397 3.98130214
0.00107341 0.48975035 1.63366891
price -1.38298546
0.08381426 -16.5005981
1.8141e-11 -1.56274933 -1.20322158
4)- le test de durbin-watson
a partir des données de la figure iv où l'on prend consume comme variable
dépendante et income etprice comme explicatives [régresseurs], on aboutit
aux données suivantes :
consume predicted y
99.2 93.6923774
99 96.4234578
100 98.5790046
111.6 116.781445
122.2 122.451685
117.6 122.909996
121.1 123.045532
136 135.425383
154.2 149.804169
153.6 152.057362
158.5 153.905448
140.6 145.557095
136.2 145.097521
168 161.584412
154.3 156.861422
149 156.288651
165.5 156.135038
le vecteur consume reste
celui saisi dans la colonne a, tel qu'indiqué à la figure
vi ; il faut par contre modifier la saisie des variables x pour
sélectionner, en lieu et place, le predicted y
fourni par l'analysis
tool pack d'excel [outil
régression]. il y a une différence entre excel
4.0 - 5.0 et les versions ultérieures : c'est que les valeurs
prédites de y, les résidus et les résidus
standardisés sont saisis au-dessous de l'analyse elle-même
alors qu'ils étaient séparés dans les
premières versions. aussi n'est-il point besoin, dans les
versions postérieures à excel 6.0 de saisir la cellule de
« residual output range
».
tableau
xxii
(test de durbin watson)
le tableau xii est obtenu
après avoir sélectionné 1 dans la boîte de
dialogue de la figure vi. est le nombre d'observations, m le nombre de variables
dites explicatives [ici 2]. r est le coefficient de corrélation
qui suit l'approximation :
(61)
le sens de la valeur de ndw [2.019] peut être comrpis
et illustré d'après la figure suivante :
figure
ix
(le sens de l'interprétation
du test de dw)
selon la position de dw on
peut conclure :
figure
x
dans notre cas de figure, dw =
2.019 et compris entre d2 [1.02] et 4 - d2
[2.46 = 4 - 1.54]. on
accepte donc h0 [autocorrelation
= 0].
les tables pour interpréter la valeur du dw sont incluses dans la
feuille macro et consultables sous forme de fichiers
image. on en trouvera en outre une version
au format pdf
[au risque
5% et au risque 1% ].
ii.
le logiciel
il se compose d'une
feuille macro "mannwhit.xlm"
au format excel 4.0. quand on lance mannwhit.xlm,
une feuille de calcul est bâtie :
tableau xxiii
le bord
supérieur gauche de la cellule contient un bouton sur
lequel on clique pour faire apparaître le menu. on peut
aussi se servir de la séquence de touches ctrl-a. on
saisit ensuite les données dans des colonnes adjacentes. voici
le
menu général sous la forme d'une boîte de dialogue :
il y a actuellement
19 tests disponibles, y compris les tables pour les effectifs
réduits [23 tables].
pour accéder au test exact de fisher, il suffit de
sélectionner la table de contingence ; si le tableau est de
taille 2 x 2 et que les effectifs
théoriques soient inférieurs à 3 ou à une
valeur à fixer, le test de fisher sera activé. mais vous
pouvez aussi forcer son utilisation par une case à cocher. pour
accéder au test voulu, il suffit de sélectionner la case
d'option. notez que certains tests ont été
regroupés [ex : friedman, page et w de kendall, cf.
supra] pour consultez les tables, il suffit de
sélectionner la liste déroulante et d'afficher un autre
niveau que « no tables
»
visible ci-dessus, qui constitue l'option par défaut [le menu est alors
désactivé ; n'oubliez pas de sélectionner
à nouveau « no
tables » pour pouvoir accéder à l'ensemble
des tests]. quand le test est choisi, la boîte de
dialogue spécifique au test apparaît, comme sur la
figure suivante :
tableau xxiv
(cf extension of the median test , biométrie, p. 206)
comme on le voit,
la boîte de dialogue s'inspire totalement de celles existant
dans l'analysis tool pack.
dans le cas présent, 2 colonnes contigues sont
sélectionnées [a5:b12] et le résultat
apparaîtra dans la cellule d5, sélectionnée par
l'utilisateur. on appuie ensuite sur le bouton ok et un résultat
analogue à celui du tableau iii
apparaît.
pour
l'instant, seuls 19 tests figurent. compte tenu que la programmation me
prend un temps important, pendant lequel je ne puis faire
progresser mes autres travaux, le lecteur comprendra que je
n'étofferais davantage ces options que si la demande s'en fait
réellement sentir. qu'il sache simplement que ce logiciel est
évidemment « freeware », puisque
développé sous microsoft® excel 4.0 pour windows!"
3.1
[n° de licence
00-065-0400-l5433225]. par comparaison, de
nombreux logiciels intègrent ces tests mais coûtent
plus de 500 ¬...
et les logiciels développés librement ne me
semblent pas avoir toute la souplesse et le confort d'utilisation
qui est propre à l'environnement d'excel.
bibliographie
a. générale
1.
armitage p, berry p et blackwell g ., 1994, statistical methods in
medical research, ed. scientific publications, oxford.
2. cohen l., holliday l . et m., 1983, statistics for social
scientists, ed. harper and row.
3. gardner m. et altman d.g., 1989, statistics with confidence, ed.
british journal publications, londres.
4. rosenthal r. et rosnow r.l.,1991, essentials of behavioral research,
ed. mcgraw-hill, series in psychology.
5. schwartz d.,1970, méthodes statistiques à l'usage des
médecins et des biologistes, éd. flammarion
6. tomassone r.,dervin c.et masson j.p,1992, biométrie ;
modélisation de phénomènes biologiques, éd.
masson. [un must,
écrit dans un style aussi clair qu'il est possible et à
échelle « humaine » ; en plus, nous avons droit
à quelques notes de don giovanni en
préface : voilà une bonne entrée en matière
!]
7. zar j.h., 1996, biostatistical analysis, prentice hall
international editions.
8.
kyd ch.w., kinata c., les macros d'excel, dunodtech, paris, 1992
9. fisher r.a.,
1946.statistical methods for research workers,
olivier & boyd, london. traduction française aux
presses universitaires.
10. bertrand m. &
charles b. (1987) - initiation à
la statistique et aux probabilités - eyrolles.
11. centre
d'enseignants et de recherche de statistique appliquée (1986) - aide-mémoire
pratique des techniques statistiques pour ingénieurs et
techniciens supérieurs
- ceresta.
12. falissard
b. (1996) - comprendre
et utiliser les statistiques dans les sciences de la vie -masson.
13. abdi, h. (1987). introduction au traitement statistique des
données expérimentales. grenoble: presses universitaires
de grenoble.
14. baron, j., & li, y. (2000, 31
decembre). notes on the use of r for psychology experiments and
questionnaires. (disponible à http://www.psych.upenn.edu/
baron/rpsych.htm)
15.
bradley, james (1968). distribution-free
statistical tests.
englewood cliffs, nj: prentice-hall.
b. tests non paramétriques
1. caperaa philippe & van cutsem bernard,
1988. méthodes et modèles
en statistique non paramétrique. exposé fondamental.
presses université laval, dunod, 357 pp.
2. siegel sidney,
1956. non parametric statistics for
the behavioral sciences , mcgraw hill, 312 pp.
3. sprent
p. 1992. pratique des statistiques
non parmétriques. inra editions.
4. kruskal, w.h. and wallis, w.a. (1952) use of ranks in
one-criterion variance analysis. jour. am. stat. assoc. 47.
583-634
5. kruskal, w.h. and wallis, w.a. (1952) errata to use of ranks
in one-criterion variance analysis. jour. am. stat. assoc. 48.
907-911.
6. wallace, d.l. (1959). simplified
beta-approximations to the kruskal-wallis h test. jour. am.
stat. assoc. 54. 225-230.
7. griffiths, d. (1980). a pragmatic approach to spearman's rank
correlation coefficient. teaching statistics 2, pp. 10?13.
8. kruskal, w. (1958).ordinal measures of association. journal
of the american statistical association 53, pp. 814?861.
9. leach, c.
(1979). introduction to
statistics:
a nonparametric approach for the social sciences. wiley.
10. wilkie, d.
(1980). pictorial representation of
kendall's, rank correlation coefficient. teaching
statistics 2, pp. 76-78.
11. s. siegel and n.
j. castellan, nonparametric
statistics,
2nd ed., 1988
12. moses, l. e. (1952).a two-sample test.
psychometrika, 17, 234 247
13. moses, l. e. (1963). rank tests of dispersion.
annals of mathematical statistics, 34, 973.
14. dineen, l. c., and blakesley, b. c. 1973. algorithm as 62:
generator for the sampling distribution of the mann-whitney u
statistic. applied statistics, 22: 269 273.
15. lehmann, e. l. 1985. nonparametrics:
statistical methods based on ranks. san francisco: mcgraw hill.
16. smirnov, n. v. 1948. table for estimating the goodness of fit of
empirical distributions. annals of mathematical
statistics, 19: 279 281.
bibliographie
complémentaire [adaptée et tirée de
: clint
w. coakley, november 1998]
one sample preliminary tests
rank von neumann ratio test of independence
bartels, r. (1982), "the rank version of von neumann’s ratio
test for randomness," journal of the american statistical
association,77,
40-46.
gibbons, j. d. and chakraborti, s. (1992), nonparametric
statistical inference, new york: marcel dekker, pp. 88-90 (textbook
treatment).
kolmogorov-smirnov
goodness-of-fit test
kolmogorov, a. n. (1933), "sulla determinazione empirica di
una legge di distribuzione," giorn. dell’ inst. ital. degli attuari,4,
83-91.
conover, w. j. (1980), practical nonparametric statistics,
second edition, new-york: john wiley & sons, inc., pp. 344-356
(textbook treatment, applied).
gibbons, j. d. and chakraborti, s. (1992), nonparametric
statistical inference, new york: marcel dekker, pp. 104-120
(textbook treatment, theory), p. 487 for table f (null distribution).
pearson chi-squared goodness-of-fit test
pearson, k. (1900), "on the criterion that a given system of
deviations from the probable in the case of a correlated system of
variables is such that it can be reasonably supposed to have arisen
from
random sampling," philosophical magazine, series 5, 50,
157-175.
daniel, w. w. (1990), applied nonparametric statistics, boston:
pws-kent, pp. 306-316 (textbook treatment, applied).
gibbons, j. d. and chakraborti, s. (1992), nonparametric
statistical inference, new york: marcel dekker, pp. 95-103
(textbook
treatment, theory).
shapiro-wilk test of normality
shapiro, s. s. and wilk, m. b. (1965), "an analysis of
variance test for normality (complete samples), biometrika, 52,
591-611
conover, w. j. (1980), practical nonparametric statistics,
second edition, new-york: john wiley & sons, inc., pp. 363-367 for
text, pp. 466-470 for tables a17-a19 (coefficients and null and
approximate distributions).
ryan-joiner version of the shapiro-wilk test (minitab’s
normplot macro)
ryan, t. a. and joiner, b. l. (1976), "normal probability
plots and tests for normality," technical report, minitab, inc. state
college pa.
stephens’ modification of the k-s test
stephens, m. a. (1974), "edf statistics for goodness of fit
and some comparisons," journal of the american statistical
association, 69, 730-737.
boos test of symmetry
boos, d. d. (1982), "a test for asymmetry associated with the
hodges-lehmann estimator, " journal of the american statistical
association, 77,
647-651.
elr test of symmetry
eubank, r. l., lariccia, v. n., and rosenstein, r. b. (1992),
"testing symmetry about an unknown median via linear rank procedures," journal
of nonparametric statistics, 1, 301-311.
triples test of symmetry
randles, r. h., fligner, m. a., policello, g. e., and wolfe, d. a.
(1980), "an asymptotically distribution free test for symmetry versus
asymmetry," journal of the american statistical association, 75,
168-172.
location tests
for one sample or paired samples
the t test (classical) "student" (or gosset, w. s.) (1908),
"on the probable error of the mean," biometrika, 6, 1-25.
the sign test
dixon, w. j. and mood, a. m. (1946), "the statistical sign
test," journal of the american statistical association, 41,
557-566.
fisher, r. a. (1925), statistical methods for research workers,
edinburgh: oliver & boyd. this is credited with one of the first
uses of the sign test.
thompson, w. r. (1936), "on confidence ranges for the median and other
expectation distributions for populations of unknown distribution form,"
annals of mathematical statistics, 7, 122-128. this paper
derived the sign based confidence interval for the median.
hettmansperger, t. p. and sheather, s. j. (1986), "confidence intervals
based on interpolated order statistics," statistics &
probability letters, 4, 75-79. this gives the nonlinear
interpolation formula for ci’s used by minitab.
the wilcoxon signed ranks
test
wilcoxon, f. (1945), "individual comparisons by ranking
methods," biometrics, 1, 80-83.
hodges, j. l., jr. and lehmann, e. l. (1963), "estimates of location
based on rank tests," annals of mathematical statistics, 33,
482-497. this paper proposed the median of walsh averages as an
estimator of the median.
daniel, w. w. (1990), applied nonparametric statistics, second
edition, boston: pws-kent, pp. 496-502 for table a.3 (null
distribution).
the (one sample) normal scores test
fraser, d. a. s. (1957), nonparametric methods in statistics,
new york: john wiley & sons, inc.
two
sample location tests
the two sample welch t test (also known as the
smith-welch-satterthwaite t test)
welch, b. l. (1937), "the significance of the difference
between two means when the population variances are unequal," biometrika,29,
350-362.
smith, h. f. (1936), "the problem of comparing the results of two
experiments with unequal errors," journal of the council for
scientific and industrial research, 9, 211-212.
satterthwaite, f. e. (1946), "an approximate distribution of estimates
of variance components,"biometric bulletin, 2, 110-114.
the mann-whitney-wilcoxon
test (or wilcoxon rank sum test)
wilcoxon, f. (1945), "individual comparisons by ranking
methods," biometrics, 1, 80-83.
mann, h. b. and whitney, d. r. (1947), "on a test of whether one of two
random variables is stochastically larger than the other," annals
of
mathematical statistics, 18, 50-60.
gibbons, j. d. and chakraborti, s. (1992), nonparametric
statistical inference, new york: marcel dekker, pp. 495-502 for
table j (null distribution).
mood’s median
test
mood, a. m. (1950), introduction to the theory of
statistics, new york: mcgraw-hill. the most frequently cited source
for this test.
westenberg, j. (1948), "significance test for median and interquartile
range in samples from continuous populations of any form," akad.
wetensch. afdeeling voor de wis., 51, 252-261. the earliest
known source, although the title is misleading with respect to the
assumptions.
the modified mathisen test
hettmansperger, t. p. and mckean, j. w. (1998), robust
nonparametric statistical methods, london: arnold, pp. 105, 131-133.
mathisen, h. c. (1943), "a method of testing the hypothesis that two
samples are from the same population," annals of mathematical
statistics, 14, 188-194. this paper proposed the original
mathisen test, known as the control median test.
the two sample normal scores test
van der waerden, b. l. (1952/1953), "order tests for the two
sample problem and their power," i. indagationes mathematicae, 14,
453-458; ii. indagationes mathematicae, 15, 303-310; iii.
indagationes mathematicae, 15, 311-316. (proceedings of
koninklijke nederlandse akademie van
wetenschappen 55 and 56).
two sample preliminary tests
the two sample
kolmogorov-smirnov test
smirnov, n. v. (1939), "on the estimation of the discrepancy
between empirical curves of distribution for two independent samples,"
(russian) bull. moscow univ., 2, 3-16.
daniel, w. w. (1990), applied nonparametric statistics, second
edition, boston: pws-kent, pp. 574-576 for table a.20 (null
distribution).
the f test for the ratio of two normal variances (classical)
ott, r. l. (1993), an introduction to statistical methods
and data analysis, fourth edition, belmont ca: wadsworth, pp.
340-345. many other books can be cited for this test. i do not know the
original source, but it is probably fisher (1925) (see the references
for the sign test).
the moses two sample dispersion
test
moses, l. e. (1963), "rank tests of dispersion," annals of
mathematical statistics, 34, 973-983.
hollander, m. h. and wolfe, d. a. (1973), nonparametric statistical
methods, new york: john wiley & sons, inc., pp. 93-102 (textbook
treatment).
the ansari-bradley two sample dispersion test
ansari, a. r. and bradley, r. a. (1960), "rank-sum tests for
dispersions," annals of mathematical statistics, 31,
1174-1189.
hollander, m. h. and wolfe, d. a. (1973), nonparametric statistical
methods, new york: john wiley & sons, inc., pp. 83-93 (textbook
treatment).
the miller jackknife two sample dispersion test
miller, r. g., jr. (1968), "jackknifing variance," annals of
mathematical statistics, 39, 567-582.
hollander, m. h. and wolfe, d. a. (1973), nonparametric statistical
methods, new york: john wiley & sons, inc., pp. 103-111 (textbook
treatment).
tests for the one way
layout (k sample problem)
bartlett’s test of homogeneity of variance
bartlett, m. s. (1937), "properties of sufficiency and
statistical tests," proceedings of the royal society, a160,
268-282.
levene’s test of homogeneity of variance
levene, h. (1960), "robust tests for equality of variances,"
in contributions to probability and statistics, palo alto ca:
stanford university press, pp. 278-292.
neter, j., kutner, m. h., nachtsheim, c. j., and wasserman, w. (1996), applied
linear statistical models, chicago: irwin, pp. 766-768 (textbook
treatment).
welch anova (for unequal variances)
welch, b. l. (1951), "on the comparison of several mean
values: an alternative approach," biometrika, 38,
330-336.
kruskal-wallis test
kruskal, w. h. and wallis, w. a. (1952), "use of ranks in
one-criterion variance analysis," journal of the american
statistical association, 47, 583-621.
hollander, m. h. and wolfe, d. a. (1973), nonparametric statistical
methods, new york: john wiley & sons, inc., pp. 114-119 (textbook
treatment).
kraft, c. h. and van eeden, c. (1968), a nonparametric introduction to
statistics, new york: macmillan, pp. 238-262 for table f (null
distribution).
multiple comparisons in the one way layout
hollander, m. h. and wolfe, d. a. (1973), nonparametric
statistical methods, new york: john wiley & sons, inc., pp. 124-132
(textbook treatment of exact, scheffe, and tukey approaches).
dunn, o. j. (1964), "multiple comparisons using rank sums," technometrics,6,
241-252 (bonferroni approach).
miller, r. g., jr. (1966), simultaneous statistical inference,
new york: mcgraw-hill. this book covers many classical and
nonparametric
multiple comparison procedures.
hollander, m. h. and wolfe, d. a. (1973), nonparametric statistical
methods, new york: john wiley & sons, inc., pp. 328-334 for tables
a.9 - a.12.
jonckheere-terpstra
test for ordered alternatives
jonckheere, a. r. (1954), "a distribution-free k-sample test
against ordered alternatives," biometrika, 41, 133-145.
terpstra, t. j. (1952), "the asymptotic normality and consistency of
kendall’s test against trend, when ties are present in one ranking," indagationes
math., 14, 327-333.
hollander, m. h. and wolfe, d. a. (1973), nonparametric statistical
methods, new york: john wiley & sons, inc., pp. 120-123 (textbook
treatment).
hollander, m. h. and wolfe, d. a. (1973), nonparametric statistical
methods, new york: john wiley & sons, inc., pp. 311-327 for table
a.8 (null distribution).
tests for the two way layout
friedman test
friedman, m. (1937), "the use of ranks to avoid the assumption
of normality implicit in the analysis of variance," journal of the
american statistical association, 32, 675-701.
hollander, m. h. and wolfe, d. a. (1973), nonparametric statistical
methods, new york: john wiley & sons, inc., pp. 138-146 (textbook
treatment).
hollander, m. h. and wolfe, d. a. (1973), nonparametric statistical
methods, new york: john wiley & sons, inc., pp. 366-371 for table
a.15 (null distribution).
multiple comparisons in the two way layout
hollander, m. h. and wolfe, d. a. (1973), nonparametric
statistical methods, new york: john wiley & sons, inc., pp.151-158
(textbook treatment of exact and tukey approaches).
miller, r. g., jr. (1966), simultaneous statistical inference,
new york: mcgraw-hill.
hollander, m. h. and wolfe, d. a. (1973), nonparametric statistical
methods, new york: john wiley & sons, inc., pp. 373-382 for tables
a.17-a.19.
page test for ordered
alternatives
page, e. b. (1963), "ordered hypotheses for multiple
treatments: a significance test for linear ranks," journal of the
american statistical association, 58, 216-230.
hollander, m. h. and wolfe, d. a. (1973), nonparametric statistical
methods, new york: john wiley & sons, inc., pp. 147-150 (textbook
treatment).
daniel, w. w. (1990), applied nonparametric statistics, boston:
pws-kent, pp. 570 for table a.17 (null distribution).
durbin test for incomplete block designs
durbin, j. (1951), "incomplete blocks in ranking experiments," british
journal of statistical psychology, 4, 85-90.
procedures for
correlation and simple regression
pearson correlation (classical)
galton, f. (1888), "co-relations and their measurement,
chiefly from anthropological data," proceedings of the royal
society
of london, 45, 135-145.
spearman correlation
coefficient
spearman, c. (1904), "the proof and measurement of association
between two things," american journal of psychology, 15,
72-101.
siegel, s. and castellan, n. j., jr. (1988), nonparametric
statistics for the behavioral sciences, second edition, new york:
mcgraw-hill, pp. 235-244 (textbook treatment, applied).
kendall’s
tau
kendall, m. g. (1938), "a new measure of rank correlation," biometrika,30,
81-93.
siegel, s. and castellan, n. j., jr. (1988), nonparametric
statistics for the behavioral sciences, second edition, new york:
mcgraw-hill, pp. 245-254 (textbook treatment, applied).
hollander, m. h. and wolfe, d. a. (1973), nonparametric statistical
methods, new york: john wiley & sons, inc., pp. 384-393 for table
a.21 (null distribution).
theil-sen simple linear regression procedures
theil, h. (1950), "a rank-invariant measure of linear and
polynomial regression analysis," i. proceedings of koninklijke
nederlandse akademie van wetenschappen, a53, 386-392; ii. proceedings
of koninklijke nederlandse akademie van wetenschappen, a53,
521-525; iii.
proceedings of koninklijke nederlandse akademie
vanwetenschappen, a53, 1397-1412.
sen, p. k. (1968), "estimates of the regression coefficient based on
kendall’s tau," journal of the american statistical association,63,
1379-1389.
sen generalized theil’s procedure to the case where there are ties
among the regressor values.
sprent, p. (1993), applied nonparametric statistical methods,
second edition, london: chapman and hall, pp. 188-202 (textbook
treatment, applied).
hollander, m. h. and wolfe, d. a. (1973), nonparametric statistical
methods, new york: john wiley & sons, inc., pp. 384-393 for table
a.21 (null distribution).
kernel regression
nadaraya, e. a. (1964), "on estimating regression," theory
of probability and its applications, 9, 141-142.
watson, g. s. (1964), "smooth regression analysis," sankhya,
series a, 26, 359-372.
ryan, t. p. (1997), modern regression methods, new york: john
wiley & sons, inc., chapter 10 (textbook treatment).
local linear regression
stone, c. j. (1977), "consistent
nonparametric regression," annals of statistics, 5,
595-645.
cleveland, w. s. (1979), "robust locally weighted regression and
smoothing scatterplots," journal of the american statistical
association, 74, 829-836.
ryan, t. p. (1997), modern regression methods, new york: john
wiley &sons, inc., chapter 10 (textbook treatment).
rank-based
analysis of linear models
mckean, j. w. and hettmansperger, t. p. (1976), "tests of
hypotheses based on ranks in the general linear model," communications
in statistics – theory and methods, a5, 693-709.
hettmansperger, t. p. and mckean, j. w. (1977), "a robust alternative
based on ranks to least squares in analyzing linear models," technometrics,19,
275-284.
hettmansperger, t. p. (1984), statistical inference based on ranks,
new york: john wiley & sons, inc., chapter 5.
hettmansperger, t. p. and mckean, j. w. (1998), robust
nonparametricstatistical methods, london: arnold.
c. liens sur internet
ils sont bien
sûr très nombreux mais j'ai pu en sélectionner
quelques-uns qui ont le mérite de proposer soit
l'intégralité des tests [théorie et méthode],
soit des exemples, soit les deux. la plupart des articles ou des cours
sont au format pdf [acrobat reader]
ou au format ps [ghostscript,
nécessitant l'application ghostscript et surtout le «
viewver », ghostview]. voici mes choix :
1.
http://www.unesco.org/webworld/idams/advguide/chapt4_2_files/filelist.xml
2. statistique et
probabilité : a. bar-hen (d'apres j. roussel),
université aix-marseille ii [donne entre autre de nombreuses
tables]
3. méthodes statistiques pour l'ingénieur, olivier
gaudouin, ensimag 2ème année, inp,
grenoble
4. maîtrises
staps de l'université antilles-guyane,
michel le-her
5. centre
d'enseignants et de recherche de statistique appliquée (1986) - aide-mémoire
pratique des techniques statistiques pour ingénieurs et
techniciens supérieurs
- ceresta.
6.
tests statistiques, note pédagogique, christophe
benavent pr. à l'iae de lille
7. dea analyse et modélisation des systèmes biologiques
introduction au logiciel s-plus© d. chessel
8. use of statistical programs for nonparametric tests of small samples
often leads to incorrect p values: examples from animal behaviour,
roger
mundry & julia fischer institut für verhaltensbiologie, freie
universität berlin, animal behaviour, 1998, 56, 256 259
9. simplified procedure for implementing nonparametric tests in
excel, robert j. pavur, university of north texas, and kellie b.
keeling, virginia tech, rick hesse, feature editor, graziadio graduate
school of business and management, pepperdine university
10. basic non-parametric statistical tools, prepared
for gcma 200, peter m. quesada, gregory s. rash. examples presented in
these notes were obtained from primer of biostatistics by stanton s.
glantz (mcgraw hill text; isbn: 0070242682)
11. nonparametric tests, from minitab data.
12. use of durbin-watson test statistic : exact p values, gould
13. the econometric
journal of line, econometric software
links econometrics journal
14. eviews 4.0 user s guide
15. linear regression analysis, pr. roy batchelor city university
business school, london escp, paris
16. arthur charpentier, cours de série
temporelle, dess mathématiques de la décision, et
dess actuariat
17. http://wsupsy.psy.twsu.edu/charlie/nonparametric_tests.htm
18. guide
to advanced data analysis using idams software p.s. nagpaul, new delhi
(india)
19. http://www.dsa.unipr.it/soliani/soliani.html.
cf. supra :
manuale di statistica
per la ricerca e la professione
statistica univariata e bivariata
parametrica e non-parametrica
per le discipline ambientali e biologiche
(edizione febbraio 2003)
lamberto soliani
con la collaborazione di
franco sartore e enzo siri
avec
pas moins de 32 chapitres organisés selon des fichiers au format
pdf. ceux traitant des tests non paramétriques sont les
chapitres
: caput : 6 - 7 - 8 - 14 - 18.
d.
logiciels
1. logiciels
spécifiques à l'économie.
2. biomstat
for windows: basic statistical analysis programs for use with the
3rd edition of the text biometry by sokal and rohlf. version 3.3
(win95/98/nt/2000)
3. chameleon
statistics: cluster analysis and data
visualization
4. ntsyspc:
numerical taxonomy system for cluster and ordination analysis. version
2.1 (win95/98/nt/2000)
5. ntsyspc:
numerical taxonomy system for cluster and ordination analysis. version
2.1 (win95/98/nt/2000)
6. genstat:a very powerful general statistics package.
7. ez-stat:
statistical analysis program (win)
8. syn-tax
2000: data analysis in ecology and systematics (windows, mac)
9. fractal-d:
estimate the fractal dimension of outlines from digitized images (dos)
10. prostat:
advanced statistical analysis (win 3.1 /win95/98/nt )
11. simstat for
windows: powerful statistical data-analysis program (windows)
12. nlreg:
nonlinear regression and curve fitting (windows)
13. gs+: spatial
statistics for the environmental sciences, ver. 5.3 (windows)
14. kwikstat
& winks:
statistical analysis programs (dos & windows)
15. mvsp:
multivariate statistical package (windows 3.1/win95/98/nt/2000)
16. oriana:
circular statistics for windows (windows)
17. resampling
stats: randomization and bootstrap statistics (win & mac)
18. saap: spatial
autocorrelation analysis (dos).
19. statistical
calculator: a programmable and extensible system for data analysis
(dos)
20. biomlab:
learn basic statistical concepts through sampling experiments (dos)
une mention particulière pour stat-200 : quoique bridé
en version demo, il permet de se faire une idée très
précise de l'emploi des tests, sur un mode assez intuitif et
semblable à une présentation de type « excel
». une grande richesse de tests et d'options. on peut montrer, par une astuce très simple,
qu'il est possible, sans
employer de « crack » de passer outre la limitation
du logiciel, par le remploi judicieux de certains fichiers au format txt. a bon entendeur, salut !
tables
23
tables spécifiques à chaque test sont incluses dans la
feuille macro ; elles peuvent être copiées en les
sélectionnant dans une liste déroulante ; pour désactiver l'option,
il faut choisir la ligne « no table
» qui permet de choisir le test que l'on veut étudier :
- mann and whitney
à 5% [d'après
jacobson, j.e., journ. of the amer. stat. ass., 1963, 1086]
- mann and whitney à 1%
- fisher yates terry (test c1) [d'après fisher et yates, statistical tables for biological,
agricultural and medical research (oliver and boyd,
edinburgh)
]
- limite supérieure de fisher
yates terry c1 à 5% et à 1% [d'après klotz j.h., on the normal scores two sample rank test,
j. amer. stat. ass., 1964, 652-664]
-test t de wilcoxon pour
séries appariées [simplifiée,
d'après gibbons (1971) ; e.
l. lehmann (in nonparametrics:
statistical methods based on ranks, san francisco, holden day,
1975).]
- coefficient de corrélation r' de spearman [simplifiée, d'après best
et roberts, 1975]
-friedman avec k = 3, k = 4
et k = 5
[d'après siegel 1956, cf. http://cons-dev.univ-lyon1.fr/enseignement/stat/tables/tables.html
a noter que la table donnée par ce site est incomplète ;
nous avons trouvé les valeurs correspondant à k = 3
(suivant n > 8), k = 4 (suivant n > 4) et enfin k = 5 (n de 3
à 6) à la page suivante : http://www-class.unl.edu/psycrs/handcomp/hcfried.pdf.]
- durbin watson
de m = 1 à m = 5 [régresseurs
ou variables explicatives] à 5% et à 1% [j. durbin and g.s. watson, testing for serial correlation in least
squares regression, biometrika, 1951, 30, 159-178]. a
noter qu'il existe une « coquille»
dans la table à 1% à l'intersection n = 17 et m (k) = 4
où 1.3 doit
être remplacé par 1.63.
- tables de kolmogorov
smirnov [6 tables, table of percentage points of kolmogorov
statistics, journal of the american statistical association vol.
51, pp. 111 – 121).].
- table de probabilités binomiales cumulées pour le test des signes [sign test]
- table du test des séries de wald
wolfowitz - run test - [d'après
: frieda s. swed, c. eisenhart, tables
for testing randomness of grouping in a sequence of alternatives,
annals of mathematical statistics, 14, 1943, 66-87]
- table des valeurs critiques du test de jonckheere - terpstra.
[source citée supra].
- table des valeurs critiques du test de page [in http://www.dsa.unipr.it/soliani/]
-
table des valeurs critiques du coefficient de
concordance de kendall w [idem]
ces
tables donnent automatiquement les valeurs critiques dans les tableaux
des résultats mais peuvent aussi être «
appelées » sous forme de fichiers copiés dans une
feuille d'excel.
a suivre...
Acceuil
suivante
tests non paramétriques sous excel Tests - PC-WELT Tests et Jeux - Tickle Tests de Personnalité Tests unitaires et backtrace - Club d'entraide des développeurs ... Tests high-tech Tests de français avec fichiers audios Tests Pc et consoles Tous les tests de jeux Xbox et Xbox 360 Projet Roddier Législation: Les tests ADN permis par le droit européen - L'Express Tests 100% mobile : 1er site de modes d'emploi et de tests pour télà ... Les tests du processeur Intel Core 2 Extreme QX9650 (Penryn) Tests de bilan de compétences Tests de bilan de compétences Tests astro sur www.horoscope.fr : amour, feminin, personnalite ... JOUEZ! - Tests MySQL AB :: MySQL 5.0 Reference Manual :: 7.1.4 La suite de tests ... AIDE : Question à propos les tests psychotechniques d'embauche ... Tests ou-bien.com-Tests 2007 Tests logiciels de l'année 2007 - ZATAZ.COM Journal, Actualité ... Test.com Web Based Testing Software Concours infirmier infirmiere tests psychotechniques test psy Journal des Femmes Psychologie : Tous nos tests Tests de QI gratuits, bibliographie sur les tests, jeux gratuits ... Les tests unitaires en pratique, par Patrick Smacchia certification bureautique Microsoft Office Specialist, liste ... CODE DE LA ROUTE LEADER - DES TESTS DE CODE - LE N°1 DU CODE EN ... Rake test:units lance les tests sur la BDD de développement ... France 2 -> TESTS - Testez-vous CulinoTests - Les CulinoTests : présentation Moto-Net - Essais et tests de motos et scooters Magazinevideo.com : Articles en ligne : tests Des vidéos, des tests et toute l'actualité Wii des sites ... Tests du jour LaptopSpirit - Toute l’actualité des PC portables et ... - Psychologie et Tests sur Orange Des tests pointent l’inefficacité du firewall de Leopard par ... Tests produits, matériels, logiciels, loisirs numériques ... Espace tests - testez-vous ! TouTHardware.com: Annuaire de tests de matériel informatique TESTS ADN : La FSU déplore que la commission mixte paritaire ... Tests Jeux DS : sur Yahoo! Jeux vidéo Mode, beauté, tests, psychologie, horoscope avec Marie Claire Tests, cours HTML et CSS, ressources diverses… - Covert Prestige ... Mobilesachat - Les tests QI qcm logique, TEST QI gratuit Q.I test MEMOIRE IQ Actualité : Premiers tests réussis du canon laser de Boeing - Le ... PDAddict.com :: PDA (PocketPC, Palm) :: News, Tests, Concours... INGENIEUR TESTS ET VALIDATION H/F (H/F) - STERIA - Offre d'emploi ... PDAddict.com :: PDA (PocketPC, Palm) :: News, Tests, Concours... INGENIEUR TESTS ET VALIDATION H/F (H/F) - STERIA - Offre d'emploi ... Liste des tests de conformité WCAG 1.0 - UWEM 1.0 TestNG, un autre framework de tests unitaires Java - Club d ... Tests du jour : Asus, HP, Toshiba et Lenovo LaptopSpirit - Toute l ... Mon permis bateau Tests et qcm de révision des examens permis ... Tests Jeux XBOX : sur Yahoo! Jeux vidéo Les tests de pièces - Dossiers Scooter System Les tests et essais de scooters et motos - Dossiers Scooter System TT-Hardware.com - Les premiers tests de GeForce 8800 GT Les tests de recrutement décryptés - La Tribune.fr