L’analyse booléenne de questionnaire 9783110801088, 9789027977335

174 60 20MB

French Pages 299 [304] Year 1977

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

L’analyse booléenne de questionnaire
 9783110801088, 9789027977335

Table of contents :
Remerciements
TABLE DES MATIÈRES
Liste des principaux symboles
INTRODUCTION
Chapitre 1. Variations sur un thème de Guttman
PREMIÈRE PARTIE. LA TENTATION DE MENDÉLÉÏEV
Chapitre 2. Méthodologie
Chapitre 3. Questionnaires
Chapitre 4. Protocoles
Chapitre 5. Modèles
Chapitre 6. Conclusion
DEUXIÈME PARTIE. L'ANALYSE BOOLÉENNE DE QUESTIONNAIRE
Chapitre 7. De l'analyse guttmanniene à l'analyse booléenne
Chapitre 8. Les algèbres de Boole
Chapitre 9. Algèbres de Boole construites sur un questionnaire
Chapitre 10. Techniques de l'analyse booléenne
Chapitre 11. Analyse d'un exemple
Chapitre 12. Universalité de l'analyse booléenne de questionnaire
TROISIÈME PARTIE. L'ANALYSE ALGÉBRIQUE BIEN TEMPÉRÉE
Chapitre 13. Analyse de fermeture
Chapitre 14. Analyse de connexité
Chapitre 15. Approximation
CONCLUSION GÉNÉRALE
Chapitre 16. Ouvertures
ANNEXES
Annexe 1. Algèbres de Boole construites sur un questionnaire
Annexe 2. Idéal et algèbre quotient
Annexe 3. Mesure
Bibliographie
Index des protocoles analysés
Index des principaux termes techniques

Citation preview

L'ANALYSE B O O L É E N N E D E

QUESTIONNAIRE

MAISON DES SCIENCES DE L'HOMME

MÉTHODES DE LA SOCIOLOGIE IV

MOUTON

PARIS-LA H AYE

CLAUDE FLAMENT

L'ANALYSE BOOLÉENNE DE QUESTIONNAIRE

M O U T O N - P A R I S - L A HAYE

ISBN: 90-279-7733-x (Mouton La Haye) 2-7193-0606-1 (Mouton Paris)

© 1976 Ecole des Hautes Etudes en Sciences Sociales Printed in Hungary

REMERCIEMENTS

Terminant la première rédaction de cet ouvrage en Janvier 1968, j'estimai que de nouvelles recherches rendraient «ce livre caduque en quelques brèves années» (cf. p. 279). Et, en effet, depuis lors, divers travaux ont vu le jour, complétant ou renouvelant certains points abordés dans ce livre (v. par exemple, MONJARDET, 1970;DEGENNE, 1972; DEGENNE et VERGES, 1973;...). S'ils sont moins nombreux que je ne l'espérais au départ, c'est peut-être dû aux délais très longs de la publication, retard que bien des raisons peuvent expliquer . . . M. le Professeur J. STOETZEL a, tout au long de mon travail, soutenu mon effort, bien qu'il prétendît ne pouvoir en suivre la technicité ! Le Professeur C. H. COOMBS a, à chacun de mes passages à Michigan, organisé des séminaires qui me permirent de confronter mes recherches à celles de son équipe. Marc BARBUT, Alain DEGENNE et Louis FREY ont scruté la première version du livre avec toute la sévérité souhaitable. M. J. P. LE MOAN a eu le courage de mettre en forme le texte définitif. Sans eux, cet ouvrage, non seulement ne serait pas ce qu'il est, mais ne serait pas du tout ! Qu'ils soient assurés de ma reconnaissance. Et plus encore G. Th. GUILBAUD, sans qui je n'aurais pas découvert quelques idées que j'essaie de mettre à la base de mes recherches, notamment celle qui veut qu'on étudie l'ensemble des possibles, dont l'observé n'est qu'un élément. . . Aix-en-Provence

C . FLAMENT

TABLE DES MATIÈRES

Remerciements

*....

Liste des principaux symboles

5 11

INTRODUCTION Chapitre 1. Variations sur un thème de Guttman 1. L'analyse hiérarchique 2. Un exemple simple 3. Un exemple délicat 4. Perspectives

15 15 17 26 33

PREMIÈRE PARTIE

LA TENTATION DE MENDÉLÉÏEV Chapitre 2. Méthodologie 1. L'analyse de questionnaire dans le cycle de la recherche 2. La théorie de Coombs 3. Hypothèses psycho-sociologiques et analyse formelle

41 41 46 50

Chapitre 3. Questionnaires 1. Nécessité d'un système classificatoire 2. Possibilité de considérer un questionnaire comme un système classificatoire 3. Légitimité d'un codage classificatoire 4. Questionnaires formels; questionnaires simples ou composés . . . .

52 52 53 58 60

8

L'analyse booléenne de questionnaire

Chapitre 4. Protocoles 1. Protocoles complets 2. Protocoles réduits 3. Protocoles valués 4. Protocoles réduits par dévaluation 5. Protocoles dichotomiques 6. Protocoles réduits par projection 7. Relation entre les deux modes de réduction

64 64 66 67 69 71 75 79

Chapitre 5. Modèles 1. Modèles et familles de modèles 2. Modèles équivalents et indiscernables 3. Modèles probabilistes et modèles dichotomiques 4. Modèles et techniques d'analyse

82 82 87 89 94

Chapitre 6. Conclusion

97

DEUXIÈME PARTIE

L'ANALYSE BOOLÉENNE DE QUESTIONNAIRE Chapitre 7. De l'analyse guttmanniene à l'analyse booléenne

103

Chapitre 8. Les algèbres de Boole 1. Algèbres libres 2. Algèbres liées 3. Morphismes et idéaux booléens 4. Implication

109 109 115 118 124

Chapitre 9. Algèbres de Boole construites sur un questionnaire 1. Questionnaire et algèbre libre 2. Protocole et algèbre liée 3. Interprétation psycho-sociologique

128 128 129 134

Chapitre 10. Techniques de l'analyse booléenne 139 1. Algorithmes 139 1.1. Extension, Projection 139 1.2. Couverture d'un terme 142 1.3. Algorithme de passage entre forme conjonctive et une forme disjonctive 144

Table des matières 2. Algorithmes pour la recherche des PCU d'un terme 2.1. Méthode de Lagrange 2.2. Méthode de Cranfield 2.3. Méthode de Kuntzmann 2.4. Méthode de la case vide 3. Questions à plus de deux réponses

9 147 148 151 154 155 159

Chapitre 11. Analyse d'un exemple 1. L'enquête 2. Première analyse : dichotomie à 2% 3. Deuxième analyse : dichotomie à 3% 4. Troisième analyse : méthode de la case vide 5. Commentaires

163 163 166 169 173 180

Chapitre 12. Universalité de l'analyse booléenne de questionnaire

182

TROISIÈME PARTIE

L'ANALYSE ALGÉBRIQUE BIEN TEMPÉRÉE Chapitre 13. Analyse de fermeture 1. Représentation simpliciale d'un protocole dichotomique 2. Protocole fermé; modèle conjonctif-disjonctif de Coombs et Kao; modèle de Matalon 3. Analyse booléenne d'un protocole fermé 4. Recherche des réponses dominantes 5. Protocole à projections fermées; modèle à compensation de Coombs et Kao 6. Protocole doublement fermé : tresse de Guttman 7. Conclusion Chapitre 14. Analyse de connexité 1. Protocole linéairement connexe 2. Analyse de similitude d'un protocole connexe 3. Analyse boléenne d'un protocole connexe 4. Analyse de fermeture d'un protocole connexe 5. Questionnaire à nombre limité de réponses positives 6. Mesures définies dans un modèle de connexité linéaire 7. Généralisation non linéaire de l'analyse de connexité

187 187 190 198 202 204 209 218 220 220 223 228 234 236 238 243

10

L'analyse booléenne de questionnaire

Chapitre 15. Approximation 1. Le problème et son cadre 2. Un indice probabiliste 3. Problèmes de la case vide 4. Probabilités des patrons et probabilités des réponses 5. Conclusion

253 253 256 263 265 272

CONCLUSION GÉNÉRALE Chapitre 16. Ouvertures

277

ANNEXES Annexe 1. Algèbres de Boole construites sur un questionnaire

283

Annexe 2. Idéal et algèbre quotient

287

Annexe 3. Mesure

291

Bibliographie

293

Index des protocoles analysés

295

Index des principaux termes techniques

297

LISTE D E S P R I N C I P A U X

= (R, v), où v est une valuation, ou application de R sur l'intervalle [0, 1], c'est-à-dire qui, à

68

La tentation de Mendéléïev

tout P de R, associe un nombre réel v(P) compris entre 0 et 1 (bornes comprises), et telle que

Z 0 3 ; il est classique de montrer que les propriétés invariantes pour de telles transformations sont relatives d'une part, à l'ordre des valeurs (puisqu'il s'agit de transformations monotones croissantes), et d'autre part, aux rapports entre les intervalles séparant les patrons : on peut toujours dire que la valeur de tel patron est supérieure à la valeur de tel autre patron; que l'intervalle entre deux patrons est double de l'intervalle entre deux autres ; - mais on ne peut plus dire si la valeur d'un patron est double de la valeur d'un autre, ou si la valeur d'un patron est égale à la somme des valeurs de 3. En choisissant a et b de telle sorte que v' ait les propriétés d'une valuation définie plus haut: les v' entre 0 et 1, et sommant à l'unité. Il faut que b = (1 — a)/m (m étant le nombre de patrons possibles), et a =s 1 + v0 m (v0 étant la plus faible valeur v). De telles restrictions font douter de l'intérêt éventuel d'une réduction de ce type.

70

La tentation de Mendéléïev

deux autres patrons... De tels protocoles réduits n'ont encore jamais été utilisés en analyse de questionnaire, et nous ne les étudierons pas. Par contre, on a parfois utilisé des protocoles réduits que nous avons appelés protocoles ordonnés (Flament, 1967). Ils sont définis par les propriétés invariantes sous toute transformation monotone croissante : on se contente de noter que la valeur d'un patron est supérieure à celle d'un autre patron, ce qu'on exprime en ordonnant les patrons entre eux à partir de leurs valeurs, dont mention n'est plus faite dans le protocole réduit. Soit eo un protocole ordonné, c'est-à-dire, une relation de préordre total (ordre total, mais admettant des ex-aequo) sur l'ensemble R des patrons : co = (R, s=); et soit Q l'ensemble des protocoles ordonnés définissables sur R \la réduction q(0, Q) permettant de définir Q à partir de 0 peut se présenter ainsi : q(0, Q) : v(P) > v{P') Notons que tous les protocoles ordonnés constituant Q ne peuvent pas être obtenus par réduction de protocoles valués observés (valués en fréquence); par exemple, si n est l'effectif de la population U, et m le nombre de patrons de R, et si n > m (ce qui est souvent le cas), il y a nécessairement (m — n) ex-aequo au moins dans le protocole observé; et tout ordre sur R qui comporte moins d'ex-aequo ne peut s'obtenir par réduction d'un protocole observé; en d'autres termes,& 0 (voir figure 4.2) se réduit en un ensemble Qq qui est inclus dans Q. Mais tout protocole de Q provient par réduction de certains protocoles de 0; pour s'en rendre compte, il suffit d'effectuer une transformation convenable sur les rangs r(P) des patrons de R définis

Q{0, Q)

Q (0o,

0 = {(

P s* P'.

(Notons que la classe des protocoles valués constituant le protocole ordonné considéré, contient les protocoles valués dont la valuation est en correspondance monotone croissante avec la valuation que nous venons de définir). De tout ceci, résulte le schéma de la figure 4.2.

5. Protocoles dichotomiques On peut encore réduire par dévaluation ; la réduction ultime consiste à définir sur R une dichotomie, ou bi-partition, (R*, R°), de telle sorte que chaque patron de R* ait une valeur supérieure à celle de chaque patron de R0', un tel protocole réduit (ô : R*, R°) sera nommé protocole dichotomique, ou protocole bi-parti, et A désignera l'ensemble des protocoles dichotomiques sur R. Une réduction q(@, A) peut se définir :

\

v(P)

*£$=>P£R°

où £ est un nombre réel entre zéro et un. Il peut sembler que de tels protocoles, qui ne retiennent qu'une part bien faible de l'information contenue dans un protocole valué, n'aient guère de chance d'être utiles en analyse de questionnaire. La réalité est à l'inverse de cette idée: les protocoles dichotomiques sont couramment utilisés en analyse de questionnaire; par exemple, une échelle parfaite de Guttman est un protocole dichotomique, où R* est l'ensemble des patrons parfaits, et R° l'ensemble des autres patrons. Et, d'une manière générale, tout ce que nous appellerons l'analyse booléenne de questionnaire repose sur l'étude des

72

La tentation de Mendéléïev

protocoles dichotomiques - ce qui explique que nous insistions sur ce type de protocoles. L'intérêtdela réductiond'un protocole valuéenun protocole dichotomique dépend du choix de f. Si | = 0, R* comprend tous les patrons de valeur non nulle; si l'on est parti d'un protocole observé, R* est alors l'ensemble des patrons qui sont apparus au moins une fois dans la population questionnée; et la tâche de l'analyse de questionnaire est bien, au minimum, d'expliquer pourquoi tel patron est apparu (et, complémentairement, pourquoi tel autre patron n'est pas apparu). Mais on considère souvent que l'apparition d'un patron avec une très faible fréquence est un fait négligeable; ce qui revient à considérer une valeur de f faible, mais supérieure à zéro. Si la valeur de £ augmente de plus en plus, des patrons de valeurs de plus en plus fortes seront intégrés en R°, et, en ce sens, négligés par l'analyse, alors que sans doute ils ne sont pas négligeables. La valeur de f qu'on choisira dépendra de la méthode d'analyse et des critères d'approximation qu'on utilise; dans le cadre général de la présentation de notre problème, il est commode de considérer comme admissibles toutes les valeurs de | entre zéro et 1 (bornes comprises) et de désigner par q(0, A) la correspondance entre i> et A résultant de la réunion des applications de la famille (qç(0, /l)) i€[(U] . Par abus de langage, nous parlerons de q(0, A) comme d'une réduction de 0 et A, bien que ce ne soit pas une application de sur A, mais de 0 dans l'ensemble des parties de A. Il est intéressant d'étudier l'ensemble des protocoles dichotomiques obtenu à partir d'un protocole valué, lorsque | parcourt l'intervalle [0, 1]: ces protocoles s'organisent en une chaîne par l'inclusion de leurs parties R* (ou, dualement, par l'inclusion de leurs parties R°). Prenons un cas simple où R a quatre patrons P\, P2, Pa et Pi, dont les valeurs sont par exemple: v(P1) = . 10, v(P2) = .45, v(Pa) = .25 et v(Pi) = = .20. On obtient le tableau 4.3. f 0 =s £ < .10 .10 =s f < .20 .20=s! < .25 .25

£ < .45 .45 =s £ < 1

R* {P^P^P^P,}

R0

0

{P2,P3,Pi} {P*P3} p

{ i}

0

{A, Pi} {Pi, P3, P*}

{•Pi> P& P& -^i}

Tableau 4.3. Les protocoles dichotomiques réduits d'un même protocole valué, lorsque f varie de 0 à 1.

Protocoles

73

Il faut placer ceci dans un cadre plus général. Un protocole dichotomique est entièrement défini par la donnée de l'une de ses deux parties, puisque l'autre en est le complémentaire dans R. Donc, l'ensemble des protocoles dichotomiques sur un ensemble R donné s'organise comme les parties de l'ensemble R, c'est-à-dire, en simplexe. Si, pour simplifier la représentation graphique, nous prenons un ensemble R ne comportant que trois patrons A, B, C, nous obtenons le simplexe de la figure 4.3. Considérons maintenant une chaîne de ce simplexe, par exemple: 0 c {A} c {A, C) c: {A, B, C}; pour passer d'un point de cette chaîne au suivant, nous ajoutons un patron, et nous obtenons une chaîne sur les patrons; ici : A—C — B. {A, B, C}

0 Fig. 4.3. L'ensemble des protocoles dichotomiques définissables sur R = {A, B, C}, représentés par l'une de leurs parties (p. ex., R*), et organisés en simplexe.

Si nous ordonnons les patrons de R selon cette chaîne, par exemple, de cette façon : A > C > B, nous obtenons en fait un protocole ordonné (co : R, 3=); et il est facile de voir que tous les protocoles valués de la classe correspondant au protocole ordonné (c'est-à-dire la classe des protocoles valués tels que : v(A) > v(B) > v(C)) que nous venons de définir, se réduisent, pour des valeurs £ bien choisies, sur les protocoles dichotomiques dont les parties R* figurent dans la chaîne que nous avions choisie dans le simplexe des parties de R. Considérons maintenant un point du simplexe, par exemple R* = {A, C}, qui définit un protocole dichotomique. Ce point se trouve sur plusieurs chaînes du simplexe (cf. figure 4.4); pour chacune de ces chaînes, on peut refaire le raisonnement précédent : nous trouvons plusieurs protocoles ordon-

74

La tentation de Mendéléïev {A, B, C}

{A, C}

{Q

{A)

0 Fig. 4.4. R* = {A, C} se trouve sur deux chaînes du simplexe de la figure 4.3; ce qui définit deux protocoles ordonnés: (A > C > B) et (C > A B).

nés (un par chaîne), et donc plusieurs classes de protocoles valués; la réduction de chacun de ces protocoles valués donne (en choisissant bien la valeur de £), le protocole dichotomique dont nous sommes partis. Nous voyons donc des liens profonds entre protocoles ordonnés et protocoles dichotomiques: on peut facilement considérer les protocoles dichotomiques de A comme obtenus à partir des protocoles ordonnés de Q (ou comme classes de protocoles de Q), par la réduction q(Q, A)\ pour cela, il suffit de procéder, dans l'ordre sur R, à une coupure (dont l'arbitraire correspond à l'arbitraire de la valeur de £), les patrons inférieurs à cette coupure constituant R°, les patrons supérieurs à cette coupure constituant R*. La réduction q(&, A) est alors la composition des réductions q(0, Q) et q(Q, A), comme le schématise la figure 4.5.

Q = {(co : /?,>)}

Q(0, A) = q(Q, A) o e(0, Q) Fig. 4.5. Protocoles valués, ordonnés et dichotomiques.

75

Protocoles

Dans les exemples précédents, on a évité de considérer des patrons exaequo - le cas est pourtant fréquent; notamment si le nombre m de patrons est supérieur au nombre n de personnes interrogées, il y a au moins ( m — ri) patrons ayant la même valeur (qui est égale à zéro). La considération des ex-aequo ne change pas beaucoup nos raisonnements précédents. Par exemple, on trouve que si un protocole valué comporte des ex-aequo, les protocoles dichotomiques qu'on obtient par réduction constituent toujours une chaîne par inclusion, mais cette chaîne n'est pas complète; ainsi, un protocole pour lequel l'ordre des patrons est (A =» B — C > D), donne la chaîne : 0 c { A } c { A , B, C} c { A , B, C , £>}; il manque le chaînon {A, B) ou le chaînon {A, C}. Dès que m, effectif de R, est supérieur à n, effectif de la population, tout protocole observé a au moins (m — n) patrons de valeur nulle, et qui donc se trouveront toujours dans la partie R° des protocoles dichotomiques correspondants (quelle que soit la valeur de £); il s'ensuit que les protocoles dichotomiques dont la partie R° a un effectif inférieur à (m — n) ne sont pas des réductions des protocoles observés constituant &0- Nous avons donc le schéma de la figure 4.6. 0

=

{(

, permettent d'engendrer le protocole engendré. Ces règles formalisent le comportement de réponse qu'on suppose être celui des individus de la population U située dans l'univers y. Un modèle guttmanien permet d'illustrer facilement ces définitions : - la structure ip, ou univers de l'attitude, est un ordre complet sur les questions (si chacune n'a que deux réponses OUI - NON par exemple) ; les règles y définissent des classes d'individus s'insérant dans l'ordre y, et font répondre, par les individus d'une classe, OUI aux questions inférieures à la classe, et NON aux autres questions. On se rend compte facilement qu'un tel modèle peut être présenté en des termes divers, et notamment, que l'on peut, soit en accentuer l'aspect psychologique (en parlant d'attitude, niveaux d'attitude... ) soit en accentuer Y aspect formel (en ne parlant que d'ordre, coupures dans cet ordre...). On est ainsi amené à distinguer des modèles présentés comme des hypothèses psychologiques ou sociologiques, et les mêmes modèles présentés de façon purement formelle. Or, nous verrons, dans la suite de cet ouvrage, des modèles psycho-sociologiques très différents, qui se ramènent à un même modèle formel, - ce qui revient à dire que ces modèles psycho-sociologiques différents conduisent au même protocole observé, et sont donc indissociables au niveau des faits observés dans le questionnement considéré. Ce qui ne veut pas dire qu'au moment de l'interprétation des résultats de l'étude, de leur intégration dans un corps de connaissances constitué par ailleurs, on ne trouve pas de bonnes raisons de préférer un modèle psycho-sociologique à un autre. Encore faut-il, pour alimenter cette réflexion, qu'on ait remarqué l'équivalence formelle de ces modèles, ce qui n'est pas toujours facile (cf. Flament, 1962). Coombs lui-même n'a pas toujours remarqué que certains modèles, qu'il décrivait dans des univers psychologiques différents, conduisaient nécessairement aux mêmes observations (cf. Flament, 1966 b). Un modèle ¡i = (ip, y) comprend donc, en plus des règles y, une structure

Modèles

85

tp bien précise sur les ensembles constitutifs du questionnaire. Mais, sur un même questionnaire, on peut imaginer bien d'autres structures que y>, mais de même type. Ainsi, un modèle «O.T.» est défini par une structure ip d'ordre sur l'ensemble Q des questions (si chaque question n'a que deux réponses); par exemple, si Q = {A, B, C}, on aura un modèle défini par (ip : Q, >) = (y) : A > C > B); mais un autre modèle «O.T.» sur le même questionnaire sera défini par (y> : B > A C). En fait, on a autant de modèles qu'il y a de permutations possibles sur Q, - et si l'on pense qu'un protocole observé est interprétable par un ordre total sur les questions, tout le problème est de trouver, parmi toutes les permutations possibles sur Q, celle qui donne le modèle le plus valide. Nous pouvons alors modifier la figure 5.1, puisque nos hypothèses ne sont pas suffisamment précises pour être formalisées en un seul modèle : dans ce cas, une famille Jtl de modèles engendre une classe de protocoles engendrés; la technique d'ajustement permet de choisir parmi les protocoles engendrés un protocole ajusté qui rendra compte du protocole observé (cf. figure 5.2).

Fig. 5.2.

Ainsi dans le cas où la famille de modèles est l'ensemble des O.T. sur les questions, nous sommes conduits à trouver parmi les protocoles dichotomiques engendrés celui qui est la meilleure approximation du protocole observé (cf. figure 5.3). Dans l'exemple schématisé sur cette figure, le patron (1, 0, 1) a un effectif négligeable; et: Q = {1,2, 3},

^ 1 = ^2 = ^3 = {0, 1}.

86

La tentation de Mendéléïev

1

Fig. 5.3.

Désignons par rp l'ensemble des structures d'un type donné définissables sur le questionnaire considéré; dans l'exemple guttmanien, nous aurons: Wq = {(y : Q, > )}, WQ étant l'ensemble des permutations sur Q. Un modèle «O.T.» est donc composé par un élément y de et les règles y, qui sont toujours les mêmes quel que soit l'élément ip considéré. La situation est générale : si, sur un questionnaire, nous définissons un modèle comportant des règles y adéquates, et une structure %p d'un type on peut définir l'ensemble y > d e s structures de même type sur le questionnaire, et les règles y peuvent s'appliquer indifféremment à chaque élément de Nous définissons donc ainsi une famille de modèles, que nous noterons : Mx> = (f,Y,) v çv'0 ou encore : Mx> = (Vlj, y)-2 Si on opère sur une structure ip d'un ensemble Wz> à l'aide des règles y, on obtient un protocole engendré d'un certain type : valué, ou dichotomique, par exemple. Et tous les protocoles engendrés à partir de Wx> sont de même type. Ainsi, les protocoles engendrés par les modèles «O.T.» sont des protocoles dichotomiques. Mais tous les protocoles du type considéré ne sont pas, en général, engendrables à partir de Wq. En effet, les structures rp et les règles y ont en 2. Certains auteurs désignent la famille M"O comme le modèle T j .

Modèles

87

général des propriétés très contraignantes qui impliquant que les protocoles engendrés ont, eux aussi, des propriétés bien particulières. Par exemple, nous savons qu'un protocole guttmanien est un protocole dichotomique dont la partie R* contient (q+ 1) patrons, si q est le nombre de questions, patrons qui ont de plus des relations bien précises entre eux; il est clair que la plupart des protocoles dichotomiques n'ont pas ces propriétés. Donc, il convient de distinguer, dans l'ensemble des protocoles d'un certain type, le sousensemble des protocoles engendrables par une famille de modèles donnée. C'est ce qu'illustre la figure 5.4 sur l'exemple guttmanien. ^

= {(y-Q,

>)}

^ = {(ô : R*, R°)}

Fig. 5.4. Famille de modèles «O. T.» et protocoles dichotomiques guttmaniens.

Si une famille de modèles engendre la totalité des protocoles d'un type donné, nous dirons que cette famille est génératrice (pour le type de protocole considéré). La famille des modèles booléens, que nous présenterons par la suite, est une telle famille génératrice (pour les protocoles dichotomiques). L'existence de telles familles génératrices pose de graves problèmes: toute réalité est analysable par un modèle de cette famille; or, il est probable que toute réalité n'est pas organisée de même façon; donc, les modèles d'une famille génératrice ne sont que des modèles formels : toute interprétation psycho-sociologique ne peut en être que très prudente. Et l'un des intérêts majeurs de l'étude d'une famille génératrice est peut-être d'inciter à la prudence dans l'interprétation des résultats d'une analyse.

2. Modèles équivalents et indiscernables La même prudence dans l'interprétation est aussi suggérée, quoique de façon moins dramatique, par l'étude des équivalences de modèles. Nous avons vu que divers systèmes d'hypothèses psycho-sociologiques pouvaient

88

La tentation de Mendéléïev

se traduire par des modèles formellement équivalents. Mais il arrive parfois que l'équivalence formelle de deux modèles ne soit pas directement évidente, notamment quand la formalisation d'une hypothèse conserve certains aspects de l'hypothèse qui n'ont pas de conséquences observables (cf. Flament, 1962). La méthode la plus simple est de déclarer équivalents des modèles engendrant le même protocole, ce qui revient à dire que ces modèles ont mêmes conséquences observables. Et nous dirons que deux familles de modèles, M t = — (VD* y) et Mg. = (f¿t y»), sont complètement équivalents si elles engendrent le même ensemble de protocoles: y (Vu) = y (V caractérisant le modèle le plus valable de la famille. L'élaboration d'une technique d tient compte, d'abord et essentiellement, des propriétés communes à tous les protocoles engendrés par la famille de modèles en jeu, ou à tous les protocoles valués qui par réduction donnent les protocoles engendrés par la famille. Par exemple, en analyse hiérarchique, on remarque que si un protocole présente une structure d'O.T. parfaite, et si dans la structure y caractérisant ce protocole, on a l'ordre A > B sur les questions A et B, alors le sous-protocole de niveau 2 fait apparaître une certaine relation sur les sous-patrons de longueur 2 obtenus par projection sur {A, B}; on conseille alors de considérer le sous-protocole a2 réduit du protocole observé, et d'y découvrir, entre les questions prises deux à deux, des relations aussi proches que possible du type des relations théoriques, et qui permettent de construire la structure y> la plus satisfaisante pour rendre compte du protocole observé. On le voit, une technique d'analyse comporte souvent une phase d'approximation : trouver des relations observées aussi proches que possible des relations théoriques. En général, une technique donne un sens très précis, algorithmique, à la technique d'approximation. En principe, l'algorithme proposé a pour but d'assurer que le modèle construit par la technique 6 sera le meilleur possible dans la famille considérée. Ce qui suppose qu'on a défini avec précision la mesure de la validité d'un modèle. Ce n'est pas le cas en analyse algébrique de questionnaire, saut en ce qui concerne i analyse hiérarchique, où les divers indices de validité ont été définis, mais fondés plutôt en bon sens qu'en théorie. En effet, l'analyse algébrique traditionnelle ne tient guère compte que du protocole valué observé xp0 et du protocole dichotomique engendré èg, et non des ensembles 0 et â dans lesquels nous les considérons (cf. la figure 5.6, sur l'exemple guttmanien); il s'ensuit que les indices de validité comparent directement q> et ôe, sans que le fondement théorique de cette comparaison puisse apparaître clairement. Le cadre général de notre approche suggère de définir, sur chacun des ensembles 0 et A notamment, une métrique qui nous permette d'apprécier la distance existant entre deux protocoles de même type. On pourra alors comparer le protocole dichotomique observé ôo au protocole dichotomique engendré ôg, ou le protocole valué observé (pn à la clas { (x [\ V ) V V = ^ V V ^ V ^

XV/\ = X=>(xv/\)A/\ = ^ A A ^ V ^ ' A Involution de ' : 1. L'expression de

x

et

y.

(x^y)

(x')' = se lit

sup,

ou

supremum

de

V V =

V

A =

A

X

x

et

y; (xf\y)

se lit:

inf,

ou

infimum

Les algèbres de Boole Lois de Morgan :

(x A y)' = x' V / (x v yy = y a y

Lois sur les pôles:

x A x' = f \

111

x V x' = V De plus (x A x')' = / V = x' V x = V =• V* A ' = V (x v x'Y = v

=

a * = A =• v * V ' = A -

A l'aide de ces axiomes et lois, nous pouvons transformer une expression en plusieurs autres qui lui sont égales; par exemple, l'expression: x V (x a y A z) est égale notamment aux expressions : (x V x) A (* V y) A V z), par la distributivité; x A (x V y) A (x V z), par l'idempotence; x, par une loi de Boole. Un ensemble d'expressions égales entre elles constitue un terme de l'algèbre; on dit qu'un terme peut s'écrire sous la forme de l'une quelconque des expressions qui le composent. Certains termes sont remarquables du fait qu'ils peuvent s'écrire sous une forme particulièrement agréable. On appellera inf-terme un terme qui peut se mettre sous la forme d'une expression utilisant uniquement les générateurs, leur complémentaire et l'opération A (inf), et telle qu'un générateur y figure au plus une fois, soit sous sa forme propre (a), soit sous sa forme conjuguée (a'); a, b, c étant des générateurs, (a A b), {a' A b A c), (b) sont des inf-termes ; mais aussi ((a A b) V a) puisque cela peut s'écrire (a). Par contre (a A b A a ' ) n'est pas un inf-terme, puisque le générateur (a) y figure sous ses deux formes. Un minterme2 est un inf-terme dont l'écriture caractéristique nécessite tous les générateurs ; si l'on a une algèbre à n = 4 générateurs a, b, c, d, les expressions (a f\ b f\ c' f\ d), (a' /\ b A c f\ d), etc., caractérisent des mintermes. Une algèbre à n générateurs comporte 2" mintermes : en effet, chaque générateur apparaît soit sous sa forme propre, soit sous sa forme conjuguée (cf. fig. 8.1). Parallèlement, on peut définir les sup-termes et les maxtermes en remplaçant l'opération inf (A) par l'opération sup (V). Notons que les termes 2. Minterme (resp. maxterme) pour terme minimum (resp. maximum), c'est-à-dire en relation avec l'opération inf: infimum(resp. sup: supremum). Les mintermes (resp. maxtermes) sont les atomes (resp. anti-atomes) de l'algèbre libre.

112

L'analyse booléenne de questionnaire

pouvant se mettre sous une forme n'utilisant qu'un seul générateur, soit sous sa forme propre soit sous sa forme conjuguée, sont les seuls termes à être à la fois inf-termes et sup-termes; autrement dit, seuls les générateurs et leurs conjugués sont à la fois inf-termes et sup-termes. On démontre classiquement que tout terme peut se mettre sous deux formes remarquables, dites canoniques : la forme canonique disjonctive s'écrit comme le sup d'un ensemble d'inf-termes; la forme canonique conjonctive, comme Yinf d'un ensemble de sup-termes. Prenons par exemple l'expression {{a A b) V c) A d qui n'est pas sous forme canonique; en utilisant la distributivité d'une première façon, on obtient ((a V c) /\ (b V c) /\ d), qui est une forme canonique conjonctive; en utilisant la distributivité d'une autre façon, on obtient ((a f\ b f\ d) V (c f\ d)), qui est une forme canonique disjonctive. En analyse de questionnaire, les inf-termes, mintermes et formes disjonctives joueront un très grand rôle; nous allons nous familiariser avec le maniement de certaines de leurs propriétés (les propriétés des sup-termes, maxtermes et formes conjonctives sont duales, mais nous ne les mentionnerons pas). Supposons quatre générateurs: a, b, c,d; considérons l'inf-terme (a A b); sur les deux générateurs restant, c et d, nous pouvons construire exactement quatre inf-termes; (c A d), (c A d'), (c' A d) et (c' A d')\ en combinant par l'opération m/l'inf-terme (a A b) et l'un quelconque des termes construits à partir de c et d, nous obtenons un minterme; nous obtenons ainsi quatre mintermes : (a A b A c A d), (a A b A c A d'), (a A b A C A d), (a A b A C A d'). Il est intéressant de noter que l'expression canonique disjonctive obtenue comme le sup de ces quatre mintermes, est égale à l'inf-terme (a f\ b) dont nous sommes partis : (a A b A c A d) V (a A b A c A d') V {a A b A c' A d) V (a A b A c' A d') = (a A b) A ((cA d) y (c A d') V (c' A d) V (c' A d')) par distributivité, = (a A b) A ((c A (d V d')) V (c' A (d V d'))) par distributivité, = (a A b) A ((c A V ) V (c' A V ) ) = (« A b) A' (c V c') = (a A b) V V = {a t\b) par les règles définissant le terme \ J .

Les algèbres

de

113

Boole b

(aAb)

b' b

(ahb')

=

(a\b)

{a\b')

2 générateurs

2 2 mintermes

= 2 2 mintermes => 2m = 2(22) f.c.d.max.

Fig. 8.1. Dénombrement des mintermes et des formes canoniques disjonctives maximales.

114

L'analyse booléenne de questionnaire

Ceci est général : un inf-terme construit sur certains générateurs est égal au sup de tous les mintermes qu'on peut construire à partir de l'inf-terme considéré, «complété» par les inf-termes construits sur les générateurs restants. 11 s'ensuit qu'une expression canonique disjonctive peut toujours se mettre sous la forme d'un sup de mintermes, ce que nous appellerons une forme canonique disjonctive maximale; par exemple, l'expression canonique ((a A b A d) V (c' A d)), pour quatre générateurs a, b, c et d, peut se traiter ainsi : - (a A b A d) se complète, relativement à c, en les mintermes ( a / \ b l \ c [ \ d ) et (a A b A c' A d)\ (c' A c?) donne les quatre mintermes (a A b A c' A d), (aAb'Ac'A d), (a' A b A c' A d) et (a' A b' A c' A d); - on note que le minterme {a A b A c' A d) figure dans les deux cas, mais, en raison de l'idempotence, il ne figurera qu'une fois dans l'expression finale; on obtient donc l'expression canonique disjonctive maximale égale à l'expression de départ : (a A b A d) V (c' A d) = (a A b A c A d) V (a A b A c' A d) V (a A b' A c' A d) y (a' A b A c' A d) y (a' A b' A c' A d). On démontre qu'un terme n'a qu'une seule expression canonique disjonctive maximale (cf. Casanova, 1967, p. 66 3). Il en résulte que si nous avons m mintermes, il y a 2m expressions canoniques disjonctives maximales, qui chacune correspond à un terme distinct dans l'algèbre. Nous avons vu que si cette algèbre a n générateurs, elle a m = 2" mintermes, et donc 2(2n) termes distincts. Ainsi, pour une algèbre à deux générateurs a et b, on dénombre 4 mintermes et 16 formes canoniques disjonctives maximales (cf. fig. 8.1). Inversement on peut rechercher l'expression canonique disjonctive minimale, c'est-à-dire telle que quelle que soit la manière dont on «efface» des lettres dans l'écriture, on obtienne une expression non égale à celle dont on est parti 4 ; malheureusement ce problème n'a pas de solution unique comme on le verra au chapitre 10. Prenons un exemple à titre d'exercice. Soit l'expression 3. En fait, la démonstration de Casanova est faite dans le cadre de l'algèbre 'p(E) des parties d'un ensemble E. Cependant ce résultat s'applique à toute algèbre de Boole Œ, car on démontre qu'une algèbre de Boole libre (B est isomorphe à l'ensemble '

V A

->- 0 (élément neutre pour ffi) 1 (élément neutre pour»)

x!

- x ©1

dL x-y - x A y x®y — (x A/)

0 — A 1 - V

V (x' A y)

120

L'analyse

booléenne

de

questionnaire

Définissons dans , est d'un certain point de vue (i.e. si l'on considère l'algèbre de Boole dont les éléments sont des propositions) un cas particulier de notre implication notée . Cependant, les deux notions sont à bien distinguer: . les êtres qui sont dans la relation sont des éléments de l'algèbre de Boole , sont des propositions; ils sont donc de nature logique. Ainsi l'implication peut servir à construire une proposition (par exemple: (x — y), où x et y sont des termes de - y), par transitivité de l'implication. Et une interprétation directe de (x -*• y) serait erronée: (x — y) est une conséquence formelle des deux liaisons (x z) et (z y) qu'il faut expliquer. Inversement, si on constate (x — y) et (y — z), une interprétation économique ne se préoccupera pas de (x ->- z) (du reste, l'inf-terme (x A z') ne figure pas dans une expression minimale), mais il se peut qu'une interprétation plus plausible s'en occupe, considérant que (x -»- z) a une double explication-. l'une formelle, par transitivité, l'autre par une relation directe entre x e t z. On le voit par ces quelques problèmes : l'interprétation doit choisir entre de multiples systèmes d'hypothèses possibles. Et rien dans le protocole ne peut guider le choix, car chaque système d'hypothèses explique, de façon formellement équivalente, le même fait unique (s = qui résume parfaitement le protocole. Seul peut aider l'appel à des connaissances extérieures au questionnaire, des faits résultant d'autres enquêtes, des théories... C'est pourquoi seul un spécialiste du problème peut tenter une interprétation. Bien que nullement spécialiste de sociologie religieuse, nous allons discuter le questionnaire qui nous a servi d'exemple. Il s'agit d'illustrer les remarques que nous venons de faire, non de proposer une interprétation sérieuse. Rappelons les quatre questions: A. Actuellement vous arrive-t-il très souvent de prier? B. Allez-vous régulièrement à l'église, au temple, à la synagogue ou à la mosquée? C. Croyez-vous à un paradis, un purgatoire et un enfer? D. Donnez-vous ou donnerez-vous à vos enfants une éducation religieuse? Les réponses positives sont notées a, b, c, d\ les réponses négatives; a', b', c', d'. Si nous adoptons l'analyse de Maître (cf. tableau 9.1: R\, et figure 9.1: s3), nous trouvons une échelle de Guttman: a -* b -»- c — d; nous interprétons en termes d'attitude se traduisant par certaines croyances et pratiques plus ou moins significatives d'une vie religieuse intense (selon la hiérarchie

136

L'analyse booléenne de questionnaire

trouvée), et un individu a les croyances ou pratiques se situant à un niveau au plus égal au niveau d'attitude de l'individu; cette interprétation globale par un modèle guttmanien suffit à rendre compte totalement du protocole i?g. Reste à interpréter sociologiquement la hiérarchie particulière à la population étudiée (une population différente, de bouddhistes par exemple, donnerait sans doute une hiérarchie différente). Si l'on voit assez facilement pourquoi a : «prier souvent», marque le niveau supérieur, et surtout pourquoi d': «ne pas donner d'éducation religieuse aux enfants» marque le niveau inférieur, - il est plus difficile de comprendre pourquoi b: «aller régulièrement dans un lieu de culte» marque un niveau supérieur à c: «croire au paradis, etc.», - ou, si l'on préfère, pourquoi b ->- c. En effet, on imagine aisément des gens allant régulièrement dans un lieu de culte pour des raisons de conformismes familial ou social, sans avoir de croyances religieuses bien nettes. Et du reste, la configuration (b /\ c'), jugée négligeable dans l'analyse hiérarchique de Maître, est donnée par plus de 8 % de la population, dont les 6 % donnant le patron (a', b, c', d) qu'une analyse fine nous semble devoir prendre en compte, comme nous l'avons fait dans le protocole Rl (tableau 9.1). Rl ne constitue pas une échelle de Guttman, et nous abandonnons l'interprétation globale en termes d'échelle d'attitude. Il reste cependant que a et d sont toujours aux extrémités des chaînes d'implication, puisque a implique b et c, et b ou c impliquent d (cf. figure 9.1, Ji). Alors que, dans la perspective d'une échelle d'attitude, on admettait facilement que a, «prier souvent» marque le niveau supérieur, dans notre nouveau contexte, il faut comprendre pourquoi a implique b, c et d. Par exemple, on peut s'étonner que a c; nous connaissons des gens très religieux, qui prient très souvent, et qui cependant ne croient pas, à proprement parler, au paradis, au purgatoire et à l'enfer, qu'ils considèrent plus ou moins comme relevant de la mythologie; ces gens devraient répondre (a A c'); or, moins de 2 % de la population, répartis en trois patrons, donnent cette configuration, qui est donc négligeable. Une remarque de Maître (1967, p. 54) nous met peut-être sur la voie : il lui semble qu'un point essentiel pour la compréhension des résultats du questionnaire consiste «dans l'influence de l'apprentissage catéchétique qui diffuse des normes socio-culturelles dans l'immense majorité de la population»; on peut donc supposer que les gens qui prient souvent s'intéressent aux choses de la religion et étudient ou ont étudié sérieusement le catéchisme (c'est une variable intermédiaire que le questionnaire n'a pas considérée), et, de cette étude sérieuse, ont tiré certaines croyances qui n'ont pas nécessairement le caractère presque superstitieux qu'elles ont sans doute pour des gens peu religieux et ne priant pas souvent.

Algèbres de Boole construites sur un questionnaire

137

Il est sans doute facile de comprendre pourquoi les gens qui prient souvent (a) vont régulièrement dans un lieu de culte (b): les religions les plus répandues en France considèrent toutes que le lieu de culte est un endroit privilégié pour prier. Et les gens qui vont régulièrement dans un lieu de culte sans prier souvent (a' A b) (27 % de la population) obéissent peut-être aux traditions ou à un certain conformisme social. Cette ambiguïté possible de la réponse b suggère une interprétation complexe de la liaison (b — d); ceux qui vont dans un lieu de culte par conformisme entendent donner une éducation religieuse à leurs enfants en vertu du même conformisme, - tandis que ceux qui vont dans un lieu de culte pour prier entendent donner une éducation religieuse approfondie à

donner une éducation religieuse conformiste

aller dans un lieu de culte par conformisme

b, aller dans un lieu de culte prier souvent

pour prier

\\ ~

donner une éducation religieuse

croire

I profondément

approfondie croire profondément au paradis, etc.

donner une éducation

croire superstitieusement

religieuse superstitieuse

au paradis, etc.

Fig. 9.3. Essai d'interprétation du schéma:

d.

138

L'analyse booléenne de questionnaire

leurs enfants, non parce qu'ils vont dans un lieu de culte ou parce qu'ils prient, mais parce qu'ils croient profondément. Des remarques de ce genre conduisent à une interprétation dont le schéma est donné par la figure 9.3. Nos hypothèses sont sans aucun doute simplistes, trop rapides et maladroitement exprimées: nous ne sommes pas spécialist e . . . Nous avons seulement voulu illustrer une démarche interprétative conforme aux nécessités formelles de l'analyse, en considérant des variables intermédiaires, des décompositions de réponses multivoques, des analyses délicates de liaisons résultant de la transitivité... Mais supposons qu'une interprétation de ce genre satisfasse un spécialiste, au moins à titre d'hypothèse de travail; ne pouvant nullement établir la validité de cette interprétation par le questionnaire étudié, le spécialiste pourrait imaginer un nouveau questionnaire qui expliciterait, d'une façon ou d'une autre, les réponses supposées par l'interprétation («; bx, b2', Ci, c 2 ; di, d2, d3)\ pour passer de ce nouveau questionnaire à l'ancien, il suffit de poser: b = bi V b2, c = ci V c2, d= 4 V ¿2 V d3 ; en effet, une expression s du schéma de la figure 9.3 est: s = (a A K) V (a A a') V (a' A a) V (a A c'2) V (a A