La phonétique
 2 13 055478 4

Table of contents :
TABLE DES MATIÈRES
Avant-propos
Introduction
Chapitre I – Phonétique et phonologie
Chapitre II - Les branches de la phonétique
Chapitre III - Les outils de la phonétique
Chapitre IV - Les organes de la parole
Chapitre V _ Le signal de parole et la phonétique acoustique
Chapitre VI - Les voyelles
Chapitre VII – Les consonnes
Chapitre VIII – Quelques aspects de la perception de la parole
Chapitre IX-Prosodie
Conclusion
Bibliographie

Citation preview

Oe •

LA PHONÉTIQUE

Jacqueline Vaissière

mm

La phonétique

QUE SAIS-JE?

La phonétique JACQUELINE VAISSIÈRE Professeur de phonétique

Un grand merci à Alexis Michaud, Christian Da Lage, Mario Rossi, Shinji Maeda, Jacques Durand, Pierre Hallé, Sophie Moirend, Takeki Kamiyama, Marti ne Toda pour leur relecture attentive

1SN 2 130554784 Dq,&t Mpl - 1• 6ditioa : 2006, janvier 0 ..,_ Uaivenitaira de F,uœ, 2006 6, avenue Reille, 7014 Puri

AVANT-PROPOS La phonétique a pour objet l'étude scientifique des sons de la parole. Elle traite de tous les phénomènes sonores liés à l'expression du langage humain. Le début de la phonétique articulatoire et de l'orthoépie remonterait à la description du sanskrit par Panini au vr sicle avant notre ère. Le XIX" marque les commencements de la phonétique historique, avec la mise au jour des correspondances phonétiques qui témoignent de l'apparentement entre langues : la parenté entre les langues d'Océanie, et entre les langues de la vaste famille indoeuropéenne, a ainsi pu être reconnue. La comparaison entre langues apparentées débouche sur une rconstruction d'états de langue anciens, qui se précise à mesure de l'enrichissement de la documentation linguistique disponible, dans un dialogue avec les données historiques et paléologiques. A la fin du XIX" siècle, P.-J. Rousselot a essayé d'expliquer par des expériences en laboratoire les mécanismes des changements phonétiques, fondant ainsi la phonétique expérimentale. Celle-ci a connu un essor considérable au cours de la seconde moitié du XX siècle, devenant une science multidisciplinaire et fortement instrumentalisée. Le premier Congrès des sciences phonétiques a eu lieu en 1932, à Amsterdam. Ce congrès continue de 5

6

--J

.c:;, "O< -0, "OI IO

j

JI,

i

j

-· l

.o .Cl

î ! :

"O•

1

... tl i 1l -éu-

:1

1

3: ~l '00

l 1

l

"b 'o

. . 1 '1 .

i l l

l

~

I ]t If 1

1

"O 'o

~

"i:,

IL

t.

':..

.,.

li

0,

0,

C>"

l !

!!

l -1 -1 1 1 J. l. l. 1. . .... '

--o

$

3 ► ~

0- 0-

1

::,.

,u pll)

.... ud,

'!.. • n»

1t >

1

>

> ..

l l:1. l. 1 ] 1 •! ! f f j

t

7

t

2

réunir périodiquement linguistes (phonéticiens, phonologues, dialectologues), psycholinguistcs et psychologues expérimentaux, ingénieurs spécialistes de la communication parlée et du traitement automatique de la parole, médecins ORL et phoniatres, thérapeutes de la voix et orthophonistes, spécialistes de l'acquisition de la langue maternelle et de l'apprentissage d'une langue seconde, enseignants de chant et de diction. La collaboration entre disciplines est à l'origine d'avancées majeures en phonétique. Les sciences phonétiques concernent désormais tous les scientifiques, phonéticiens ou non, dont le domaine d'intérêt est la communication parlée, sa nature et son fonctionnement. Cc livre se veut à la fois une introduction à la diversité des sciences phonétiques et une synthèse des résultats des recherches de ces dernières décennies. Entre autres limitations ducs au format, la phonétique historique n'est pas présentée en détail ; l'accent est mis sur le renouvellement des problématiques de recherche qui a accompagné le développement de nouvelles technologies : outils informatiques, et nouvelles techniques exploratoires. Pour le lecteur non averti, nous conseillons de commencer par lire les chapitres IV et V.

8

INTRODUCTI ON La phonétique est l'étude de l'aspect sonore du langage. Cette caractérisation volontairement large sera précisée au fur et à mesure de l'exposé, situant cette

discipline vis-à-vis de disciplines voisines. La faculté d'acquérir une langue est le propre de l'homme. Les animaux, même les plus primitifs, possèdent des systèmes d'indices olfactifs, visuels ou sonores qui permettent l'échange d'informations avec leurs congénères pour la survie de l'espèce. L'inventaire de ces indices est limité et il ne s'agit pas à proprement parler de langage : Émile Benveniste oppose communication animale et langage humain. L'être humain possède une faculté qui lui permet de construire des énoncés en nombre illimité. Il est doté d'une ouïe adaptée à percevoir des fréquences dans les zones où il est capable de les produire. La faculté d'acquérir une langue s'exprime sous la forme d'une pluralité extraordinaire de langues parlées (de 3 000 à 6 500 environ, selon les critères utilisés pour les dénombrer). Si le système verbal en est le principal actualisateur, la faculté de langage peut aussi tirer parti d'autres éléments, produits par les mêmes organes que la parole (soupirs, rires, toux et, aux marges du langage, les onomatopées) ou par le reste du corps : gestes et mimiques faciales composent un système posturo-mimo-gestuel. Les enfants sourds déve9

loppent spontanément entre eux une communi cation à l'aide de signes. Le système vocal est porteur d'une gran de variété d'informations. Selon la façon dont il prononce un message verbal, le locuteur communique des informations de divers ordres, d'une façon qui n'est qu'en partie sous son contrôle. Il extériorise sentiments, émotions ou attitudes ; il appelle telle ou telle réaction chez son interlocuteur ; il révèle son identité sociale, régionale et cultu relle. La phonostylistique (I. F6nagy, P. Léon) traite de ces dimensions, présentes dans tout acte de communication et particulièrement saill antes dans l'usage esth étique de la voix (chant, poésie, arts de la scè ne). Le système verbal de la langue peut être décri t dans les termes d'une double articulation (A. Martin et). Chaque message est composé d'une success ion de sons qui correspondent à une suite de signes. Chaque signe (typ iquement : un mot) possède deux faces, un signifiant (une image sonore) et un signifi é (un sens). La correspondance entre le signifi é et le signifi ant est arbitraire et conventionne/le : arbitraire car la notion d'arbre est désignée par une image sonore différente selon les langues, arbre lasb/ en français, tree lui/ en anglais ; conventionnelle, car la langue est « un produit social de la faculté du langage et un ensemble de conventions nécessaires, adoptées par le corps social pour permettre l'exercice de cette faculté chez les individus » (F. de Saussure). Chaque signifiant est luimême constitu é d'une suite de sons élémentaires sans signifi cation, les phonèmes. Les combinaisons des 10

trois phonèmes /p, /t/ et /a/ forment au moins cinq unités significatives en français (pas, ta, patte, tape, apte, /pa/, /a/, /pa/, /tapl, /ap/). A la même suite de phonèmes /sa/ correspondent plusieurs mots ( sang, s'en, sent, cent). Les langues distinguent des centaines de milliers de mots à partir d'une moyenne de 30 phonèmes. Le phonème est la plus petite unité distinctive d'un système phonologique. La fonction des phonèmes dans une langue est d'établir des oppositions entre les mots de son lexique. « Si deux sons apparaissent exactement dans la même position phonique et ne peuvent se substituer l'un à l'autre sans modifier la signification des mots, ou sans que le mot devienne méconnaissable, alors les deux sons sont des réalisations de deux phonèmes » (N. S. Troubetzkoy). En français, /1/ et // sont deux phonèmes distincts, car la substitution de // à /l/ conduit à deux mots différents, tels que père et pelle ([pl], [pa)) et lent et rang ([la], [ua]. En revanche, le // uvulaire parisien [u] et le r apical [r] (le /rl dit bourguignon) sont deux variantes régionales du même phonème. Deux mots qui ne se distinguent que par un phonème constituent une paire minimale : lent et rang [là], [a] forment une paire minimale qui établit le caractère phonémique de /1/ et /l en français. Les phonèmes sont essentiellement les voyelles et les consonnes (et les semi-consonnes). Le nombre et l'identité des phonèmes dépendent de la langue. La majorité des langues ont 25 à 30 phonèmes. Aux deux extrêmes, le pirahà (langue d'Amazonie) possède seulement 10 phonèmes, et le !Xu (en Afrique du Sud) 11

plus de 100, le français de 27 à 33 scion les régions. Le nombre de consonnes en français ne varie pas d'une variété régionale à l'autre (16 consonnes): /p t k b dg f s c m n lu/ (voir le tableau des phonèmes du français sur le tableau 1). Tableau 2. - Les

poses da français

LIS CO NSO NNIS

Lee /p4/ /fij/

ka! /mol /oo/

.

pan temps camp ment

/bd/ /dé/ lg(I/ /lo/ hvd/

nan

cc,-,,a

du frçale

banc /fa/ dent lsa/ gant /J6/ lent /ar,o/ rang /parkir)'

faon lvOI hl;/ sang chant l'!/JI agneau parking

vent zan FllS

LIS VOYELLIS Syllabes fermées

/pJJ

pile

lpyV ler/

/p,J/ /par/ /p(l.tl

pelle patte pente

l3yoen/

pull jeOne jeune

/pd

ponte

/pull /pol/

poule pôle Paul

/lui /loi

loup l'eau

lpoV

Syllabes oerrertes /1/1 /Je/ 1W /la/ /p6/

/ly/

lit les laid

lu l'cux brebis le pond

el /b,,œ/

la

/b,,1/

paon brin

y

yacht fille

/al /p5/

.

Les semi-royelles oa seml-consones /lqli

lui 12

/lwl/

Loui■

Le nombre de voyelles, en revanche, est variable.

Les français les plus âgés, par exemple, au nord de la Loire, possèdent deux phonèmes de type /a/, /a/ antérieur et /a/ postérieur, distinction qui ne se maintient plus que pour un petit nombre de mots : ils prononcent différemment patte /pa/ et pâte /pari Anne /an/ et âne /an!. Le français méridional et celui de Belgique francophone distinguent entre brun /be/ et brin /bu/, distinction perdue en français parisien. Les mots Baule /bol / et bol /bol/ fée lfel et fait lfEJ sont homophones en Normandie. En Belgique, et en Lorraine du Sud (Nancy, Saint-Dié), l'opposition de longueur permet encore de distinguer entre mots [mo] et maux [mo:] (opposition doublée d'une légère différence de timbre, comme il est courant pour les oppositions de longueur vocalique), mais l'évolution vers un son [o] unique en finale de mot se fait rapidement. Les présentateurs dans les medias étant tenus à une prononciation de «type neutre », correspondant à la nonne, on observe une tendance à l'uniformisation. Les réalisations d'un phonème varient à l'infini. - Premièrement, les variations sont d'abord dues à des caractéristiques anatomiques individuelles et permettent d'identifier Je locuteur en fournissant des indications sur l'âge, le sexe, l'état physiologique (voix enrouée, voix de fumeur) et émotionnel (joyeux, triste). -- Deuxièmement, le contexte phonétique qui entoure le phonème influence les gestes de la langue et des lèvres, du voile du palais et de la glotte par lequel 13

il est réalisé. Comparez les positions de vos lèvres durant la réalisation de la première consonne des mots toute et rite ; elles sont plus arrondies durant la production des consonnes // dans toute que dans lite ; le bruit de l'explosion au moment de la séparation de la langue et des dents (c'est-à-dire au moment du relâchement) est plus grave. Prononcez toute et roure ; la position de la langue durant la réalisation de fui est plus antérieure dans la syllabe toute que dans la syllabe roure et le timbre de ou fui se rapproche de celui de la voyelle /y/ (alors que le ou fui de roure se rapproche de celui de /o/). Cette influence peut s'exercer à l'intérieur du mot entier, à partir, par exemple, de la syllabe accentuée. - Troisièmement, plus on parle vite ou de façon relâchée, plus la différence articulatoire entre voyelles et consonnes s'amoindrit (certains locuteurs peuvent néanmoins parler très vite et de façon non relâchée). Les voyelles qui se prononcent avec un conduit vocal très ouvert (voyelles dites ouvertes) comme la voyelle /a/ ont tendance à se fermer, les voyelles fermées (comme les voyelles i fil, u !y! et ou lu/) à s'ouvrir, et les voyelles extrêmes sont évitées (oui [wi] > ouais > [w] et [qe]) ; les consonnes occlusives (le conduit vocal est obstrué, comme pour la réalisation des consonnes /p, t, k, b, d, g/ ne sont plus réalisées avec une occlusion complète. Certains phonèmes vont jusqu'à disparaître : je ne sais pas > je n'sais pas > j'sais pas > chaipas; maintenant > mai nt'nant > maind'nant > main-nant > mai-nant ; ces phénomènes ne sont pas particuliers au français, comme le 14

montrent les travaux de K. Kohler sur l'allemand. Les mots fréquents sont souvent prononcés de façon rapide et relâchée, et c'est par eux que commencent tes changements phonétiques, qui s'étendent ensuite aux mots moins fréquents. - Quatrièmement, le geste articulatoire dépend de la position du phonème dans la syllabe, le mot et ta phrase. Selon sa position, il pourra être dominant : mieux articulé, plus long, plus intense, il imposera certaines de ses caractéristiques aux phonèmes environnants. Dans le cas contraire, il est dominé, sous l'influence des phonèmes qui l'entourent, parfois au point de disparaître. La première consonne du mot et, le cas échéant, la syllabe accentuée connaissent en général une réalisation forte, c'est-à-dire plus prototypique. En anglais, les occlusives /p/, // et /k/ sont aspirées en position initiale de mots (pin [p"in] et 'contract ['kn rekt] et con'tract [k'an'trakt]) et en position initiale de syllabe accentuée, mais pas dans les autres positions (le symbole «'» indique la position de la syllabe accentuée). - Cinquièmement, un même locuteur adapte sa façon de prononcer à la situation de communication, en termes de registre (du plus soutenu au plus argotique), de style, d'attitude exprimée (la moue, l'ironie), faisant feu de tout bois : la nasalisation véhicule une note de respect dans certaines langues et de dégoût dans d'autres. Les variantes peuvent être d'ordre sociolinguistique ou socioculturel : la postériorisation la voyelle /a/ en [a] dans un mot comme mariage s1gnale aussitôt une appartenance sociale.

de

15

- Sixièmement, les phonèmes et leurs contrastes sont réalisés de façon différente d'une région à l'autre : l'accent méridional est facilement reconnaissable ; des différences plus subtiles permettent de distinguer entre l'accent de Lyon et celui de Grenoble. - Enfin, des variations volontaires dans la manière d'articuler apportent des nuances de sens au message (F6nagy) : la façon dont est prononcée une phrase, avec douceur, gentillesse, froideur ou mépris, joue un rôle important dans les contacts entre humains. Ces variantes peuvent conduire à un changement radical du sens global du message : une hyperarticulation de la consonne /s/, avec allongement et augmentation de l'effort articulatoire, dans l'énoncé elle est sympa, celle là ! signifie que la personne est tout saufsympathique. Le petit d'homme est prédisposé à parler. Le foetus s'imprègne très tôt des sonorités verbales et du rythme de la langue maternelle, qu'il perçoit à travers le liquide amniotique. Le bébé réagit aux contrastes phonémiques de presque toutes les langues du monde et pas seulement à ceux de sa langue maternelle, mais distingue déjà la langue de sa mère des autres langues. Alors que les locuteurs anglais adultes ne font pas la différence entre les occlusives dentales (la pointe ou la lame de la langue fait contact avec les dents) et rétroflexes (la pointe de la langue est dirigée vers le haut et l'arrière de la bouche), ou entre les voisées aspirées et non aspirées de l'hindi (contrastes absents en anglais), les bébés, anglais ou non, perçoivent bien la difTérence. Après les gazouillis des premiers mois, vers six 16

mois, le bébé imite déjà les sons et l'intonation de son entourage (le manque d'un tel don d'imitation serait à l'origine de l'incapacité des singes à apprendre à parler). Des expériences récentes avec des techniques de potentiels évoqués montrent que le cerveau de l'enfant même endormi réagit différemment aux contrastes de sons selon qu'ils sont utilisés dans sa langue maternelle (contrastes phonémiques) ou non. Très vite, le bébé est capable de stocker des formes acoustiques auxquelles il est fréquemment exposé, bien avant de les comprendre. Très tôt, le bébé a une préférence pour les suites de phonèmes couramment attestées dans sa langue maternelle. Vers huit ou dix mois, l'enfant devient progressivement insensible aux contrastes entre sons non pertinents dans la langue de son entourage, retenant uniquement ceux que lui propose la langue maternelle. Les bébés chinois n'ont aucun mal à distinguer entre [do] et [to). [a] et [ka], alors que les Chinois adultes qui apprennent le français ont toutes les peines du monde à entendre la différence entre gteau et cadeau, car ils ont appris à ne pas faire la différence au cours de l'apprentissage du chinois (qui n'utilise pas le trait de voisement de façon distinctive). De même, les bébés japonais perdent progressivement entre huit mois et un an leur sensibilité à la différence entre /l/ et /r/ rejoignant les Japonais adultes qui ont beaucoup de mal à entendre une quelconque différente entre lit et riz. L'expérience linguistique influence profondément la perception des sons (filtrage attentionnel selon J. Werker, réorganisation psychoacoustique autour de prototypes spécifiques de la 17

langue selon P. Kuhl). L'apprentissage d'une langue seconde (à l'adolescence ou à l'âge adulte) demande un effort soutenu pour revenir en deçà du système phonémique de la langue maternelle et apprendre un nouveau système phonémique : celui de la langue étrangère que l'on souhaite apprendre. L'aspirant phonéticien devra lui aussi subir un long apprentissage pour être capable de distinguer tous les types de phonèmes employés dans les langues du monde à partir de systèmes comme l'API (l'Alphabe t phonétique international), tenu à jour par l'Association phonétique internationale (voir tableau 2). L'inventaire des oppositions possibles dans les langues du monde n'est pas achevé, même si la découverte de nouveaux types de phonèmes devient de plus en plus rare. Les résultats récents de la recherche neurologique semblent étayer la théorie innéiste de la faculté de langage, longuement défendue par N. Chomsky au siècle dernier : le bébé humain naîtrait avec la capacité d'acquérir un langage à double articulation, dont seraient privés les autres animaux. Il existe un très grand nombre de ressemblances phonétiques entre les sons des langues du monde entier. Ces similitudes sont dues à la pression des mêmes contraintes dites phonétiques (ou substantielles), imposées par les lois générales de l'acoustique et de l'aérodynamique, par les caractéristiques des systèmes de production et de perception, et par les structures cérébrales communes à tous les hommes, qui génèrent les mêmes capacités cognitives (comme les mémoires à court terme et à long terme et les facultés d'appren18

tissage et de généralisation). Inspirés par les performances de discrimination des sons par les nouveaunés, des chercheurs ont avancé l'idée selon laquelle l'être humain serait muni de détecteurs de propriétés ou de traits, précâblés pour la parole humaine (K. Stevens). La transmission d'informations par l'intermédiaire d'un signal acoustique présente de grands avantages. La parole permet aux interlocuteurs d'être relativement éloignés. Elle demeure utilisable dans un milieu bruyant. Son usage libère la vue et les mains, qui peuvent alors assurer d'autres tâches. C'est également un mode de communication rapide : un locuteur peut produire plus de 30 phonèmes à la seconde, soit plus de 200 mots en moyenne à la minute ; son auditeur peut saisir son message en temps réel. Si des séquences de sons de natu re non linguistique étaient présentées à la même cadence, l'auditeur ne percevrait que du bruit.

19

Chapitre I PHONÉTIQUE ET PHONOLOGIE Phonétique et phonologie (appelée aussi phonétique fonctionnelle) sont deux branches de la linguistique qui ont pour objet l'étude de la face sonore du langage. Le partage des tâches entre phonétique et phonologie évolue, par vagues successives, depuis plus d'un siècle. Au début du siècle dernier, Ferdinand de Saussure (1906-1911) cara ctérisait la langue comme un système dont les éléments se définissent grâce au rapport qu'ils entretiennent entre eux, et insistait sur l'indépendance entre l'étude du système linguistique abstrait (la langue ou forme, le système) et celle de sa réalisation concrète phonétique (la parole ou substance). Après lui, les représentants du Cercle linguistique de Prague (dont R. Jakobson et Troubctzkoy) conseillaient de séparer clairement l'étude des sons, objet de la phonétique, de l'étude du système, objet de la phonologie. Troubetzkoy définissait la phonétique comme « la science de la face matérielle des sons du langage hum ain». La phonologie devait s'intéresser aux seules oppositions phonémiques, au système d'oppositions que connaît une langue. Cette séparation nette entre phonétique et phonologie a eu un retentissement favorable à leur développement séparé. 21

La phonétique a profité de cette coupure pour se rapprocher des sciences de l'ingénieur et des sciences de la vie. Parallèlement, l'attention concentrée sur l'analyse des systèmes linguistiques a permis à la phonologie de réaliser d'incontestables progrès. Certains des travaux les plus marquants sont néanmoins le fruit de la collaboration entre linguistes et ingénieurs. L'ouvrage Preliminaries to Speech Analysis (1951), cosigné par R. Jakobson, G. Fant et M. Halle, marque un tournant dans l'histoire des rapports entre phonologie et phonétique : les traits distinctifs, notion formelle, sont fondés sur leurs propriétés acoustico-pcrccptives, donc sur la substance (chez Troubetskoy également les traits distinctifs sont fondés sur la substance, puisqu'ils étaient décrits en termes articulatoires). La notion de contraintes phonétiques a ensuite été appliquée à la description des règles phonologiques et de la coarticulation ; l'idée de l'arbitraire de la relation entre la nature physique des sons et les systèmes phonologiques est définitivement abandonnée : la forme et la substance se conditionnent mutuellement. Certaines régularités ressortent : la fréquence du choix de //, /al, lu/ dans les systèmes à 3 voyelles, de li/, le/, la/, fol, lu/ dans les systèmes à 5 voyelles (les plus nombreux, 22% des langues de la base de UPSID'). Les langues préfèrent, dans l'ordre : t, m, n, k, j, p, w, s, h dg, 1 g. I. L'UCLA Phonological Segment Inventory Database de l'Université de Californie recense plus de 920 sons de parole différents, plus de 650 consonnes et plus de 260 voyelles dans 451 langues. 22

Phonétique et phonologie parta gent le souci de la définition de l'ensemble des traits constitutifs des phonèmes. Le choix des phonèmes dans les inventaires des langues est-il arbitraire ? Phonéticiens et phonologues se sont intéressés au premier chef aux contraintes, au sens lar ge, qui président au choix des systèmes d'opposition de sons dans les langues du monde et à leur évolution au cours du temps. Jakobson propose une liste d'une douza ine de traits distinc tifs constitutifs des phonèmes. Chaque langue choisirait entre ces traits préexistants. Jakobson privilégie les oppositions acoustiques, envisagées au plan de leur perception par l'auditeur. Dans leur recherche d'explications formelles des alternances observées , Chomsky et Halle' placent à l'arrière-plan la définition substantielle des traits (ceux-ci sont définis de façon essentiellement articulatoire sans détailler leur rapport avec leur implémentation phonétique), optique que prolongent encore certaines recherches actuelles en phonologie. Des contraintes anatomiques sont abordées : la pointe de la langue permet une articulation d'une plus grande préci sion que la racine de la langue : les consonnes sélectionnées par les systèmes sont essentiellement réalisée s avec une constriction dans la partie antérieure du conduit voca l, et la pointe de la langue, très mobile, est particulièrement mise à contribution. Pourtant, dans les années 1970, le débat a été ramené sur les plans perceptif et acoustique. Deux idées majeure s ont été avancées. Prem ièrement, certains phonèmes possé1. The SoundPattern of Eglish, 1968. 23

deraient des propriétés intrinsèq ues et ils seraient choisis en fonction de la stabilité de leurs propriétés aco ustiques, de façon à cc qu'ils ne réclament pas une extrême précision articulatoire, cc qui ne serait pas éco nomique (théorie quantique de K. Stevens). Deuxi èmement, le système phonologique tout entier aurait une influence sur le choix des phonèmes : les sons distinctifs tendra ient à se positionner dans l'espace acoustique de façon à maximi ser leur contraste perceptif (/a théorie de la dispersion adaptive de B. Lindblom). Ces deux théories sont combinées dans celle de la dispersion/focalisation, émise par l'équipe ICP de Grenoble. Troisièmement, certains combinaisons de traits sont évitées dans les langues car difficiles à réaliser par le locuteur et conduisant à des confusions chez l'auditeur. L'étu de des contraintes phonétiques sur l'inventaire des systèmes et sur les changements phonétiques est une des tra ditions de la phonétique (P.-J. Rousselot, K. Stevens, B. Lindblom, J. Ohala). A chaque observation, le phonéticien s'efforce de proposer une explication, la plus plausible possible. Ces contraintes peuvent aller dans le sens d'une sélection dans la suite des phonèmes : les séquences de sons ou les combinaisons de traits difficiles à réaliser tendent à disparaître ou à être remplacées par d'autres. Par exemple, certaines séquences de sons sont plus faciles à prononcer que d'autres (/i/, /u/ sont plus faciles que /tu/, f,,ri/). Les fricatives peu audibles comme le th sourd anglais [ô] 1.

IcP: Institut

de la communication parlée. 24

se maintiennent rarement : l'oreille humaine ne peut pas tout percevoir, dans les conditions acoustiques non idéales qui sont celles de la communication courante. Le nombre de voyelles nasales est toujours égal ou inférieur au nombre de voyelles orales dans une langue : la nasalité rend plus difficile la perception des timbres vocaliques, diminuant le nombre de contrastes faciles à distinguer. Des contraintes visuelles apportent des éléments d'explication à certains faits observés. Les premières consonnes acquises par les bébés sont des labiales (/p, b, ml suivies de /n, t, k, g/), mais pas chez les bébés aveugles, preuve de l'importance de la vision de la face du locuteur. Les explications phonétiques doivent être considérées comme des hypothèses: les tendances observées n'ont pas force de loi. Certaines langues présentent des oppositions phonémiques subtiles, par exemple entre occlusives dentales et alvéolaires. Les caractéristiques phonétiques des sons ne sont pas les seuls facteurs qui président à leur sélection et ne permettent pas de tout expliquer. Les contraintes phonologiques (cognitives), comme la facilité d'apprentissage et de mémorisation, jouent également un grand rôle : elles favorisent une diminution du nombre de traits distinctifs dans une langue et leur organisation en un système économique, symétrique, avec une utilisation maximale des traits choisis'. La prise en compte simultanée des pressions phonétiques et des facteurs cognitifs a permis de grandes avancées dans la compréhension de la typologie des systèmes l. A. Martinet,

Economie des changements phonétiques. 25

voca liques et consonantiques (voir les travaux de P. Beddor, J. Ohala, B. Lindblom et de l'IcP de Grenoble). Exemples d'explications d'asymétries des systèmes phonologiques. Les systèmes phonologiques sont le fruit d'un compromis entre la tendance cognitive en faveur de l'utilisation d'un nombre minimal de traits (d'où une sym étrie des systèmes) et celle des contraintes articulatoires et acoustico-perceptives qui ont tendance à éliminer les combinaisons de traits difficiles à actualiser ou à distinguer. Prononcez un [i] étiré et arrondissez ensuite vos lèvres. Cela se fait sans difficulté et vous entendrez [y] (correspondant au gra phème u). Remarquez maintenant la difficulté que vous auriez à faire le même geste d'arrondissement des lèvres avec la voyelle ouverte /a/! Le jeu des lèvres (étiré/arrondi) est articulatoirement favorisé quand la mandibule est en position haute, et donc pour les voyelles fermées (/i, y, u/). Les propriétés résonancielles du conduit vocal font que les conséquences acoustiques d'un changement de configuration des lèvres sont plus grandes dans le cas des voyelles antérieures de type //. De fait, le contraste li - y/ est le plus attesté des contrastes de labialité. Un second exemple concerne les consonnes. Parmi les constrictives (occ lusives et fricatives), les voisées sont moins fréquentes que les non voisées pour des raisons aérodynamiques : le voisement est défavorisé lorsque la pression intra-orale est élevée ; or celle-ci s'élève en cas de fermeture ou de rétrécissement du conduit voca l. Le voisement est particulièrement défavorisé dans le cas d'une constriction posté26

rieure, où la cavité située en arrière du rétrécissement est difficilement extensible : /g/ est rare dans les langues (mais il peut être maintenu pour des raisons phonologiques, de symétrie du système consonantique, une série /p, t, k/ s'opposant à la série /b, d, gD). Aujourd'hui, phonétique expérimentale et phonologie de laboratoire sont proches. Les modèles théoriques élaborés par les phonéticiens pour expliquer les inventaires des systèmes, modèles qui se fondent sur la substance, sont au moins aussi puissants que les modèles offerts par la phonologie. Le rapprochement entre phonéticiens et phonologues s'est concrétisé depuis plusieurs années par l'organisation régulière de rencontres internationales intitulées « Laboratory Phonology ». Certaines différences subsistent néanmoins entre les approches phonétiques et phonologiques. Le phonologue est généralement guidé par une approche théorique et déductive qui détermine les questions qu'il souhaite soumettre à vérification exprimentale. Le phonéticien est plus dir ectement dépendant de l'expérimentation : ayant d'emblée à l'esprit l'exigence de tester ses hypothèses par des expériences reproductibles, il a tendance à réduire fortement le champ de ses recherches ; en outre, son attention se porte sur le détail des données qu'il recueille, qui ne renseigne pas directement sur les catégories linguistiques, mais peut contribuer à la compréhension des nombreuses forces qui s'exercent à tout instant sur le système linguistique. Une tendance centrifuge pousse, en outre, le phonéticien à rechercher des explications possibles dans la phylogenèse, l'ontogenèse, la socio27

logic et l'ethnologie ou la psychologie, alors que la phonologie se veut plus proche des sciences cognitives. Il est donc plus que jamais nécessaire que les phonéticiens et les phonologues se comprennent mutuellement, cc qui représente un défi permanent.

28

Chapitre Il

LES BRANCHES DE LA PHONÉTIQUE La phonétique articulatoire et l'orthoépie figurent parmi les branches les plus anciennes de la linguistique. Le gramm airien hin dou Panini avait offert, au vr siècle de notre ère, une description détaillée de l'articulation des sons du sanskrit, dans le but de fixer la prononciation correcte des textes religieux. L'élargissement du champ de questionnement de la phonétique, au-delà de ses aspec ts articulatoires et orthoépiques, fut lié en grande partie à l'émergence de nouvelles techni ques d'exploration. En retour, l'application des savoirs phonétiques a également enrichi les problématiques de recherche en phonétique. Enfin, un facteur considérable d'élargissement tient à la volonté des sciences du langage d'aborder désormais les phénomènes linguistiques dans l'intégralité de leur champ cogni tif et d'élargir l'étude de la langue à celle des usages et du comportement des usagers. Trois types d'approches phonétiques peuvent être distingués : taxi nomique, expérim entale et appliquée, si l'on exclut d'emblée la phonologie, qui traite de l'architecture des représentations linguistiques sousjacentes à la forme sonore du langage, et la phoné tique historique (cette disci pline, brièvement évoquée 29

en introduction, étudie l'évolution et la classification des langues, et reconstruit, par la comparaison des parlers attestés, les états passés des langues). Jusqu'au XIX' siècle, la phonétique articulatoire était d'essence descri ptive et taxinomique. Elle consistait à décrire, à représenter et à classer les faits, sans rechercher d'explications. La phonétique expérimentale est née au milieu du XIX' siècle, de la rencontre entre les aspirations de la linguistique historique à élucider le pourquoi des changements de sons, d'une part, et des sciences naturelles, comme la médecine, la physique, la botanique, l'anthropologie et l'acoustique, d'autre part : la description des faits observables (dans l'étude de la langue, comme dans d'autres domaines de la science) ne constitue qu'une première étape, en deçà du stade explicatif. L'abbé Rousselot a essayé de reproduire en laboratoire le mécanisme des changements phonétiques. La phonétique expérimentale aspire à expliquer, sur la base d'expériences scientifiques reproductibles faites à l'aide d'instruments plus ou moins sophistiqués, ou de statistiques sur de grandes bases de données, toutes les manifestations sonores observées. Enfin, l'aspect appliqué de la phonétique est omniprésent et il est revendiqué par la plupart des phonéticiens : établissement de normes de prononciation des textes sacrés dès l'Antiquité, aide à l'apprentissage d'une langue seconde (l'Association phonétique internationale était à son origine, à la fin du xpx° siècle, une association d'enseignants de langues), contribution aux enquêtes juridiques qui nécessitent l'identification d'une voix enregistrée, technologies vocales et 30

aides aux handicapés, et plus récemment application dans le domaine clinique. Branche des sciences du langage, la phonétique se situe au carrefour des sciences de l'homme, des sciences de la vie, et des sciences physiques. Les connaissances phonétiques sont des éléments indispensables à l'audiologie, à la psychologie expérimentale, aux tech nologies vocales, et au traitement du signal de parole. Si le nombre de phonéticiens professionnels n'est pas en augm entation, les disciplines qui traitent des questions traditionnelles de la phonétique connaissent une expansion vigoureuse. On distingue couramm ent plusieurs bran ches de la phonétique : La phonétique générale, qui, comme la linguistique, recherche des tendances universelles dans les langues particulières, en particulier sur des bases typ ologiques et par la comparaison des données disponibles sur l'acquisition de la langue maternelle dans différents groupes. La phonétique articulatoire et physiologique, proche de l'anatomie et de la physiologie, étudie la production de la parole et les organes de la phonation et de l'articulation (voir le chap. IV). La phonétique perceptive (auditive), proche de la physiologie, de la psycholinguistique, de la psychologie et de la psycho-acoustique, s'intéresse à la réception des sons de parole par l'appareil auditif et leur identification. La phonétique a largement contribué à l'établissement des mesures audiométriques (voir le chap. VIII). 31

La phonétique acoustique, proche de la physique et de l'aérodynamique, étudie les propriétés acoustiques des sons (voir le chap. V). Les études prosodiques se sont fortement développées dans la sec onde partie du siècle dernier, sous la pression des besoins de la synthèse de la parole et de l'élargissement du champ de la linguistique. Elles occ upent actuellement le devant de la scè ne dans les congrè s internationaux de phonétique. Le champ des études prosodiques est très vaste : de la phonosyntaxe, qui étudie les liens entre la prosodie et la syntaxe, à la phonostylistique, qui étudie « les valeurs expressives de la langue exprim ées par les sons de parole», la voix du poète, celle de l'acteur ou du politicien, en passant par l'étude de la fonction identificatrice (aspec ts caractérisant le locuteur, tels que son origine sociale, son âge, sa personnalité) par la fonction expressive (expression des attitudes personnelles et interpe rsonnelles) ou encore appellative (procéd és qui servent à susciter certains sentiments chez l'auditeur, comme la compassion) et par l'analyse du discours et des marqueurs discursifs. La psychophonétique s'intéresse, entre autres, aux sensations évoquées par les sons et la suite des sons. li/ évoquerait la couleur jaune et /r/ serait perçu comme plus bagarreur et masc ulin que /1/ par des auditeurs de diverses langues' (voir le chap. IX). La phonétique orthophonique (rééd ucative) et didactique étudie les moyens de corriger les défauts de prononciation chez l'enfant (15 à 20 % des enfants fran• I. Fnagy, La Vie Voix. 32

çais en bas âge fréquentent le cabinet d'un orthophoniste) et chez l'apprenant d'une langue étrangère. Une formation plus poussée aux nouveaux outils de la phonétique, offerte aux orthophonistes et aux futu rs professeurs de langues, permettrait d'améliorer grandement certaines rééducations et apprentissages, et aurait à n'en pas douter des retombées pour la recherche fondamentale. La phonétique développementale, proche de la psycholinguistique, s'int éresse aux réactions du fœtus à divers stimuli sonores, aux proce ssus d'acquisition (pe rception et production) des caractéristiques segmentales et prosodiques de la langue maternelle par le bébé puis par l'enfant, monolingue ou bilingue. Les technologies vocales reco uvrent essentiellement les dom aines de la synthèse, de la reconnaissance automatique de la parole et du dialogue homme-machin e, de l'identification du locuteur ou de la langue par un ordinateur. Les premières équipes d'ingénieurs qui se sont consacrées à cette tâche comprenaient des spéc ialistes de la communication parlée ; les modèles statistiques ont ensuite pris le pas sur les méthodes analytiques dans le domaine de la reconnaissance automatique de la parole, et la syn thèse par concaténation a détrôné la syn thèse à formants qui nécessitait un grand savoir-faire phonétique. Mais la synthèse par concaténation rencontrant certaines limi tes quant au caractère natu rel du résultat obtenu, et les méth odes statistiques en reco nnaissance de la parole ayant sans doute atteint leurs limi tes, les spéc ialis tes sont de nouveau en quête de connaissan ces fondamentales qui 33

puissent être intégrées aux outils logiciels ; cependant, peu de chercheurs possèdent la triple compétence nécessaire (traitement du signal, statistiques, phonétique) et une réorganisation de l'enseignement de la phonétique au sein des disciplines universitaires semble nécessaire. La neurophonétique se situe au carrefour des sciences cognitives, de la neurologie et de la linguistique. Les techniques d'imagerie médicale et les potentiels évoqués permettent désormais de comparer les niveaux d'activation dans les différentes zones cérébrales durant la perception de la parole et de compléter ainsi les données fournies par la pathologie (étude des dysfonctionnements langagiers chez les cérébrolésés, par exemple, dans la lignée des travaux du neurologue Paul Broca au milieu du xtx siècle, suivis de ceux de Carl Wernicke). Les données médicales révèlent une très forte variabilité individuelle et une grande faculté d'adaptation des cellules nerveuses cérébrales, qui se réorganisent au cours de l'apprentissage ou en cas de lésion. Il paraît cependant établi que la compréhension littérale d'un énoncé active plus fortement l'hémisphère gauche, tandis que l'interprétation de la prosodie émotionnelle serait plutôt traitée dans l'hémisphère droit (de même que la musique). La phonétique clinique se situe au carrefour de la linguistique et de la médecine. La pathologie de la parole a été une source traditionnelle de connaissances phonétiques. Les récents progrès de la médecine dans le traitement des cancers ORL permettent dans certains cas de prendre en compte, au-delà de leur survie, la 34

qualité de vie des patients opérés et interrogent la phonétique sur l'impact de certains gestes chirurgicaux. De même, les avancées en matière d'implants cochléaires ont affiné la problématique sur le codage des sons au niveau du nerf auditif. La collaboration entre phonéticiens et cliniciens est également indispensable à la mise en place d'un grand nombre d'expériences qui se réalisent avec du matériel médical et grâce à des banques de données de mesures physiologiques. La phonétique statistique ou computationnelle est en pleine expansion. Les statistiques, qui tiennent désormais une place de choix dans de nombreuses technologies vocales, en viennent à être intégrées dans les théories linguistiques. Le rendement fonctionnel des oppositions phonémiques et des proce ssus morphophonologiques a une importance reconnue dans l'évolution des langues. La puissance toujours croissante des ordinateurs, jointe aux progrès dans les techniques de stockage du signal, permet d'accumuler d'énormes corpus de parole, lue et spontanée. Des base s de données, en partie étiquetées, sont désormais disponibles pour les grandes langues (en pratique les langues nationales), sont diffusées par LOC (Language Data Consortium ) aux États-Unis et par ELRA (Europcan Language Resource Agency) en Europe. La documentation des langues rares et menacées bénéficie également des nouvelles technologies : le site Archivage du LACITO (Langues et civilisations à tradition orale) met librement à disposition des enregistrements de langues peu connues, transcrits sur le terrain en accord avec les locuteurs, et enrichis d'une annotation détaillée, 35

afin que ces documents soient accessibles à la communauté scientifique. Dans le cas des nombreuses langues menacées de disparition dans les prochaines décennies, les données recueillies par les linguistes représentent, en outre, un patrim oine linguistique et culture l, dont les techniques numériques permettent d'assurer une conservation théoriquement infi nie. Il reste beaucoup à faire : l'état actuel de la docum entation en phonétique est en deçà des possibilités techniques. Les évolutions futures permettront sans doute que les chercheurs (débutants ou confirmés) aient accs aux données sur lesquelles reposent les publications, et puissent ainsi porter un regard plus informé sur les théories et modèles linguistiques qui leur sont proposés sur la base de langues dont ils ne sont pas fa. miliers. Faute d'accès aux données, il y a risque d'incompréhension entre chercheurs. F. de Saussure enseignait que le lingui ste doit connaître le plus grand nombre de langues possible ; du fait de la spécialisation croissante de chacun, seule une minorité des chercheurs concernés par la phonétique possède une familiarité de première main avec un grand nombre de langues ; la qualité et l'abondance des ressources partagées sont donc cruciales pour que les recherches aient une ouverture suffisante sur la variété des langues, et s'inscrivent dans une logique cum ulative. Dans le cas du français, un projet international en cours, « la phonologie du français contemporain : usages, variétés et structures », vise à mettre à la disposition de tous les chercheurs une banque de données transcri te d'échantillons de français parlé. 36

Chap itre III

LES OUTILS DE LA PHONÉTIQUE Les méthodes d'enquête et d'analyse sont essentiellement les mêmes pour toutes les langues, qu'il s'agisse de langues jusque-là non décrites ou d'une variété (régionale, sociolinguistique ...) d'une langue dont d'autres variétés sont abondamm ent décrit es' . De longs mois sont parfois nécessaires pour établir le système phonologique d'une langue non étudiée jusque-là. L'alphabet phonétique international (API), imaginé par O. Jespersen en 1886, est un système de notation mis au point à la fin du XIX" siécle par un groupe d'enseignants de langues pour répondre à un besoin de transcription phonétique dans le cadre de l'apprentissage des langues. L'API est un instrum ent qui demeure perfectible, mais présente l'avantage décisif de pouvoir être utilisé dans la description de toutes les langues, ce qui facilite l'accès aux études consacrées aux langues les plus variées. Les deux principes de base de l'API sont les suivants: a) un son distinctif dans une langue est représenté par un seul symbole. Le «r bourguignon » (la pointe de la langue vibre contre les alvéoles den1. A. Martinet, La description phonologique.

37

taires ), la réalisa tion pharyn gale dans le français parisien (dans rare), vélaire (rourou), ou plus palatale (riri), accompagnée (ara) ou non de vibrations des plis vocaux (tra), avec et sans bruit de friction, sont tra nscrits phonologiquement par un seul et même phonème /r/ en français car la substitution d'un son à l'autre n'est pas distinctive (clic ne peut servir à distinguer entre deux mots français). [p] et [p"] sont deux allophones du même phonème /p/ en anglais, mais représentent deux phonèmes en hindi, /p/ et /p/, etc. ; b) un même symbole phonétique doit représenter, dans les diverses langues où il est utilisé, des sons de timbre identique ou proche. Cc principe n'est pas toujours appliqué avec rigueur, le souci de simplicité typographique conduisant à des compromis : les mêmes symboles /a/, /e/, /il, fol et lu/ sont abondamment utilisés pour décrire les voyelles dans les langues à cinq voyelles, bien que les timbres diffè rent. L'API est également utilisé pour établir des transcriptions phonétiques fines, que l'on représente entre crochets. 76 signes diacritiques (point, accent, sym bole quelconque) servent à noter des variations subtiles dans la réalisation des phonèmes. Par exemple, ["] indique le fait que la réalisation de /r/ est postériorisée et arrondie, et [iY) note, l'antériorisation de /u/. D'autres conventions de transcriptions complètent l'API pour l'annotation d'événements prosodiques (tons, allongements, qualité de la phonation, etc.). 38

L' oreille reste l'instrum ent principal du phonéticien. Une analyse acoustique des faits segmentaux ou prosod iques, aussi fine et étendue soit-elle, ne permet pas de tirer des conclusions sur le fonctionnement d'une langue : des expériences de perception avec des auditeurs natifs de la langue sont toujours nécessaires pour vérifier le rôle de chaque indice ; les variations observées au plan acoustique peuvent ne pas être perçues. De même, pour des études quantitatives, on a recours aux enregistrements sonores afin d'examin er le fondamental et le spec trogramme (fréquence des fonnants, durée ...). Des détecteurs automatiques de la fréquence du fondamental et des programmes pour faire des spec trogrammes sont disponibles sur Internet. La représe ntation spect rogra phique et l'éco ute des segm ents isolés sont devenues indispensables pour une transcription phonétique fine et une étude quantifiée des différentes réalisations de chaque phonème. Par exemple, l'arrondissement relatif de la consonne /s/ dans le mot structure par rapport au mot stricture ressort nettement d'une écoute séparée du bruit de friction de l'une et l'autre consonne, écoute « analytique » que permettent les logiciels d'analyse du signal acoustique ; des photographies frontales et latérales des lèvres permettent d'évaluer les modifications articulatoires, dont les effets acoustiques peuvent être relevés sur le spec trogramm e ; et l'ensemble peut être modélisé à l'aide d'un modèle articulatoire, comme celw de S. Maeda, qui permet de créer des sons synthétiques équivalents. 39

La syn thèse de la paro le {syn thèse à formants, syn th èse articulatoire) est un excellent test des modèles proposés. Une transcription (phonétique ou prosodique) doit contenir les informations nécessaires et suffisantes pour recréer en syn thèse les contrastes ou les nuances distinctives pour les natifs de cette langue. La synthèse à fonnants, dans laquelle l'ordinateur reproduit la par ole à partir des fréquences de fonnants indiquées par l'expérim entateur (voir chap. V), démontre que deux fonnants ne suffisent pas pour reproduire le timbre exact des voyelles antérieure s, établissant que la prise en compte du troisième formant est nécessaire pour les langues qui connaissent des contrastes entre voyelles antérieures arrondies et non arrondies {comme le français, le suédois et l'allemand). De même, les timbres créé s par synthèse articulatoire, reposant soit sur des indications données à un ordinateur sur la position des organes de la parole, soit encore à partir d'un schéma simplifié du conduit vocal , montrent l'importance du jeu de com pensation entre les lèvres et la langue, ainsi que celle de l'amplitu de relative des fonnants pour le timbre vocalique. Ils suggèrent de suppléer l' API par un nouveau type de transcription phonétique transcription fondée uniformément sur les propriétés acoustiques du signal', alors que les traits classiques reposent sur des propriétés acoustiques {ex. strident), articul atoires {labial, dorsal ...), ou les deux à la fois (voisé, sonoran t, aspiré ...). l. Système en cours de déve loppement par J. Visière . 40

Fr4Hz)

F1 F2 F3 F4 F5

402 1455 2352 3621 4211

Frq(Hzl F1 402 F2 1424 F3 2290

F4 3683 F 3869 Fig. I.- Le jeu des lm-es permet de compenser dans une grande mesure la position de la langue. Une voyelle palatale arrondie (haut) est acoustiquement très proche d'une voyelle plus postérieure non arrondie (bas), qui, si elle est arrondie, aboutit au son lu! français (modèle articulatoire).

L'étude de la face parlée d'une langue ne peut se faire que sur la base d'une connaissance de cette langue dans ses diverses dimensions. Une analyse adéquate des systèmes phonémiques, vocalique et consonantique, d'une langue peut être réalisée par une enquête (approfondie) sur le lexique par un enquêteur dont ce n'est pas la langue maternelle. Il a à sa disposition un ensemble de méthodes bien établies par la phonologie. Il est, en revanche, témérair e de se lancer dans la descri ption du système prosodique d'une langue non

maternelle : un détail acoustique peut être porteur d'une information pour les natifs de la langue et échapper à la vigilance du non-natif ; il est nécessaire de replacer la portée de tout fait prosodique observé au sein du paradigme de l'ensemble des procédés offerts par la langue (morphologique, syntaxique, etc.). Les prises de données spontanées sont désormais grandement facilitées. La parole est un phénomène complexe et il est nécessaire d'étudier chaque phénomène sous plusieurs angles. Les expériences en laboratoire permettent de recueillir plusieurs types de données à la fois, et d'utiliser une instrumentation sophistiquée, dans des conditions bien contrôlées ; des études sur le terrain permettent de recueillir des données de première main dans la parole spontanée de langues peu accessibles dans des conditions naturelles. Les performances des appareils d'enregistrement ne cessent de s'améliorer et leur miniaturisation rend possible leur utilisation hors les murs du laboratoire (ce qui ne dispense bien sûr pas l'enquêteur d'une formation à la prise de données). Les enregistrements audio peuvent être complétés sur le terrain par des prises de données aérodynamiques (débit d'air et pression), palatographiques, glottographiques, vidéographiques. Les laboratoires disposent de programmes de saisie des déplacements de marqueurs placés sur le visage du locuteur ou sur des articulateurs et d'autres méthodes non invasives (ultrasons, etc.). Certaines données concernant la production et la perception ne peuvent être prises qu'en milieu hospitalier : mesures électromyographiques (pour étudier l'activité électrique des 42

nerfs et des muscles liés à la production de la parole), cinéradiographiques, échographiques. L'Imagerie par résonance magnétique (IRM), la trans-illumination du larynx, l'imagerie cérébrale fonctionnelle, l'électroencéphalographie (EEG) et la magnéto-encéphalographie (MEG) peuvent être également utilisées. Quel que soit le type de données, il est rare que l'on puisse désormais les traiter sans avoir recours à l'outil informatique. Les bases de données et les statistiques sont devenues des outils essentiels. Enfin, signalons qu'Internet est devenu un outil qui permet à tous les chercheurs de se tenir informés au jour le jour, tant en matière de bases de données et de projets que de publications, et d'analyser perceptivement les constrastcs de sons de différentes langues et d'en faire une étude acoustique. Il convient toujours de relativiser la portée des résultats expérimentaux obtenus. Le type de corpus étudié (récits, descriptions d'images, dialogues spontanés ; mots isolés, textes lus), le choix des locuteurs, les conditions d'enregistrement (contexte, consignes fournies aux locuteurs) ont des conséquences sur les résultats obtenus ; la plus grande prudence est de mise avant toute généralisation.

43

Chap itre IV

LES ORGANES DE LA PAROLE La phonétique articulatoire est la branche la plus ancienne de la phonétique. Dès la fin du XIX' siècle, l'introspection a été complétée par la palatographic statique'. Les études sur les phénomènes dynamiques et la coarticulation n'ont véritablement débuté qu'au XX" siècle par la mise à disposition d'un certain nombre d'inventions : radiographie, électromyographie (1929), spectrographie (1941), cinéradiographie (1954), palatographie dynamique, mesures aérodynamiques, K-ray Microbeam System (créé par O. Fujimura), articulatographe électromagnétique. Plus nouvellement les caméras ultrarapides et I' IRAI en trois

dimensions apportent de précieux renseignements sur la position et l'activité des articulateurs. Enfin, la synthèse articulatoire permet à clic seule de faire le lien entre l'articulation, l'acoustique et la perception, et la modélisation est devenue la principale source de progrès dans le domaine de la phonétique articulatoire. I. Voir les travaux de l'abbé Rousse lot, et ceux de Marguerite Durand . 45

COllpC' lllplalede la rare d du CD11. compc:1'WSt bprincip:iu• arpna qui p•dc:;p.. i lllproductionde- laparoac. PlancbodC' Tcstut (1119: TrlllN J'atWrt Ol#l rh....., ûv ) lltilWep.rabW RCU,M'lotct..aonlivrchilfff,a '6,'-""'tw ~ ,(1197 -1,oe:

2. 5. .

A. Fo.c naat, 4rvitc. - Il. Cuit~ liauak; ,. Vntibuk; r. Rftioa ,ubliap&lc. C. Plaa,yu MA&! ; C. Phuyu. bacul.- D.Œtopbast, -· E. La ,yu . - 1-·. Tr...cblc,an.bt. r. Nuiais drvi w. - ~- Conxt 111pirinu. -- J• . Cornn l!IO)"t'n, -•· Cona1_~Uriir11r. -

:.2± ±7.±%3± %±

,=± 0

- 10. fonnu dc ,ou1n"Olllltt. - u. \'oilc da ~ 11 cc 7ucuc.- u. M11,ac11Mlins-l•: u'. for. a. ccnir.a.- lJ , Scr, u11n linJuJ,- ,4.)fow.lc a'-uio-;;l01M. -11. M1u,clc jl■lo-

46

L'homme parle avec des organes dont la fonction principale n'est pas linguistique. Pour produire du sons, l'homme utilise les poumons, le larynx, la langue, et le voile du palais ; la fonction première des poumons est respiratoire (l'oxygénation du corps), celle du larynx est la protection des voies respiratoires, chez l'homme comme chez l'animal ; la fonction principale de la langue est de participer à la mastication et à la déglutition. Le singe possède une morphologie comparable. Phylogénétiquement, l'émergence de la faculté créative de langage chez l'homme est sans doute liée à l'accroissement de ses capacités cognitives et des aires cérébrales de Broca et de Wericke, et non au développement de son tractus vocal, même si la position verticale basse du larynx chez l'homme adulte facilite grandement la mobilité de la langue (chez le bébé et chez divers mammifères, un larynx élevé permet de respirer et de boire simultanément). La principale différence entre le singe et l'homme est le degré plus élevé de développement du cortex chez ce dernier. Il s'est révélé impossible d'enseigner la parole à un singe, même si certains chimpanzés (avec lesquels nous partageons 99 % de nos gènes !) arrivent à maitriser le sens de quelque 150 mots. L'acte d'énonciation peut se décomposer en plusieurs phases : une phase psychique, celle de l'intention de parler; une phase linguistique avec la sélection, dans le lexique, des mots qui correspondent à l'intention de la communication, l'arrangement de ces mots selon les règles de syntaxe de la langue, et le choix d'une prosodie appropriée à l'intention globale 47

du message ; une phase physiologique avec l'activation des muscles des poum ons, du larynx, de la langue, des lèvres et du voile du palais, qui se traduit par la production de la par ole ; et une phase acoustique.

/

L. -

pin ±

i

1

Fig. 2.- Représentation schématique des organes dits « de la parole »

La production de la parole implique trois processus principaux : la respiration, la phonation et l'articulation (voir figure 2). Les organes dits «de la parole » sont généralement classés en trois types en fonction de leur rôle dans la génération de la parole : (i) les muscles respiratoires qui créent le flux d'air égressif nécessaire à la phonation, (ii) les organes phonatoires qui créent le bourdonnement laryngal, et (iii) les organes articulatoires qui filtrent ce bourdonnement (le signal de source) et créent les différents sons successifs (voir figure p. 60). 48

La composante sous-glottique (les poumons, les bronches, la trachée et les organes respir atoires) joue le rôle d'une soufflerie. Durant la respiration normale, l'inspiration et l'expiration sont de durée proche (respectivement, 40 et 60 %). Lorsqu'il a l'intention de parler, le locuteur inspire un volume d'air plus important et en un temps plus court que pour une respiration normale. L'expiration, pendant laquelle il émet des sons, sera souvent dix fois plus longue que l'inspiration. Le mouvement de la cage thoracique et du diaphragme comprime l'air des poumons comme le piston d'une pompe à vélo, créant ainsi une surpression sous-glottique nécessaire à l'expiration d'un courant d'air. Les forces musculaires actives (de la cage thoracique, du diaphragme et de l'abdomen), jointes à des forces élastiques passives (la propriété élastique des tissus), tendent à maintenir une surpression sousglottique relativement constante, entre 6 et I0 cm H,O (qui décroît parfois légèrement au cours de l'émission de la parole). Le débit d'air moyen durant la parole est peu élevé: de 100 à 300 ml d'air par seconde. Les sons les plus économiques en termes de consommation d'air totale sont les occlusives voisées (50 ml) et les voyelles, puis les fricatives voisées (75 ml). Les occlusives sourdes consomment 80 ml et les fricatives sourdes 100 ml (R. Lass). La seconde étape est la phonation. La phonation transforme le courant d'air qui sort des poumons en un bourdonnement. L'air expiré des poumons passe à travers la trachée et atteint le larynx. La figure 3représente le larynx, qui forme l'extrémité supérieure de 49

la trachée, et présente différentes configurations de la glotte (commentées plus bas) .

@@. «@» b)

a)

tD. 4 d)

c)

Fig. 3. - En haut :

la partie supérieure de la trachée, le larynx, les plis vocaux, la glotte et les aryténoides. En bas: a) respiration, b) inspiration profonde, c) phonation et d) chuchotement (d'aprà Farsworth en haut et Perkopf, 1952).

Le larynx est saillant chez les hommes adultes (la « pomme d'Adam»). Dans le larynx, se trouvent les plis vocaux (improprement appelés des « cordes vocales » par une fausse analogie avec les instruments de musique), deux muscles vibratiles recouverts d'une 50

membrane muqueuse, qui s'insèrent entre le carti lage thyroide, qui les protège, et deux cartilages mobiles (les aryténoides), qui permettent de modifier leur longueur et leur écartement. L'espace entre les deux plis vocaux s'appelle la glotte. S'ils sont écartés (glotte ouverte), le flux d'air continu passe librement (comme pour les sons sourds [p, t, k, f, s, j]); si les plis vocaux sont fortement resserrés, il est bloqué ; si les plis vocaux sont mollement accolés (comme c'est le cas pour la plupart des sons de la parole), le flux d'air les met en vibration, vibration qui découpe le flux d'air en un train discontinu de bouffées d'air. Les plis vocaux jouent dans cc dernier cas le rôle d'un oscillateur. Phylogénétiquement (i) les plis vocaux assurent une fonction de sphincter qui protège les voies respiratoires de la descente des aliments dans les poumons et permet aussi une pressurisation des poumons dans le cas d'un effort, et (ii) le degré d'ouverture de la glotte contribue à réguler la respiration. Les plis vocaux sont longs de 3 mm chez le nouveau-né, de 10 mm à la puberté, et augmentent de 5-10 mm chez l'homme adulte et de 3-5 mm chez la femme. La plupart des sons du langage sont donc voisés, produits avec la participation des plis vocaux. Posez la paume de votre main sur votre gorge et prononcez [a], [z] et [s]. Sentez les vibrations pour les deux premiers sons, et notez l'absence de vibrations pour le dernier. Si vous répétez ce test pour tous les phonèmes du français, vous vous apercevrez que la majorité des sons est accompagnée de vibrations, sauf /p, t, k, f, s, f/. La pression sous-glottique est d'environ 51

8-10 cm HO pendant la parole. Pour entrer en vibration, les plis vocaux s'accolent par un pivotement des cartilages aryténoides. Il suffit d'une pression transglottique de 3 à5 cm d'eau pour les mettre en vibration, et une pression de 1 à 2 cm d'eau pour les y maintenir. L'occlusion des consonnes occlusives /b, d, g/ ou le resserrement au niveau du conduit vocal pour les fricatives /v, z, 3/, ou encore la réalisation des voyelles très fermées /i, y, u/ augmente la pression intra-orale, diminue la pression transglottique et en conséquence entrave la vibration des plis vocaux ou retarde leur mise en vibration, d'où la tendance naturelle au dévoisement des voyelles fermées - obligatoire en japonais lorsque la voyelle est encadrée entre deux consonnes sourdes - et contribue à l'affrication des occlusives dentales qui les précèdent en français canadien : ta pt'ite voit'ure.

2/3 2/ 2 % 72%235 Fig. 4. - Un cycle de vibration des plis vocaux (d après Hirano, 1981)

Au départ du cycle, les plis vocaux sont mollement resserrés (a). Sous la poussée du flux d'air, la pression sous la glotte fermée augmente (b), les plis vocaux 52

sont portés vers le haut, leur aire de contact diminue ils finissent par s'écarter et l'air s'échappe ( L'échappée de l'air crée une zone de dépression entre les deux plis vocaux et leur myoélasticité les rapproche par le bas (d). Ils se referment alors brusquement (e), comme une porte qui claque à cause d'un courant d'air ; le passage de l'air est bloqué, la pression sous les plis vocaux augmente (f) et finit par les séparer (g), de sorte que le cycle recommence. La qualité de la fermeture est garante d'une voix efficace et du renforcement de l'amplitude des harmoniques dans les moyennes et hautes fréquences. Cette qualité détermine la qualité de la phonation. La fréquence moyenne de vibration des plis vocaux dépend de l'individu. en particulier de la masse de ses plis vocaux, liée à l'âge et au sexe. Ils vibrent en moyenne 120 fois par seconde chez l'homme adulte, 240 fois chez la femme, 350 chez l'enfant, 400 ou plus chez le nouveau-né. Avec l'âge, la voix de la femme devient plus grave et celle de l'homme plus aiguë. . Un locuteur peut augmenter (et diminuer) volontairement la fréquence de vibration des plis vocaux durant la production des voyelles et des sonates. Dans la parole courante, l'effort se situe essentiellement au niveau du larynx : le rythme de vibration est essentiellement contrôlé en contrôlant la raideur des plis vocaux. Il existe un second procédé : une augmentation de l'effort articulatoire, utilisée dans la réalisation accents d'insistance et dans certaines pathologies. L'élévation de la pression sous-glottique qui en résulte

e).

des

53

augmente l'amplitude des mouvements des plis vocaux, donc l'intensité physique des sons et la fréquence de vibration des plis vocaux. La figure S schématise quelques positions caractéristiques de la glotte durant les sons de la parole. Lors d'un coup de glotte, les plis vocaux sont raccourcis et fortement resserrés ; ils le sont mollement et vibrent durant la phonation ; ils sont modérément écartés pour la réalisation des sons sourds et fortement écartés pour celles des sons aspirés. Certaines langues utilisent plusieurs qualités de phonation, et joue sur les gestes d'ouverture et de fermeture de la glotte. La figure S illustre le schéma simplifié de la glotte, le débit d'air volumique et la forme du spectre du bourdonnement résultant.

Amr·À"or

I-.l. Fréquence (échelle logarithmique) Fig. 5.- Voix modale, breathy et creaky (adapté d'une figure de K. Stevens)

54

Durant la phonation modale, le temps d'ouverture est plus lent que celui de la fermeture. La pente spectrale (voir chap. V) est de - 12 dB par octave à la source. En revanche, dans la voix soufflée, la fermeture de la glotte est souvent incomplète, et moins rapide qu'en voix modale, de sorte que le mouvement des plis voca ux est plus sym étrique ; la conséquence aco ustique est que la pente spec trale est plus forte, c'est-à-dire que les harmoniques supérieurs sont de moindre amplitude. Dans le cas de la voix craquée ( creaky), les aryténoïdes sont resse rrés, et les plis vocaux ne peuvent vibrer que sur une partie de leur longueur. Les moyennes et hautes fréquences sont renforces; la fermeture glottique est particulièrement efficace. Comme pour tout tra it phonétique, il y a deux types d'utilisation des différents états de la glotte, distinctive vs phonétique (sociolinguistique, par exemple). Dans les langues à registre de quali té de voix, telles que le môn (famille môn-khm er), deux mots peuvent s'opposer par le mode de vibration des plis voca ux, la séquence des phonèmes étant par ailleurs la même : voix modale (normale, non marquée) dans un registre, soufflée (breathy) dans l'autre. La troisième étape est l'articulation, qui transforme la voix en parole. Le bourdonnement créé par les vibrations des plis voca ux est filtré dans les cavités supraglottiques, qui jouent le rôle de cavités de résonance (ou résonateurs). Ce sont essentiellement: les cavités pharyngo-laryngienne, buccale et nasale. Les qualités résonancielles sont modifiables par l'intervention de la mandibule, de la langue, des lèvres et du 55

voile du palais, ainsi que par l'avancement ou la rétraction de la zone pharyngienne (plus ou moins utilisée selon les langues) et la hauteur du larynx. Ceux des harmoniques du bourdonnement qui sont en accord avcc des résonances naturelles des résonateurs (ou pôles dans la fonction de transfert, qui définit la relation entre la sortie et l'entrée du conduit vocal) se trouvent amplifiés, et les autres amortis (voir le chap. IV). La parole correspond à un mouvement alternatif d'abaissement et d'élévation de la mandibule et de la langue (F. de Saussure), se produisant toutes les 120 ms en moyenne. Le mouvement d'abaissement est essentiellement lié à la réalisation d'une voyelle, celui d'élévation à celle d'une consonne. Le degré de constriction permet de distinguer : les consonnes occlusives, les fricatives, les semi-consonnes, les voyelles fermées, semi-fermées, semi-ouvertes et ouvertes. Un abaissement de la mandibule permet une plus grande précision des mouvements de la langue, d'une part, et une augmentation de la fréquence du premier formant, donc de l'intensité physique, d'autre part, et clic accompagne souvent la réalisation des voyelles accentuées.

56

Chapitre V

LE SIGNAL DE PAROLE ET LA PHONÉTIQUE ACOUSTIQUE

La phonétique acoustique étudie les propriétés physiques du signal transmis de la bouche du locuteur au tympan de l'auditeur. Nous exposerons ici quelques connaissances sur l'onde sonore en général, puis sur le signal de parole, qui a la particularité d'être produit par un conduit vocal humain. Le physicien et physiologiste H. Helmholtz (1867) a établi les bases scientifiques de l'analyse du signal et de sa perception. A la fin du XIX' siècle, la transformée de J. Fourier, fonction mathématique découverte par le baron du même nom, permet de décomposer toute onde, aussi compliquée soit-elle, en une suite d'ondes élémentaires sinusoïdales différant par leurs fréquence, amplitude et phase. L'invention du téléphone (1876), du microphone (1878), du magnétophone (1948), du spectrographe (1941), puis dans les années 1960 le développement des technologies vocales (synthèse à formants de la parole automatique en 1960, reconnaissance de la parole dès 1952 et traitement du signal sur ordinateur) ont marqué l'entrée en force de l'aspect acoustique dans les études phonétiques, et la description des phénomènes de coarticula57

tion. En 1952, un article de Peterson et Barney sur les voyelles de l'anglais illustre de façon magistrale la relation entre le timbre perçu des voyelles et la valeur de leurs trois premiers formants, ainsi que la variabilité acoustique des productions vocales des hommes, femmes et enfants. A la même époque apparaissent les Preliminaries sur les corrélats acoustiques des traits distinctifs, dont l'inventaire, très réduit, permettrait de caractériser toutes les différences distinctives utilisées par les langues du monde. En 1960, le livre Acoustic Theory of Speech Production de G. Fant, dans la lignée de travaux de Chiba et Kajiyama (1941), explique de façon très détaillée les rapports entre la forme du tractus vocal (les données proviennent de radiographies) et les propriétés résonancielles du conduit vocal. C'est à Ishizaka et Flanagan (1972) que l'on doit le premier modèle des plis vocaux. Dès les années 1970, les travaux de K. Stevens ont alimenté la controverse sur l'existence d'une invariance acoustique absolue dans la réalisation des traits ( théorie de l'i nvariance), et d'un choix des phonèmes fondé sur leurs propriétés acoustico-articulatoires ( théorie quantique).

Les ondes sonores sont des propagations de changements de pression, produits par les vibrations de particules du milieu ambiant : l'air atmosphérique pour les humains, l'eau pour les poissons. Quand les particules d'air sont au repos, elles se meuvent rapidement dans toutes les directions et sont équidistantes. Un choc les met en mouvement, créant des alternances de zones de raréfaction de l'air et de surpression locales. La propa58

gation des changements de pression est rapide, environ 340 ms à la température de 20 C. Les variations de pression sont transformées en vibrations mécaniques au niveau du tympan (voir chap. VIII). Les propriétés acoustiques des sons incluent : - leur durée ; - leur fréquence du fondamental (relative à la hauteur perçue), notée F, (s'ils sont périodiques) et la forme du signal de source (liée à la qualité de la voix) : - leur intensité physique, qui dépend essentiellement de l'amplitude acoustique globale et de la répartition relative de l'énergie dans les basses, moyennes et hautes fréquences (balance spectrale); -- leur composition spectrale, en relation avec la répartition de l'énergie dans l'échelle des fréquences (forrnants et la distribution des bruits) (voir chap. VIII) ; - leur aspect dynamique ou stationnaire (diphtongues, transitions...).

Les sons de parole ont la particularité d'être le produit d'un filtrage par un conduit vocal humain et d'être interprétés comme tels par les auditeurs. La figure 6 illustre la théorie source-filtre. Tous les sons voisés ont pour origine le bourdonnement glottal, produit par les vibrations des plis vocaux. Le bourdonnement (signal de source) est composé d'une fréquence du fondamental (qui correspond à la fréquence de vibrations des plis vocaux) et d'harmoniques qui sont des multiples du fondamental. Par exemple, si les plis vocaux vibrent à un rythme de 120 fois à la seconde 59

(valeur moyenne pour un homme adulte), le signal de source sera composé des fréquences suivantes : 120 Hz, 240 Hz, 360 Hz, 480 Hz, 600 Hz, 720 Hz, 840 Hz, etc. Ce bourdonnement excite le conduit vocal (a) dont le volum e, comme celui d'une bouteille, constitu e un volum e clos. Or, tout volum e clos possde des résonances naturelles (représentées par sa fonction de transfert), modifiables par les mouvements des organes articulatoires. Il y a environ quatre résonances naturelles en dessous de 4 000 Hz (4 500 Hz chez la femme, dont le conduit vocal est plus court, essentiellement du fait que son larynx est plus élevé). Un conduit voca l en position neutre, sans constriction, comme pour la voyelle neutre (/ce/), peut être modélisé par un tube uniforme fermé à une extré-

~L dB/octaw

.Qlc ····;.··· • .···

i ,.......··" Hz

5 à l) Spectre de la source

Hz

4) Spectre résultant

Fig. 6. -- Théorie source-filtre

60

mité (la glotte) et ouvert à l'autre (les lèvres). Si ce tube a une longueur de 17,S cm (ce qui correspond à celle d'un conduit vocal masculin), les résonances naturelles sont de S00 Hz, 1 S00 Hz. 2 S00 Hz et 3 S00 Hz. Lors du filtrage, les zones d'harmoniques correspondant aux résonances naturelles du conduit vocal sont accentuées et les autres sont atténuées (2). Une zone d'harmoniques renforcée, où l'énergie se concentre, s'appelle un formant. On se réfère aux formants en les numérotant en commençant par celui qui a la fréquence la plus basse: F,, F,. F etc. Les fréquences des fonnants renseignent donc indirectement sur la forme des cavités qui les ont créées. Le signal résultant (4) est donc le produit du signal de source et de la fonction de transfert. La pente spectrale qui est environ de - 12 dB à la source (pour une phonation modale, le type par défaut) est relevée de 6 dB par le phénomène dit de radiation aux lèvres. Il y a aussi d'autres types de sources, non voisées (ou non périodiques), situées au niveau de la glotte ou dans les cavités supraglottiques : bruit d'explosion au relâchement des consonnes occlusives, bruit de friction, d'aspiration, qui seront filtrés de la même façon dans les cavités qu'ils traverseront. Les fonnants dépendent, entre autres, de la longueur des cavités. Quand on remplit une bouteille d'eau, le bruit produit par le giclement de l'eau devient plus aigu à mesure que la bouteille se remplit : plus l'espace occupé par l'air est petit et plus ses résonances naturelles sont élevées. Un bruit très aigu nous informe qu'il est temps de fermer Je robinet ! Plus cet espace est 61

petit et plus ses résonances naturelles sont élevées. Un conduit vocal deux fois plus court (comme ce peut être le cas chez l'enfant) a des résonances naturelles deux fois plus élevées. Il se crée une source de bruit continu au niveau d'un fort rétrécissement le long du conduit vocal ; plus la cavité antérieure à une constriction est courte (c'est-à-dire plus le lieu de constriction est postérieur), et plus le bruit des fricatives sera de haute fréquence (les résonances excitées sont essentiellement celles de la cavité située en avant de la constriction) : le bruit est plus aigu pour /s/ que pour If/ ; pour ce dernier son, la protrusion des lèvres et le recul de la langue permettent d'agrandir la cavité antérieure. Les modifications des résonances sont limitées. La résonance la plus basse, F,, peut varier, pour un locuteur masculin, entre 150 Hz (en cas de fermeture totale du conduit vocal pour les occlusives), 300 Hz (voyelle fermée) et 800 Hz (voyelle la plus ouverte) ; F, entre 750 et 2 500 Hz, et F, entre 1 500 et 3 400 Hz. Tous les formants sont modifiés par la forme générale du conduit vocal, mais certains sont plus sensibles que d'autres aux mouvements des articulateurs. F, augmente rapidement lorsque la mandibule et/ou la langue s'abaissent. F, est sensible à la position de la langue sur l'axe antérieur-postérieur, et à la configuration des lèvres lorsque la langue est massée vers l'arrière. F, est sensible à la longueur de la cavité antérieure lorsque la langue est massée vers l'avant. F, est plus difficilement manipulable. Trois principes acoustiques exercent une action déterminante sur les caractéristiques spectrales. Premiè62

rement, la fréquence de chaque formant ne peut être contrôlée de façon strictement indépendante : toutes choses égales par ailleurs, une diminution de F, entraine une diminution de F pour les voyelles postéricures ; un rapprochement de F, et F, (par exemple dans le /i/ franç ais), qui permet de créer une forte énergie (proéminence spectrale) vers 3 000 Hz, n'est possible que si F, est très bas. Deuxièmement, l'intensité physique est due essentiellement à la contribution de F, à l'amplitude des formants supérieurs : toutes choses égales par ailleurs, /a/ sera la plus intense des voyelles, et les voyelles li/ et /u/ seraient plus sujettes à se transformer ou à dispa raître.

Troisièmement, la prégnance perceptive des formants peut être modifiée : lorsque deux résonances se rapprochent (ce qui est possible dans le cas d'une très forte constriction ou lorsque les cavités antérieures et postérieures ont un diamètre très différent, leur amplitude se renforce mutuellement, et avec elle leur prégnance auditive. Inversement, le branchement d'une cavité latérale (par exemple lors d'une nasalisation) permet d'introduire des antirésonances (et des résonances supplémentaires) et donc de réduire l'amplitude de certains formants ou de les décaler : l'ensemble des articulateurs. phonatoires et articulatoires, est mis à contribution pour augmenter le contrastc acoustique entre certains phonèmes. Les représentations articulatoires traditionnelles qui ne prennent en compte que la langue et les lèvres, ou les triangles vocaliques, qui ne représentent que les 63

64

valeurs des deux premiers formants, ne sont pas suffisants, tant pour la recherche fondamen tale que pour ses applications. Un spectrogramme est une représentation visuelle tridimensionnelle des sons; il permet d'étudier l'essentiel des propriétés acoustiques des sons. La figure 7 illustre le spectrogramme correspondant à la portion de phrase « voici une poignée de noix et de noisettes ... » prononcée par un locuteur masculin. L'axe horizontal représen te l'axe des temps (chaque repère représente 100 ms) et l'axe vertical celui des fréquences, de O à 7 000 Hz. Le degré de noirceur du tracé traduit la répartition de l'énergie dans l'échelle des fréquences, en rapport avec l'intensité des composantes spectrales et donc des formants (et des bruits). Il est important de noter qu'un phonème est une notion abstraite qui n'a pas à proprement parler de durée physique : par exemple, la réalisation du trait d'arrondissement correspondant à la voyelle française /u/ débute dès la première consonne dans le mot structure (à la différence de stricture). Un spectrogramme en bande large (comme les figures 7 et 8) permet de visualiser les formants ; un spectrogramme en bande étroite (45 Hz) permet de visualiser la série d'harmoniques. La figure 8 illustre une représentation spec trographique de quelques consonnes françaises (français standard, locuteur masculin). L'analyse d'un spec trogramme de parole permet de repérer plusieurs types de sons. Nous invitons le lecteur à vérifier sur les spectrogrammes les observations acoustiques décrites ci-dessous. 65

b

d

s

g

m

n

H

Fig. 8. - Spectrogrammes de douze consonnes du français placées entre voyelles [œ]. 66

- Les sons voisés sont caractérisés, entre autres, par la présence d'une barre de voisement dans les très basses fréquences sur le spectrogramme et par une détection automatique de fréquence fondamentale par le détecteur (en haut, sur la figure 7, p. 66). Les sourdes /pl !tl /kJ !fi /si /JI se distinguent ainsi des sonores lb/ ld/ /g/ /vl // l/; l'absence partielle ou totale d'une barre de voisemcnt sur le spectrogramme permet de repérer les sons contextuellement dévoisés, comme lb/ dans robe sale, prononcé rop'sal. Les petites vallées sur la courbe de F durant la prononciation des occlusives et les fricatives sonores correspondent à une diminution incontrôlée et passagère du rythme de vibrations des plis vocaux, due à l'augmentation de la pression buccale, elle-même occasionnée par la constriction supraglottique. - Les voyelles sont repérables par la présence de formants dans les basses et moyennes fréquences. et par un sommet local d'énergie (ainsi qu'un maximum local du premier formant). Elles possèdent une barre de voisement, sauf bien sr en cas de dévoisement contextuel. - Les occlusives /pl, !tl, /k/, /b/, /dl, /g/ sont repérables par l'absence d'énergie dans les moyennes et hautes

fréquences. - Les fricatives (/f/, lsl,

Il; /vl, h/ et /3/) sont caractérisées par la présence d'un bruit continu, créé au niveau de la constriction supraglottique et filtré dans la cavité située en avant de la constriction. Comme le montrent les spectrogrammes, Je bruit de /s/ est intrinsèquement plus intense que le bruit de /'li, les vibra67

tions des plis voca ux se faisant au détrim ent de l'intensité physique du bruit de friction supraglottique. - Les sonantes sont cara ctérisées par la prése nce de formants (comme pour les voyelles), mais elles sont de plus faible amplitude. On peut mesurer sur un spec trogramme la durée entre des événements correspondant à la réalisation des phonèmes. Les modifications de la forme du conduit voca l sont progressives, mais le spec trogramme laisse apparaître des discontinuités acoustiques. Ces ruptures sont créées par l'arrêt brusque de l'excitation de certaines résonances : la réalisation d'une occ lusion ou d'un fort rétrécissement en un point du conduit voca l fait que les résonances dues à la cavité en arrière de la constriction ne sont soudainement plus excitées, par la création d'antirésonances - essentiellement par la mise en dérivation d'une cavité supplémentaire, par exemple trachéale ou nasale par l'interruption des vibrations des plis voca ux, ou par l'apparition soudaine d'une source de bruit supraglottique, due à un fort rétrécissement. En revanche, la continuité non perturbée du F-pattern rend la segmentation difficile dans le cas de voyelles en hiatus (non séparées par une consonne) ou de suites de sons acoustiquement proches (tels que /i/, /ru/ ou /nil/ en français). Les transitions de formants au début des voyelles renseignent sur le lieu d'articulation de la consonne qui précède, et sur la forme de la langue durant sa réalisa tion. Les labiales et les labiodentales non palatali 68

sées sont caractérisée s par des résonances basses, inf-

rieures à celles de la voyelle, et les transitions de la consonne à la voyelle sont montantes. Les dentales et alvéolaires non vélarisées sont cara ctérisées par un F, autour de 1 800 Hz (le lieu de constriction est relativement fixe). Le lieu d'articulation de la consonne vélaire /k/ varie en fonction de la voyelle : elle est réalisée phonétiquement comme vélaire dans /ku/, palatovélaire dans /ka/ et palatale dans /kil. Nous verrons dans le chapitre VIII sur la perception que les modi fications du lieu d'articulation de la vélaire en fonction de la voyelle qui suit est sans doute en grande partie due à des contraintes perceptives (et non exclusivement articulatoires). Le lieu de la constriction de la consonne ne détermine pas à lui seul les valeurs des formants au début de la voyelle qui suit : la forme de la langue joue un rôle prim ordial. Si la consonne est palatalisée (la langue se masse vers l'avant, comme pour la voyelle /iD), le F, de la consonne est à environ 2 000 Hz (F, est invisible, mais calculable), quel que soit son lieu d'articulation (labial, alvéolaire ou vélaire) ou son mode (occ lusif ou fricatif). La différence entre les lieux d'articulation de toutes les consonnes palatali sées ne peut s'exprimer acoustiquement qu'au niveau du bruit du relâchement pour les occ lusives ou de la hauteur du bruit pour les fricatives, car les transitions vers la voyelle sont quasi identiques. Une formation approfondie en phonétique acoustique peut désormais être acquise sans connaissances physiques préalables. Un ordinateur, transportable 69

dans une salle de cours ou sur le terrain, et l'accès facile à des programmes d'analyse (comme Praat) et de synthèse (comme le programme de synthèse à formants de Klatt, ou la synthèse articulatoire de S. Maeda), téléchargeables gratuitement sur Internet, facilitent une formation approfondie au commentaire de spectrogrammes et à la phonétique acoustique, et leur compréhension des rapports entre propriétés acoustiques et perceptives du signal.

70

Chapitre VI LES VOYELLES Le nombre de voyelles dans les langues varie d'une à plus d'une vingtaine. La plupart des langues ont de 5 à 7 voyelles. Le français a 16 consonnes (plus la nasale vélaire /n/ du mot agneau), et un nombre de voyelles différent scion la région considérée. Plus de 99% des langues ont au moins deux voyelles; l'inventaire le plus fréquent dans les langues du monde est de S voyelles (22 % des langues de la base de données UPSID) ; 80 % des langues ont de 3 à 10 voyelles. Les voyelles les plus fréquentes sont, dans l'ordre : /a/, fil, lu/, le/, toi. Les langues tendent à exploiter seulement les deux dimensions que sont l'aperture (ouverture) et le degré d'antériorité/postériorité pour les huit premières voyelles, et utiliser un trait secondaire (tel que la labialité, la nasalité ou la longueur) dans les inventaires plus étendus'. Les voyelles ont une double nature : articulatoire et acoustique. Du point de vue articulatoire, la langue est l'organe principal. Elle est massée vers l'avant de la cavité buccale pour les voyelles antérieures (dites aussi palatales : I. Voir les travaux de l'Institut de la communication parle, à Grenoble.

71

Ill le/ hl et /a/) et vers l'arrière pour les postérieures (dites aussi vélaires : lu/ loi /:,/ la/). La distance entre la

surface de la langue et le palais s'agrandit dans le passage de /il à /a/ antérieur et la constriction se déplace de la région vélaire vers la zone pharyngale du passage de /u/ à la/ postérieur en passant par /o/ et o/:

Fig. 9.- P ositi on art icul atoire de la lan gue pour les voyelles françaises

(inspirée des li gures de Straka) et le tra pèze vocalique correspo ndant

i

e y antérieu res étirées

. ..

a

3

O

u

labio-postérieures

ce

a

acoustiq uement centrales

Fig. 10. - Spectr ogramm es de voyelles typi ques en français (extrai t d'un livre de J.-S . Liénard )

Du point de vue acoustique, les lèvres jouent un rôle important. Les voyelles acoustiquement claires (l'énergie est massée dans les hautes fréquences - à 72

gauche sur la figure 10) sont caractérisées par une grande distance entre les deux premiers formants. Les voyelles sombres (au centre) sont caractérisées par un regroupement des deux premiers formants en dessous de 1 000 Hz (pour un locuteur masculin). Les voyelles acoustiquement centrales (l'énergie se répartit uniformément; à droite) sont caractérisées par un second formant situé vers 1 500 Hz. Les voyelles postérieures non arrondies et les voyelles antérieures arrondies /œ/ et /0/ sont toutes acoustiquement centrales et perçues comme telles. Les voyelles représentées sont dites hyperarticulécs. Dans la parole continue, les voyelles postérieures sont sujettes à l'antériorisation car elles sont souvent encadrées de consonnes prononcées vers

2=7e-

±... 3A..s Fig 11. - ModBiaalion de 6 voyelles par synthèse articulatoire 73

l'avant de la cavité buccale ; si elles sont brèves, elles sont centralisées ou plus fortement assimilées aux consonnes environnantes, selon leur position prosodique (voir le chap. IX). La figure 11 représente six formes du conduit vocal permettant d'obtenir les timbres caractéristiques de 6 voyelles du français (les lèvres étant à gauche). Il existe de grandes possibilités de compensation entre les articulateurs. La mandibule accompagne généralcmcnt (mais pas nécessairement) les mouvements de la langue. Le fumeur de pipe compense l'immobilité de la mandibule par des mouvements plus amples de la langue. Les voyelles antérieures ne sont pas arrondies, tandis que les voyelles postérieures le sont dans plus de 9 langues sur 10 (le jeu des lèvres permet d'assurer un bon contraste perceptif entre les deux groupes). Le degré et la position de la constriction, l'abaissement de la mandibule, et la configuration des lèvres permettent un ensemble de gestes compensatoires et certains locuteurs (peut-être aussi certains dialectes, voire certaines langues) font plus ample usage d'une articulation, par exemple de la mandibule ou des lèvres (ce qui rejoint la notion d' « habitudes articulatoires » chère aux phonéticiens du début du siècle dernier). Les gestes compensatoires renforcent l'idée de la primauté du but acoustique sur l'articulation. Le trapèze ou triangle vocalique est la figure géométrique obtenue reliant par un trait les points les plus élevés de la langue pour chaque voyelle : apparait alors le fameux trapèze (pour les langues qui possèdent un /a/ postérieur) ou un triangle (pour celles qui 74

ne possèdent qu'une seule voyelle de timbre /a/). Acoustiquement, il serait plus juste de déformer le trapèze en prenant comme repères les points de constriction maximale (notion cependant difficile à appliquer pour les voyelles antérieures ouvertes). L'élégante correspondance entre la représentation des voyelles par leurs deux premiers formants et le triangle vocalique est cependant trompeuse : elle néglige l'effet décisif des lèvres, et des formants supérieurs à F 2, sur le timbre des voyelles antérieures. Le troisième formant (F) joue un rôle important en français. Le jeu des lèvres est suffisant pour abaisser le F, de li/ et le regrouper avec F,. En franç ais, le /i/ (regroupement de F, et F) et le /y/ (regroupement de F, et F,) sont deux voyelles focales, qui possèdent donc une définition acoustique précise ; il est facile pour un Français de juger si un /i/ ou un /y/ prononcé par un étranger, sonne bien français ou non. li existe d'autres types de /il et /y/, et les stratégies articulatoires pour opposer perceptivement les deux éléments de cette paire varie entre les langues : le contraste /i/-/y/ en allemand ne correspond pas à la même réalité articulatoire et acoustique qu'en français. Les voyelles d'aperture moyenne ont un timbre moins précis : le timbre peut évoluer entre /e/ et /d, lol et /o/, /ce/ et /al. Au-delà d'une dizaine de voyelles, les langues utilisent plus de deux dimensions articulatoires et acoustiques. Le français (comme l'allemand) possède une opposition entre voyelles étirées et arrondies : le jeu des lèvres permet de distinguer en français entre pi et pu, 75

fée et feu, air et heure. L'abaissement du voile du palais permet de créer un sous-système de voyelles nasales (trois en français contemporain, celles des mots pan, pain, pont). L'amplitude relative des formants deviennent dès lors des corrélats acoustiques distinctifs. Un cinquième des langues environ oppose voyelles orales et nasales, d'une part, voyelles longues et voyelles brèves, d'autre part. Le chinois mandarin de Pékin, l'anglais américain et d'autres langues (dont le naxi, langue chinoise rare) présentent des voyelles rhotiques (/a/; par exemple la voyelle du mot bird en anglais américain), dont la caractéristique définitoire est une triple constriction, à la fois au niveau des lèvres et des cavités antérieures et postérieures du conduit vocal, qui permet de produire une voyelle focale centrale dont le F, est très bas (bien au-dessous de 2 000 Hz). Les variations de longueur, de fréquence fondamentale, de qualité de voix (voix breathy ou creaky, par exemple), si elles sont utilisées par une langue au plan lexical, pourront l'être moins largement sur le plan prosodique (voir ci-dessous, chap. IX).

76

Chapitre VII

LES CONSONNES

l) Labiale; 2) Den tale ; 3) Alvéolaire ; 4) Prépalatule; $) Mediopalatule ; 6) Postpalatule; 7) Pr&vélaire; 8) Vélaire; 9) Uvulaire; I0) Pharypke; Il) urynplc : 12) Glollale ~ picale ; b)

Liminale; c) l'r&lonale; d) M6diodonale; r) Pooldonalol

Fig. 12. -- Dénomination du lieu de l'articulation des consonnes

Les consonnes les plus fréq uentes sont dans l'ordre : /t/et /m/, puis /ni et /k/. Les langues ont une moyenne de 22 consonnes (moyenne qui ne doit pas faire oublier une très gran de variété). Les 22 conson77

nes les plus coura ntes sont les 7 occ lusives /p b t d kg/ et la glottale 7/, les 4 fricatives If sfh, les 3 nasales (mn n), les 3 approximantes /l j w/, les 2 affriquées /rs tJ! et la vibrante apicale /rl. Les approximantes sont des continues sans friction. Les critères principaux de classification des consonnes sont le mode de voisement (voisé/non voisé), le degré de constriction (occ lusif, fricatif, affriqué, approximant), le lieu d'articulation et la nasali té. La figure 12 illustre la désignation des lieux d'articulation des consonnes, de la glotte (glottale) aux lèvres (labiales). Les organes mobiles, comme l'apex de la langue ou les lèvres, s'accolent sur les par ties fixes du conduit vocal (le palais dur pour les palatales, le palais mou pour les vélaires). Apico-dentale signifie que l'apex de la langue se dirige vers les dents, et lamino-alvéolaire que la fermeture ou le rétrécissement se fait entre les bords de la lame de la langue et les « alvéoles ». Les occlusives orales (p, t, k, b, d, g) impliquent une fermeture complète du conduit buccal.

Fig. 13. - Quelques exem ples d'occlusives o rales 78

Les fricatives (f, s, f, v, z, 3) sont produites par un très fort rétrécissement dans une zone plus ou moins étroite du conduit vocal, qui devient le lieu de création d'un bruit supraglottique, filtré principalement par la cavité située en avant de la constriction. Les nasales (m, n, p), sont produites de la même faon, mais le passage pharyngo-nasal est ouvert, la cavité nasale entre en résonance et ainsi, participe au filtrage de la source voisée.

Fig. I4. - Consonnes nasales

Pour la production des latérales, comme /1/, la langue réalise une constriction centrale en se rapprochant de la voOte palatale mais les lames de la langue sont abaissées et l'air passe par les deux côtés, créant deux cavités latérales. La forme de la langue peut varier pour un lieu d'articulation semblable. // est plutôt apico-alvéolaire en anglais et lamino-dentale en français, mais il existe des lamino-alvéolaires et apico-dentales. Tous les sons n'ont pas pour origine le flux d'air sortant des poumons. - Il est possible de créer un flux 79

Fig. IS. -- Réalisation de /U en anglais (à gauche ) et CD français (à droite)

d'air sans participation des poumons : les implosives (le flux d'air implosif est dO à l'abaissement du larynx), les éjectives (le flux d'air égressif est dO à une élévation du larynx) et les clics, où l'air est emprisonné entre deux constrictions dans le conduit buccal'. Dans les langues où ils n'ont pas de statut phonémique, ces sons sont employés à des fins expressives (ainsi du clic dental en français, pour exprimer l'agacement).

1. Voir Ladefoged et Maddieson, The Sounds of the World's Languages. 80

Chapitre VIII QUELQUES ASPECTS DE LA PERCEPTION DE LA PAROLE Après les déco uvertes de la psycho-acoustique sur la perception des sons purs (composés d'une seule fréquencc) à partir des années 1920 et celles sur la physiologie du système auditif dès les années 1950, l'invention de la synthèse à formants à l'aide du Pattern Playback, aux laboratoires Haskins, à la fin de la Seconde Guerre mondiale, a marqué le véritable début des études scientifiques sur la perception de la parole. Le Pattern Playback est à l'origine des grandes découvertes sur la non-unicité des indices acoustiques liés à l'identification du lieu d'articulation des occ lusives (le bruit au relâchement et les transitions des formants), et du trait de voisement ; les différents indices entretiennent des relations de compensation ; les expériences ont permi s de découvrir le phénomène de perception catégorielle (que l'on a cru un temps spéc ifique à la parole hum aine) et ont donné lieu à la formulation de l'hypothèse de la théorie motrice (A. Liberman). Depuis, une longue quête se poursuit pour expliquer comment un auditeur peut créer un seul et uni que per 81

cept à partir des indices multiples et variables contenus dans les sons de parole. Dès le milieu des années 1990, la réflexion sur la façon dont a lieu la compréhension des énoncés en contexte a quelque peu détourné l'attention des chercheurs des aspects purement psychophysiques de la catégorisation phonémique. L'auditeur cherche avant tout à comprendre immédiatement de ce qu'il entend. Comment identifie-t-il les mots successifs dans la parole spontanée, dans le flux continu de parole et le foisonnement des indices de tous ordres ? comment le mot est-il stocké dans le lexique mental ? comme un ensemble de traits, comme un ou des prototypes abstraits, ou encore comme une collection de traces épisodiques détaillées (d'exemplaires) ? quelle est la part, dans la compréhension d'un message, des informations acoustiques apportées par le signal lui-même (inductives : bottom-up), et la part du contexte d'énonciation (déductives : top-down) ? Malgré les efforts déployés, notre compréhension des phénomènes liés à la perception de la parole est encore bien en deçà des connaissances acquises sur sa production. Les diverses observations sont loin de former un tout cohérent, en dépit de la rigueur scientifique avec laquelle chacune est établie. Plusieurs stratégies de compréhension pourraient coexister. L'expérimentation sur la parole spontanée est difficile, car le jugement de l'auditeur est influencé par un grand nombre de paramètres, tels que la familiarité croissante avec la tâche demandée (d'où des réponses à une même question changeant au fil des tests), avec 82

Oreille

20 0

llllol $0 500 100O 2000 5000 IOldfz:ZO :zoo

20

Fig. 16. -- Schéma de l'oreillc (en haut); le champ de l'audition (en bu)

83

la voix du locuteur ou avec le sujet traité ; les caractéristiques techni ques des messages et les attentes sur leur contenu ont également une infl uence difficile à prévoir sur la compréhension. Tous les sons et bruits empruntent les mêmes voies auditives pour arriver au cerveau de l'auditeur, mais les tests psycho-acoustiques montrent qu'ils ne sont pas perçus exactement de la même manière. Tout son arri ve dans les aires audi tives du cortex sous forme d'impulsions nerveuses. Les vibrations mécaniques de particules d'air qui constituent l'onde sonore sont captées au niveau du pavillon de l'oreille et transférées le long du conduit externe auditif vers la membrane élastique du tympan qu'elles font vibrer. Le conduit auditif am plifie au passage les fréquences voisines de 3 500 Hz. Les vibrations sont alors transmises à l'oreille moyenne où une chaîne de trois osselets, le marteau, l'enclum e et l'étrier, am plifie leur force par un jeu de leviers et fait vibrer la membra ne basilaire. Elles sont ensuite converties en impulsions nerveuses électrochimiques par les quelque 25 000 cellules ciliées réparties au niveau de la cochlée de l'oreille interne. Chaque cellule ciliée «vi bre» à une certaine zone de fréquences, qui dépend de sa position sur la cochlée. Ces impulsions atteignent le cerveau par l'intermédiaire du nerf auditif. La sensibilité de l'oreille varie en fonction du niveau sonore. Le maximum de sensibilité est atteint pour des fréquences comprises entre 2 000 et 5 000 Hz. La zone d'audibilité d'un individu se situe entre le seuil d'audiblité et le seuil de douleur. Les sons doivent avoir une fré84

quence supérieure à 16 Hz et inférieure à 16 000. 20 000 Hz (10 000 Hz chez certains sujets âgés) et avoir une intensité suffisante (qui dépend de la fréquencc) pour être perçus par une oreille humaine. L'oreille effectue donc une sorte d'analyse fréquentielle du signal, à la manière d'un spectrogramme, mais l'analyse n'est pas linéaire : les basses fréquences sont analysées avcc plus de finesse que les hautes fréquences ; inversement, la résolution temporelle est meilleure pour les hautes fréquences. Il se produit également des phénomènes de masquage, fréquentiel et temporel : à un instant donné, certaines composantes fréquentielles en masquent d'autres, les hautes fréquences pouvant masquer subjectivement les basses fréquences et un son de faible intensité peut être masqué par un son plus fort qui le précède ou le suit. Les expériences de psycho-acoustique montrent très nettement qu'on ne perçoit pas les sons de parole comme les autres sons : par exemple, l'intensité subjective des sons de parole est jugée par l'auditeur en relation avec l'effort vocal estimé. Nous ne savons cependant pas à quel niveau se fait la séparation entre le traitement des bruits et des sons émis par nos congénères (cela est valable pour l'homme comme pour les animaux). I. - Sur l'identification des voyelles

Deux fonnants ne sont pas suffisants pour rendre compte du timbre de toutes les voyelles. Comme nous l'avons déjà noté, la production des deux premiers formants (ou même d'un seul) est suffisante pour 85

rendre avec exactitude le timbre des voyelles sombres, labio-postérieures (comme /u/), où F1 et F, sont proches et de forte amplitude car proches : quand deux formants sont proches, l'oreille les intègre et ne perçoit qu'un seul pic. Mais les formants supérieurs à F 2 influencent la perception des voyelles claires, antérieures et non arrondies. Si on présente à des auditeurs une voyelle de type /il synthétisée avec les 4 premiers formants respectivement à 255, 2 065, 2 960, 3 400 Hz, si on fixe la valeur de F, à 255 Hz et si on leur demande d'ajuster la valeur d'un unique formant afin d'obtenir un timbre qui soit le plus proche possible de la voyelle synthétique avec 4 formants, les auditeurs ajustent cette valeur à 3 210 Hz environ, c'est-à-dire à une valeur située entre F, et F,. Ce formant résultant (dit « effectif ») est appelé F deux prim e ou F 2. Une représentation F,/F; est meilleure qu'une représentation F/F, ou F/(F,-F,); le timbr e recréé pour les voyelles antérieures à l'aide de F, et F 2, quoique proche des voyelles originales, n'est néanm oins pas exactement le même. Les voyelles focales sont caractérisée s par une très forte concentration d'énergie dans une zone réduite de fréquences. Une bonne réalisation de la voyelle /u/ française doit être de type focal F,-F, ; c'est la voyelle la plus sombre que puisse produire un conduit vocal hum ain (les deux résonances principales sont situées en dessous de 1 000 Hz). Le /al postérieur est également de type focal F-F,, comme /u/, mais avec des valeurs élevées (vers 1 000 Hz). Le /il français, de type F-F, (parfois F-F,), est la voyelle la plus 86

claire (F; vers 3 000 Hz). Le regroupement des formants est à l'origine d'une augmentation de leur amplitude, duc aux lois de l'acoustique, et cette augmcntation crée une saillance perceptive. L'ensemble du conduit vocal se déforme pour obtenir le but acoustique recherché et des compensations sont possibles, comme nous l'avons déjà mentionné, entre les articulateurs. Ces compensations indiquent la primauté pour les sons d'une cible perceptive plutôt qu'articulatoire. Les confusions entre voyelles se font en général en fonction de leur distance acoustique ; il s'agit essentiellement d'une estimation erronée de l'ape rture (F,): lu-o/ lo-5/ /5à/ le d l el. Le contexte consonantique peut provoquer une antériorisation ou une postériorisation des voyelles, laquelle peut de la part de l'auditeur être cause de confusion perceptive sur l'axe antéro-postérieur : prononce-t-on reblochon ou roblochon ? L'influence du contexte est à l'origine de nombre de changements phonétiques, qui éloignent peu à peu la prononciation de l'orthographe, même si celle-ci, lors de son élaboration, reflétait partiellement Je système phonémique. II. - Sur l'identification des consonnes Le poids des indices utilisés par l'oreille pour identifier un phonème tient compte de la fonction de ce phonème et du contexte dans lequel il se trouve. Lors d'expé riences d'identification du lieu d'articulation des consonnes occlusives (p, t ou k) dans des stimuli synthétiques, les chercheurs du laboratoire américain 87

Haskins ont montré qu'une bouffée de bruit (représentant le bruit de relâchement généralement observé) pouvait évoquer l'impression perceptive de consonnes différentes, selon la voyelle qui suivait. Lorsque le bruit a une fréquence élevée, [] est uniformément perçu, quelle que soit la voyelle suivante. S'il est de basse fréq uence, (p] est perçu. La perception de [k] dépend dans la plupart des cas de la position de ce bruit par rapport au F, de la voyelle suivante : si le bruit se situe au niveau du F, de la voyelle (pour les voyelles à F, bas), ou à une fréquence légèrement supérieure (pour les voyelles à F, moyen et haut), c'est [k] qui est perçu. Son identification est donc contextuelle et requiert une relation spéciale entre la hauteur du bruit et celle du second formant (ou du F 2 ) de la voyelle qui suit. Cela explique l'ajustement articulatoire souvent observé dans les langues où /k/ est vélaire lorsqu'il est suivi d'une voyelle labio-postérieure et palatal dans le cas d'une voyelle antérieure. Les chercheurs de Haskin s ont également montré que des variations dans la transition du sec ond formant suffisaient pour distinguer en synthèse entre [pl. [] et [k], sans qu'il soit nécessaire de reproduire un bruit correspondant au bruit de relâchement. Mais dans la parole naturelle, le poids respec tif du bruit et des transitions dépend de la nature intrin sèque des consonnes, et de la voyelle qui suit. Les transitions sont inopérantes pour la distinction entre /i/ et /ki/ (seule compte la répartition spec trale du bruit dans les hautes fréquences, plus compacte dans le cas de /k/), alors qu'elles sont suffisantes pour distinguer 88

entre /pa/, /ta/ et /ka/. De façon générale, la hauteur du bruit, son intensité et sa compacité, ainsi que les transitions de fonnants concourent à divers degrés à l'identification du lieu d'articulation ; certaines combinaisons sont plus difficiles à identifier. Une telle variabilité des indices s'observe également pour les fricatives. La hauteur du bruit de forte intensité, caractéristique des consonnes [s] (au-dessus de 4000 Hz ou > F) et [[) (entre 2 000 et 3 000 Hz), est suffisante pour leur identification'. Mais si le bruit est faible, comme c'est le cas pour les fricatives bilabiales ou labiodentales, seules les transitions permettent leur identification. Un indice dynamique, tel que la rapidité des transitions, est essentiel pour la distinction entre [b] et [w]. [w, j, 1, r] sont reconnues grâce à leurs formants propres et aux transitions imposées sur les voyelles. La présence de traces de nasalisation au début de la voyelle est l'indice majeur pour distinguer entre [b] et [m]. [a] et [n] (K. Stevens). Le poids des indices peut varier selon les langues. Le principal indice du trait de voisement est le temps de délai d'établissement du voisement, ou VOT (Voice Onset time), dont l'interprétation varie selon les langues. Un même son sera perçu comme [b] par les auditeurs anglophones si les vibrations des plis vocaux commencent très rapidement après le relâchement (moins de 30 ms), et comme [p] si le délai est supérieur à 40 ms. Pour un auditeur français, le son est perçu 1. Harris, 1958. 89

comme [b) si les vibrations commencent avant le relàchement: un /bl anglais peut donc être perçu comme (p). Consonnes et voyelles présentent des affinités. Les approximantes [w, j, Y] sont perceptivement proches des voyelles [u, i, y]. Le [u] est proche de la voyelle postérieure [a] (1 000 Hz) et le [l] sombre (comme dans le mot anglais « film ») est proche des voyelles postérieures [u] ou [o]. Cette proximité perceptive entre le [I] sombre et [u] est à l'origine de sa transformation en [u] en coda de syllabe dans le passage du latin au français : soldus > soldu > sold > soud > sou [su]. Lorsque le // français (F; à 3 000 Hz) se dévoise (du fait d'une trop grande fermeture), il donne naissance à un son identifié comme lç/ (cf. la prononciation [qiç notée uiche

de oui. Ill. - Quelques modèles et théories Il existe plusieurs théories sur l'identification phonémique. La perception catégorie/le a occupé jusqu'à nos jours une place importante dans la réflexion car on l'a longtemps considérée comme spécifique de la perception de la parole par des humains. Une perception catégorielle implique que l'identification précède la discrimination, c'est-à-dire le jugement comparatif des timbres. On sait maintenant que nous pouvons percevoir des bruits et des couleurs de façon catégorielle, et que les animaux peuvent également pratiquer une perception catégorielle. 90

La théorie motrice' avance que, pour identifier un son, l'auditeur interprète ce qu'il perçoit en termes de gestes articulatoires. La perception catégorielle du lieu d'articulation des consonnes a été interprétée comme favorable à la théorie motrice. La réalisation des consonnes /p/, // et /k/ fait appel à des gestes bien dif.frenciés : par exemple, ceux des lèvres pour [p], de la pointe ou des bords de la lame de la langue pour [t], et du corps de la langue pour [k]. Quand il identifie le lieu d'articulation de ces consonnes, le locuteur « voit le geste » : il se référerait à la façon dont il aurait produit les mêmes sons, de sorte qu'il existerait des frontières perceptives nettes, fondées sur des critères articulatoires. Les lieux d'articulation des consonnes étant discontinus, leur perception l'est aussi. En revanche, pour les voyelles, les mêmes articulateurs peuvent adopter une infinité de positions, et leur perception n'est pas catégorielle. Néanmoins, les nouveau-nés perçoivent certains contrastes de consonnes de façon catégorielle, alors qu'ils n'ont jamais prononcé ces sons, ce qui jette un doute sur la part que tient la production - à moins d'imaginer que la correspondance ne soit inscrite dans leurs gènes ! Nous avons également évoqué la théorie de l'invariance au chapitre V : on peut imaginer que les phonèmes soient reconnus à partir de certaines propriétés acoustiques invariantes, sans référence à l'arti culation. Certains sons, telles la voyelle /i/, les consonnes /si et If/, ont des réalisations acoustiques 1. Liberman et al, 1967.

91

intrinsèq ues relativement invariantes, d'autres moins : nous avons suggéré plus haut que la hauteur du bruit du relâchement des vélaires, bruit plus compact que celui des labiales et des dentales, est à interpréter en fonction de la hauteur du second formant de la voyelle. Un entraînement à la lecture de spec trogrammes permet de décoder sans difficultés majeures des échantillons de parole articulés avec soin, tant en français que dans d'autres langues, qu'ils correspondent à des mots ayant un sens ou non. Le degré de variabilité acoustique des sons de la parole paraît avoir été quelque peu surestimé. Il est admis actuellement qu'il existe des différences de qualité entre des sons pourtant identifiés sans hésitation comme un seul et même phonème ; certains sons sont de bons représentants de la catégorie, d'autres moins. Pour cette raison, les nouveaux modèles de perception de la parole s'orientent vers un cadre probabiliste. Dans les situations de communication, chaque phonème n'est pas nécessairement identifié. La perception de la parole continue fait intervenir des mécanismes centraux : mots et énoncés entiers sont reconnus par une interaction entre des indices décodés à partir du signal, d'une part, et le lexique mental et des connaissances syntaxiques, sémantiques, contextuelles. Le locuteur parle avant tout pour être compris (R. Jakobson) et adapte sa faço n de parler au contexte : il se permettra une certaine paresse articulatoire s'il est convaincu d'être néanm oins compris. Certains locuteurs parlent constamm ent de façon relâchée, laissant à leurs auditeurs le soin de faire sens de ce qu'ils disent en s'aidant du contexte. D'autres, comme les en92

seignants, ont tendance à hyperarticuler, créan t ainsi de meilleurs représentants ou exemplaires de chaque phonème. De plus, le matériau sonore qui précède le son à reconnaître influence le jugement de l'auditeur : la même syllabe peut être perçue différemment selon que la phrase porteuse est produite par un homme ou par une femme : s'il s'agit d'une voix d'homme, le locuteur s'attend à des fréquences relativement basses, et il aura tendance à surestimer les valeurs formantiques: il adapte ses attentes à la voix perçue. L'auditeur peut percevoir des sons (ou des silences) qui en fait ne sont pas présents dans le signal. Dans la parole continue, l'auditeur peut percevoir une pause en l'absence de tout silence : une montée de la fréquence fondamentale ou un allongement syllabique, peuvent, en français, être interprétés comme causant pause 1 • Il existe aussi des phénomènes de restauration phonémique : qu'un son soit remplacé par un bruit dans une phrase, si l'énoncé fait sens, l'auditeur le comprend sans effort, mais il éprouve, en revanche, une difficulté s'il lui est demandé de prendre conscience de l'absence d'un des sons. Certains modèles récents (épisodiques ou à exemplaires) font l'hypothèse que chaque mot entendu par l'auditeur est stocké tel quel dans son lexique mental, la mémoire étant pratiquement illimitée ; cette conception revient à placer à l'arrière-plan les notions abstraites de traits et de phonèmes sur lesquelles s'est construite la phonologie. 1. Karcevsky, 1931. 2. Warre, 1970. 93

Deux remarques enfin : - certains aspects de la perception, que l'on a crus un temps spécifiques de la perception humaine, comme la perception catégorielle, se sont révélés être dus à des propriétés générales du système auditif des primates. Il semblerait cependant que la constitution de prototypes soit le propre de l'homme : l'exposition intensive d'un singe à des sons de la langue ne semble pas conduire à une réorganisation psychoacoustique autour de prototypes de phonèmes particuliers à la langue, comme c'est le cas chez le bébé humain. Des recherches récentes sur des animaux, grâce aux techniques d'imagerie cérébrale, montrent que ceux-ci réagissent différemment aux sons produits par leurs congénères et par d'autres espèces, ce qui suggère l'existence de mécanismes biologiquement spécialisés pour traiter les sons produits par la même espèce. Ces mécanismes pourraient se situer à un niveau relativement périphérique dans la chaîne de l'audition ; - il existe une forme de corrélation (simple coincidence ?) entre le mode de fonctionnement des outils informatiques et le type de modèles développés par les phonéticiens-phonologues : les modèles de traits binaires (eux-mêmes inspirés de la théorie de l'information de Shannon), bien adaptés au traitement séquentiel des informations par les ordinateurs de l'époque, ont laissé la place à des modèles de traitement parallèle précisément à l'époque où l'ordinateur fut capable de réaliser un tel traite94

ment. Les modèles à exemplaires, actuellement très en vogue, reposent sur l'idée que le cerveau possède un stock très étendu d'occ urrences entendues; mode de fonctionnement qui évoque celui de la programmation orientée objet, et les capacités mémorielles des ordinateurs actuels.

95

Chapitre IX

PROSODIE Traditionnellement, le mot « prosodie » désignait l'étude de la quantité des voyelles dans la versification. La portée du terme s'est étendue : le mot désigne désormais tous les aspects de la parole non liés à l'identification des segments en particulier les faits d'accentuation lexicale, d'intonation, et de rythme. Dès les années 1930, les linguistes du Cercle linguistique de Prague (Mathesius, Karcevsky) avaient mis en lumière un découpage du flux de parole régi par des facteurs pragmatiques, comme la division de la phrase en thème et rhème ( opposition dont les premières formulations remontent à l'Antiquité). La même époque voyait l'apparition de travaux portant sur l'enseignement de la prosodie de l'anglais. Les chercheurs ont noté très tôt l'existence de différents degrés de frontières à l'intérieur de la phrase française, et la prédominance acoustique et perceptive du groupe de sens sur le mot (M. Grammont, Coustenoble et Armstrong, P. Delattre). Dès les années 1960 ont commencé des études instrumentalisées. La grammaire générative et les besoins de la sythèse de la parole ont focalisé l'attention sur les phénomènes d'accentuation en anglais, sur les frontières 97

- Dans une langue à tons lexicaux (dites encore à tonèmes pour faire ressortir le parallélisme de ceux-ci avec les phonèmes), deux syllabes composées des mèmes phonèmes auront deux sens différents, selon le ton du mot. En chinois mandarin - exemple classique de langue à tons - la syllabe ma peut avoir cinq sens différents, en fonction de la nature du ton employé (l'un des quatre tons lexicaux, ou aucun ton). Chacun de ces tons se réalise essentiellement par un contour ou une hauteur caractéristique de Fa. Dans certaines langues, ils comprennent également une spécification de qualité de voix (par exemple une constriction glottale finale); et dans les langues où ils sont définis uniquement par leur mélodie, ils n'en possèdent pas moins, au plan phonétique, certains traits secondaires de durée, de qualité de voix, et de modifications (non catégorielles) des segments : timbre des voyelles, articulation des consonnes. La majorité des langues du monde sont des langues à tons, le français étant- rappelons-le - une langue à frontières. - Dans une langue à accent lexical (aussi appelé accent libre), dont l'anglais, l'allemand, l'italien ou le russe, deux mots qui comportent la même suite de phonèmes peuvent se distinguer par la position de la syllabe qui porte l'accent primaire: ainsi, en anglais, le nom 'permit (permis, autorisation) se distingue du verbe per'mit (permettre). Les corrélats phonétiques de l'accent sont divers ; ils incluent, dans des proportions variées selon les langues, la durée, l'intensité, la fréquence du fondamental, une réduction de timbre des voyelles non accentuées, et des contraintes sur la dis100

tribution des phonèmes. Mais la syllabe accentuée ne reçoit pas un contour de Fo déterminé par le lexique, comme dans les langues à tons : le détail de son contour de F, est modelé par des phénomènes de nature intonative (nous s'inspirant des idées de Rossi, nous dirons que la syllabe accentuée est un site privilégié d'ancrage des morphèmes intonatifs). - En japonais et en suédois, langues dites à accent mélodique, une des syllabes (une more en japonais) du mot reçoit un accent mélodique qui détermine le contour de F, du mot tout entier; la durée et l'intensité ne sont pas profondément modifiées. A l'accentuation lexicale s'ajoute une accentuation grammaticale (L. Hyman). L'accentuation (entendue dans une acception large qui couvre l'une et l'autre de ces deux dimensions) crée une structure de dépendance entre les syllabes du mot et les phonèmes à l'intérieur de chaque syllabe. La syllabe la plus dominante au sein d'une unité sémantique tend à imposer certains de ses traits aux syllabes environnantes. Par exemple, en français, où la position de l'accent n'est pas distinctive, la syllabe finale du mot est en position dominante (sans pour autant être toujours perçue comme proéminente dans le mot). Certains de ses traits tendent à se propager sur l'ensemble du mot, comme la nasalité (maman /mamd/ prononcé [mâmâ]), ou l'aperture (aimer /une/ prononcé [emeD ; phonologue /fonolôg/ prononcé [fonobg] versus phonologie prononcé [fonoloi]; ou encore, chez les enfants, surtout prononcé sourtout, petit prononcé pitit. 101

Dans certaines langues (hongrois, turc), cette tendance à la propagation d'un trait d'une syllabe au mot entier a été phonologisée sous la forme, par exemple, d'une harmonie vocalique : toutes les voyelles d'un mot doivent partager un même trait d'antériorité ou postériorité, d'arrondissement ou étirement. Cette structure de dominance est primordiale pour expliquer les phénomènes décrits par la phonétique historique, qui constituent la plus grande base de données existante sur les rapports entre accentuation lexicale et articulation des phonèmes : dans le passage du latin au français, seules les syllabes accentuées (la pénultième en latin classique) et la première syllabe dans les mots les plus courants ont résisté à l'usure : Musculum> moule, CLAritaté > clarté. La structure accentuelle détermine les rapports de dépendance entre les phonèmes constitutifs du mot. Les liens au sein de la rime sont plus étroits en anglais (par exemple entre /i/ et /t/ dans sit) qu'en français, où la consonne de fin de mot (mais non en fin de groupe majeur) tend à se détacher de la rime syllabique auquel elle appartient, et à s'associer à la première syllabe du mot suivant : madame est... [ma-da-mc-], plutôt que [ma-dam-c-]... L'intonation, comme l'accentuation lexicale, est une catégorie abstraite, bien qu'elle soit souvent (et abusivement) identifiée aux paramètres par lesquels elle s'actualise, en particulier la fréquence fondamentale. Elle désigne à la fois un système linguistique discret de structuration de l'énoncé (fonction démarcative, déterminée à la fois par la syntaxe et la pra gmatique), et un 102

système d'expression de nuances de sens, d'attitudes et d'émotions (fonctions comportementales et émotives). Différentes situations révèlent les manifestations complexes de l'intonation. La lecture de phrases isolées, voire ambiguës met en lumière sa fonction démarcative, liée à la syntaxe : la frontière majeure tend à se placer entre le sujet et le verbe, L'écolier / part à l'école (la barre oblique indique ici la position d'une frontière). L'analyse des réponses à des questions de type Où part l'écolier ? révèle comment le découpage pragmatique peut modifier profondément la démarcation d'origine syntaxique, car en fin de compte, la pragmatique domine dans l'énoncé puisqu'elle est de nature sémantique : l'écolier part/ à l'école. La lecture des textes fait découvrir l'existence d'une structure au-dessus du niveau de la phrase : les informations nouvelles sont mises en valeur. Un jeu de question-réponse permet d'étudier les procédés de focalisation. L'étude d'une conversation illustrera sa fonction discursive dans son sens le plus large : la prosodie aide à distinguer les informations déjà partagées entre le locuteur et l'auditeur des informations nouvelles, les informations pouvant être éventuellement remises en cause par l'interlocuteur ; elle aide à gérer les tours de parole, et elle prête à l'expression son tour définitif: un «non» peut être un refus catégorique ou suggérer que le refus peut être renégocié. Les voix de théâtre mettent en lumire la fonction identificatrice de la prosodie : les acteurs changent leur façon de parler en fonction des personnages qu'ils incarnent. Sa fonction esthétique est manifeste dans l'expression poétique. 103

Toutes les langues connues, quel que soit leur type d'accentuation lexicale, utilisent des procédés intonatifs. Les langues à tons, où la fréquence fondamentale est dans une certaine mesure contrainte par le phénomène lexical des tons, peuvent utiliser la durée et l'intensité sonore des syllabes, ainsi qu'une expansion du registre de Fa. La présence de tons lexicaux par ellemême n'est pas exclusive de phénomènes intonatifs, et on ne peut opposer « langues à tons » et « langues à intonation ». Néanmoins, dans des langues à tons comme le chinois ou le vietnamien, l'expression des modalités et des attitudes se fait de façon privilégiée par des particules de discours : telle particule marque l'interrogation, telle autre l'évidence (nuances que redouble dans une certaine mesure l'intonation de l'énoncé). Il existe des ressemblances dans les contours de F, observés dans un certain nombre de langues.

Un groupe desouffle Fig. 17.-- Contour typique de F, l l'échelle de l'énoncé, dans diverses langues (d'après Vaissière, 1983) 104

Les tendances communes sont les suivantes : (@) les valeurs de F, évoluent entre deux lignes, la ligne de base et le plateau, qui délimitent la plage habituelle du locuteur ; (il) la Fa et l'intensité, ainsi que l'ampleur des gestes articulatoires, tendent à décliner régulièrement au cours du temps ; (iii) le maxim um de F, et d'intensité tend à se situer dans les trois premières syllabes de l'énoncé, et les premières syllabes de la phrase sont sous influence montante, quel que soit leur statut ; le minim um d'intensité se situe en fin de phrase ; (iv) il existe une tendance à alterner régulièrement dans le temps les montées (ou sauts) et les descentes de F,: une paire montéedesce nte tend à délimiter une unité de sens au sens large ; (v) il existe une tendance à allonger la dernière syllabe de la phrase et le premier phonème du début de la phrase'. La forme globale ressemble au contour des cris de bébés, de même qu'aux productions de certains singes et elle semble détermin ée physiologiquement. Les langues retiennent telle ou telle portion privilégiée de cette forme prototypique pour marquer l'accentuation lexicale et/ou des morphèmes intonatifs : en fran çais, c'est la partie montante (qui correspond au morphème continuatif), en japonais, c'est l'abaisseme nt de F, entre deux syllabes, qui devient systématique dans la réalisation de l'accent mélodique du mot, tandis qu'en danois, c'est le creux de Fa pour la réalisa tion de la syllabe accentuée. 1. J. Vaisière, 1983.

105

Les cara ctéristiques physiologiques du groupe de souffle semblent avoir motivé un certain nombre d'associations mentales. Une fréq uence fondamentale élevée ou montante et une intensité forte évoquent la notion de début : début de discours, de paragra phe, d'énoncé. Une F basse ou descen dant, une intensité faible et un ralentissement mar quent la fin de la prise de parole, d'un para graphe, d'une phr ase. Un rehaussem ent de la ligne de base ou l'arrêt de la déclinaiso n en cours d'énoncé sans pause respiratoire simule lare prise de souffle. Des observations sur des langues variées tendent à confirmer ces réflexions générales, tout en montrant, dans le détail , une grande variété des réalisations. Ains i, en fran çais, la fin de phrase s'accom pagne fréquemment d'un prolongement fricatif du dernier son ; la voix peut au contraire passer en m ode vibra toire craqué (irrégulier) : ces deux phénom ènes peuvent s'interpréter comme des avatars de l'abaissem ent final d'intensité. Un gra nd nombre de similitudes entre langues apparaît dans l'utilisation des param ètres prosodi ques, m ais il existe des exceptions notables 1 • Les procéd és émotionnels sont fortement motivés par la physiologie et diffè rent peu entre les langues, tout au moins en ce qui concerne l'expression des émotions prim aires (joie, colère). Le marquage des attitudes est moins directem ent m otivé. Il sem ble néanm oins faire souvent appel aux m êm es indices : une élévation de la plage de variation de F pour l'ense mble de l'énoncé marque une 1. Voir les travaux de A. Rialland sur les langues africaines. 106

forte implication du locuteur ; une variation particulière de la fréquence du fondamental sur la voyelle (glissando) peut être porteuse d'un contenu affectif. L'augm entation de l'intensité de la plage de F, et de l'amplitude des mouvements des articulateurs simulent un plus grand effort respiratoire, phonatoire et articul atoire (cc que C. Gusscnhoven résume par l'expression de code de l'effort) et sont donc interprétés par l'auditeur comme signe d'une plus grande implication du locuteur. Beaucoup de langues se rejoignent dans les procédés marquant l'interrogation et certains types de focalisation (le focus étant caractérisé, de façon à la fois assez consensuelle et assez vague, comme ce sur quoi

, ...

, '

''

'

Enonciative avec focus

✓ ---·· · · · ··•·············

_,.,

J

Interrogative avec focus Fig. 18. - Contoun_ typiques de F dans des phrases déclaratives et interrogatives, avec focalisation sur le premier (trait plein). le second (pointillé ) ou le dernier mot (trait étiré) 107

porte l'interrogation dans une question, et ce sur quoi porte l'assertion dans une affirmation). La figure 18 illustre des contours souvent attestés dans les phrase s déclaratives et interrogatives. Soulignons, par ailleurs, que la phrase est un tout, où tout est lié. Un mot peut devenir perceptivement proéminent par la désa cccntation des autres mots. Dans l'énoncé déclaratif, le contour de F, s'aplatit après la réalisation du mot focalisé et reste dans le registre bas. Des modifications temporelles peuvent prendre le relais pour structurer le reste de l'énoncé · (dans la partie à plage de variation de F réduite), mais de telles stratégies d'emploi de la longueur ne sont pas systématiquement observées . Le registre de F est éventuellement plus élevé dans le cas des interrogatives ; on observe la suppression ou la diminution de la ligne de déclinaison (N. Thorsen pour le danois), la montée de F sur la syllabe finale, ou sur la dernière syllabe accentuée. La similitude de procé dés apparaît auss i dans la division de la phrase en groupes intonatifs. La figure 19 présente deux exemples typiques en français et en anglais (deux langues dont les caractéristiques sont pourtant quasi opposées). Chaque groupe intonatif comprend ici deux syntagm es prosodiques divisés en deux mots prosodi ques. Le morphème intonème de continuation est réalisé par un contour montant de F sur la dernière syllabe, qui est allongée dans les deux langues, et par un allongement de l'intervalle avec le groupe suivant. La montée de continuation est nettement plus marquée (et quasi obligatoire) en français 108

(voir la flèche sur la figure 19), alors qu'en anglais elle est réduite et facultative (P. Delattre). Les mouvements de Fu sont essentiellement ancrés sur les syllabes lexicalement accentuées en anglais, et sur le début du m ot et de sa syllabe finale en français. La syllabe accentuée du premier mot com posant le syntagm e en anglais est accom pagnée d'une montée ou d'une valeur haute de F0, la dernière par une descente ou une valeur haute suivie d'une chute. Dans l'exemple français illustré ici, la division du syntagm e en mots prosodiques n'est pas assurée par un mouvement de F , mais par un allongement de la dernière syllabe. Dans ces deux langues, un rehaussement de la ligne de base du contour de F, apparait généralement entre deux constituants de niveau supérieur dans la phrase (par exem ple, entre deux propositions). En japonais, c'est le rehaussement de la ligne de base qui a été phonologisé ; les autres procéd és apparaissent néanm oins dans certains styles de parole. Le rythm e d'une langue est une notion très difficile à définir. Cc qu'une oreille française semble essentiellement retenir de la mélodie d'un énoncé, c'est la

Fig. 19. -- Contour typique de F représentant la division d'un groupe de souffle en deux groupes intonatifs, en anglais, à gauche, et en français, à droite. Les ronds pleins correspondent à des voyelles lexicalement accentuées en anglais, et à la dernière voyelle des mots en français. La flèche indique la montée de continuation. 109

contimua tion en fin de syntagme prosodique, réalisée par une montée accompagnée d'un allongement. Le français est souvent décrit comme une langue « montante ». Les voyelles dominent perceptivement. En anglais, ce qui frappe un Français, c'est la récurrence énergique et quasi régulière de syllabes fortement accentuées, avec une forte attaque consonantique, qui alternent avec des syllabes réduites, et évoquent pour l'oreille française l'accent d'insistance, d'où l'impression d'une insistance permanente que peut donner la langue anglaise à une oreille non entraînée. À l'inverse, en japonais, le rythme peut à la fois paraître quelque peu monotone, du fait des séquences alternées de syllabes hautes et de syllabes basses, et chaotique, du fait que la durée des voyelles dépend prioritairement de leur durée phonologique, non des phénomènes de frontières, et n'est donc pas corrélée avec les mouvements mélodiques, à la différence du français. Le code fréquenciel explique certaines tendances prosodiques communes aux langues les plus diverses. Il existe une association biologique entre une F grave et un larynx volumineux, et, inversement, entre une F aiguë et un petit larynx (J. Morton, J. Ohala). Le singe mâle dominant émet des sons plus graves que le singe qui signale sa soumission, et la femelle émet des sons plus aigus quand elle s'adresse à son nouveau-né qu'à ses enfants plus âgés. Une F, basse évoque la maturité, la dominance, l'agressivité. Dans les langues, une F basse est une composante des intonèmcs utilisés pour marquer les ordres et les affirmations catégo110

riques. Une F élevée, au contraire , est un marqueur aco ustique de l'incertitude, du questionnement, du caractère non terminé des énoncés, du doute, de la politesse et du désir de plaire, et d'une certaine forme de fémin ité. Ain si, un comportement bien attesté chez les sin ges se retrouve comme l'un des ingrédients du jeu com plexe qui constitue l'intonation. Les progrès dans le dom aine des étu des intonatives passent sans doute par la m ultiplication des aperçus de cet ordre, partant de la conviction qu'il n'y a en la matière aucun mystère , tout en reco nnaissa nt la complexité de l'écheveau que l'intonologue se donne pour tâche de démêler. Voici quelques exemples de l'utilisation de la prosod ie en français. La figure 22 en fin de chapitre résume les tendances françaises générales. La figure 20 illustre les différences en termes de F, et durée entre trois phrase s quasi homophones au plan des phonèmes : l'interprétation de la suite de phonèmes [som tenosmemâbt] est gui dée par les paramètres de durée et de fréquence fondamentale. Cet exemple hautem ent caricatura l a pour avantage de permettre une com para ison direc te des observations ; il ressort claire m ent que la syllabe la plus montante de la phrase correspond à la frontière majeure, réalisée sur la dernière rim e du mot (une syllabe peut se diviser en attaque et rime), montée doublée d'un allongement. Le principe démarcatif de base en français est simple : à l'in térieur de la phrase, plus la dernière syllabe d'un mot est longue, plus elle est montante, et plus la frontière est perçue comme forte. Un contour descendant en fin de mot indique au contraire une dé111

,...........

est

homme

Cet

.

~

'-!,

....

·····4 ,

··········· . ~

énormdmnet

A-

t

Cet homme et Ténor

1,111

et

m'emblte

A-, •,

m'aiment en

...... bete.

Fig. 20. - Contour original de F des phruN : « Cet homme est éoormmient bête », « Cet homme est énorme et m'embête» et «Cet homme et Tfoor m'aiment en bête », cqmplétée d'une stylisation : mot grammatical ; A: début de mot ; 0 : syllabe d'un mot lexical; • : syllabe lmale d'un mot lexical

*:

112

pendance de ce mot avec le mot suivant. Soulignons que cette dépendance ne correspond pas strictement à celle que mettent en lumière les syntacticiens ; plus généralement, les frontières intonatives ne reflètent pas m écaniquement la structure syntaxique : l'énonciateur est libre, pour une même phrase, de regrouper une sui te de mots en ne réalisant pas de frontières (« continuations» dans le voca bulaire de P. Delattre) à l'intérieur de ce groupe, mais en le subdivisant néanm oins en mots rythmiques par des allongements en fin de mot : par exemple, des expériences en manipulation informatique de la parole établissent que la durée relative de la première syllabe suffit à distinguer entre bordures [body::] et bords durs [bo:dy ::], Jean-Pierre et Jacques et Jean, Pierre et Jacques, sans qu'il soit besoin de modifier F (note : les deux points indiquent le degré d'allongement ; la répétition de ce même symbole indique un degré élevé d'allongement). De même, en anglais, la seule durée relative de la seco nde syllabe est suffisante pour distinguer entre coffee cake and honey («du gâteau au café et du miel» ) et coffe e, cake and honey («du café, du gâteau et du miel » ). A l'inverse, l'énonciateur peut subdiviser un même groupe rythmique (suite de syllabes se termin ant par un allongem ent) en y introduisant des frontières intonatives. La figure 21 illustre la tendance la plus attestée du contraste entre phrase interrogative et déclarative en français, et phrase termi née et non termin ée. La phrase non termin ée et la phrase interrogative s'opposent à la déclarative par la prése nce d'un contour 113

1GGG

vela

Marie vient à Paris

HG

demain

aEmaGE7

et ton pm9 ■'en va.

Fig. 21. - Modalit~ : En haut, formes typiques des phnues assertves ou dklaratives, continuatives et interrogatives. Milieu et bas : exemples en français : « Marie vient à Pans demain 7 », et « Marie vient à Paris demain et ton père s'en va.», «Marie vient i Paris demain. ,.

114

final montant de Fa. La différen ce entre phrase interrogative et phrase non terminée se reco nnait typiquem ent au fait que, dans l'énoncé interrogatif, on observe une tendance à l'annu lation de la ligne de déclinaison. La prosodi e semble être le premier langage de l'enfant. Le nouveau-né est sensible au rythme de sa langue maternelle. Le bébé (comme les animaux domestiques, du reste) est très sensible aux indices émotionnels véhiculés par les voix de son entoura ge, ainsi qu'à la prosodie de sa langue maternelle : les bébés fra nçais babillent avec des mélodies plus fréquemment m ontantes que les bébés japonais, et avec un allongement final plus net (P. Hallé). L'intonation permet très tôt à l'enfant d'exprim er un grand nombre de fonctions communicatives, bien avant qu'il ne maitrise la syntaxe. La façon dont un enfant prononcera une séquence comme [patipapaoto]) parti papa auto indique s'il s'agit d'un constat joyeux ou désespéré, ou encore d'une question (au sujet de ce domaine, celui de l'intonologie développementale, voir par exemple G. Konopczyn ski). L'action des facteurs de performance ainsi que la mul tiplicité des fonctions de l'intonation invitent à la plus gra nde prudence dans l'élaboration d'une « gramm aire de la prosodie ». Il n'existe pas à l'heure actuelle de système automatisé de reconnaissance de l'in tonation, comme il existe des systèmes de reconnaissance de la parole ; cela tient au fait que la prosodie d'un énoncé est modelée par un grand nombre de facteurs, en partie imprédictibles. L'accélération du 115

débit de par ole réduit d'autant la finesse de la structure

prosodique, qui peut en être méconnaissable. Les constituants tendent à être de taille égale. Les unités intonatives tendent à être rythmiquement équilibrées. Bien que le sujet de la phrase soit porteur normalement de l'intonème continuation majeur, comme dans L'écolier / part à l'école, un français dira plus volontiers Jean part / à l'école, afin de rétablir l'équilibre rythmique (M. Rossi). L'espace entre deux syllabes accentuées tend à s'égaliser en anglais, mais aussi la longueur des mots : les durées des phonèmes se raCcourcissent quand le nombre de syllabes dans le mot augmente D. Klatt, S. Nooteboom), comme en français. Des choix intonatifs de nature stylistique peuvent avoir un contrecoup sur d'autres composantes de la prosodie : ainsi, en français, les orateurs (journalistes, hommes politiques ou enseignants) emploient fréquemment une accentuation initiale (la situation du président...), prolifération d'accents d'insistance qui vise à témoigner d'une implication personnelle de l'orateur dans son discours. Si ces marques de frontière initiale de mot aident l'auditeur à découper le discours en mots ; l'intrusion de cette forte accentuation initiale modifie considérablement le rythme et la réalisation des frontières. Elle crée également des exceptions à certains principes généraux bien établis, tels que la faiblesse prosodique (articles auxiliaires, etc.) : dans de très nombreuses langues, les mots grammaticaux sont réalisés de façon affaiblie ; néanmoins, dans le style d'énonciation qui vient d'être décrit, la syllabe en po116

sition initiale d'énoncé reçoit fréquemment un accent d'insistance, même s'il s'agit d'un mot grammatical (LA situation...). Les accidents de parole perturbent le rythm e, et rendent sa desc ription difficile ; il s'agit aussi bien de faux départs, d'hésitations silencieuses ou non (du type Papa euh vient ou l'allongement de la dernière syllabe du mot du type Papaaaaaaa vient) que de choix stylistiques : pause d'insistance (pause devant le mot que l'on veut mettre en valeur), pause entre énoncés. (Les hommes politiques, une fois qu'ils ont été élus, pausent plus souvent et plus longtemps, comme l'ont montré les études de D. Duez sur le français.)

Fig. 22. - Division classique de la phrase française en deux groupes de souffle, et ici chaque groupe de souffle est divisé en 3 mots prosodiques

117

CONCLUSION

Ce livre a atteint son but s'il est parv enu à donner la mesur e des résultats obtenus par la phonétique, et l'étendue des perspectives qu'elle ouvre. Citons, par exemple, les divers résultats établis scientifiquement sur la perception de la parole, à tester désormais en imagerie cérébrale, avec unc optique ontogénétique et phylogénétique ; la mise à disposition de méthodes éprouvées pour l'analyse et l'évaluation de la voix et de la parole normales et pathologiques, ou de celle de l'apprenant, incluant les aspects attitudinaux (ou comportementaux) et esthétiques ; la mise à disposition de programm es de syn thèse articulatoire permettant d'envisager enfin une définition intégrée (articulatoire, acoustique et perceptive) des traits distinctifs proposés par R. Jakobson. La connaissance de la fonction exacte de chaque organe dans l'acte de parole est utile aux médecins O RL pour bien expliquer aux malades les conséquences de leurs actes chirurgicaux sur la parole. Et les avancées en aco ustique perceptive ont des retombées directes dans la mise au point des implants coc hléaires, etc. Les connaissances phonétiques sont à la portée de tous. Les pédagogues, enseignants, ORL et orthophonistcs, s'ils possédaient de meilleures bases en phonétique que ne leur procure actuellement l'enseignement officiel, pourrai ent parfois mieux comprendre les dimi119

cultés rencontrées dans la pra tique de leur métier, et pourra ient alors imaginer des solutions adaptées. Ce qu'expl ore la phonétique avec les méthodes de sciences dites dures, c'est la réalité éminemm ent hum aine de la vive voix, dans la variété de ses manifestations. La part accordée à la prosodie dans le présent ouvrage visait à mettre en avant cette composante. Les phénom ènes sont d'une grande complexité dès lors qu'ils sont envisagés d'un point de vue acoustique, physiologique et perceptif classique ; cela impose au phonéticien professionnel une formation longue et nécess airement parcellaire : l'interprétation des résul tats fournis par des méthodes expérim entales d'une com plexité croissante impose une spéc ialisation poussée. L'informatique a néanm oins rendu cette form ation bea ucoup plus aisée . Seule une équipe, et non plus un individu, est à m êm e d'apporter un progrès cumulatif aux savoirs phonétiques. En recherc he fondamentale, l'apport de chacun (phonologue, psychologue, ingénieur, médecin...) est irrem plaçable. Les technologies nouvelles et les applications continueront à gui der la réflexion du phonéticien. C'est en tant que lieu de rencontre entre disciplines que la phonétique conserve aujourd'hui son statut de science-pilote à l'intérieur du champ des sciences du langage.

120

BIBLIOGRAPHIE llESSO UllCl!S flU!cnt ONJQUES

Pu l'inlemHdiairc d'une base de données bibliographique (telle que le SUDOC). ou d'un simple moteur de recherche. il est possi ble d'obtenir sur Internet les bibliographies des auteurs cités dans le corps du texte, qui ne ont pas reprises ci-dessous. Sont en outre disponibles : 1 l l'alphabet phonétique international, accompagné d'illustrations sooores : hllp:1/www2.arts.gla.ac.uk/JPA/; 2 l des programmes d'analyse du .rig,,a/ OJlliio , dont Prut. WinPitch, Win-

%%.1.K%22 $22%// r

+ or s «« .n .

a)[] j e t groupes d discuss ions, en parulier The Lingui n t Lint : 4 / des coun de phoMtique (acoustiq u e) en ligne, do nt oertains en français : 5 / et sunout des sites présentant équipes, chercheurs et projets en cours dana le monde entier; parmi les équ ipes françajses les plw. activa en Jcicnoes

%% /22de322. ::7 ratoire de phonétique phonologie e

t

d

e

J'

U

n

i

v

e

r> i

t

é

d

e

Pari

s

3

(

LPP

)

:ts1:2# compreod pu les groupes

d

e

n,cbetd,e

en

phonologie.

LIV RES ET ARTICLES HISTO R IQUES

Les rtfrenos présentes ici mnontent plus avant dam le tempe qu'il n'est courant dans une aussi brève synthèse; ce choix vix l rappeler certai-, nes coouibutions fondatriœs qui conxrvent leur actuali~ Bolinger Intonation and is Uses, Plo fmtomtion). Chiba T., K.ajiyama M . (1941), 11,, Yuwl: lts NtmJtt llM St,wt,,re, To kyoKaiseikan [acoustique des voyelles). Fant G. (1960), ,fonuti< 11,,ory of Speuli Prodllctlon. MOUIOrl, Tbe Hague (le livre de rtfércnce sur l'acoustique da voyelles et des consonnes). Jakobson R., Fant G. et Halle M. (19S2), Prr/Jminarlu to Sp«cJ, A,,a/y .rb, Cambridge, MA, The MIT Press [livre qui a modifi6 la rapports entre phonétique et phonologie]. Libennan A. M., Cooper F. S., Sbanno