Des nouvelles de notre projet SyllabO+

Nous avons le plaisir de vous présenter un article détaillant les récentes mises à jour d’un ambitieux projet nommé SyllabO+.
Lancé à l’été 2013, le projet SyllabO+, réalisé par Pascale Tremblay et son équipe, en particulier Pascale Bédard, alors étudiante au baccalauréat en sciences du langage, vise à analyser le français parlé québécois en fonction de l’âge, du sexe des locuteurs et des contextes de communication. Dans le cadre de ce projet, un grand corpus de 184 personnes locutrices du français québécois, élargi plus tard à 225, a été enregistré. Certaines personnes ont été enregistrées dans des contextes formels et d’autres informels. Tous les enregistrements recueillis ont été transcrits en alphabet phonétique international (API) par l’équipe. Les transcriptions ont ensuite été découpées en mots, puis en syllabes et en phonèmes. Le phonème est la plus petite unité sonore d’une langue permettant d’établir des contrastes entre les mots. Par exemple, les mots « faim » et « vin » sont tous deux constitués du phonème « in » (noté /ɛ̃/ en Alphabet Phonétique International) et se distinguent grâce aux phonèmes /f/ et /v/. Deux bases de données ont été créées en 2016, celle des phonèmes et celle des syllabes, offrant ainsi un inventaire des syllabes et des phonèmes du français québécois parlé et permettent d’effectuer des recherches approfondies sur ces unités de la langue. Ces bases de données fournissent des informations sur la fréquence d’utilisation des différents phonèmes et syllabes, leurs probabilités de transition (par exemple la probabilité qu’une syllabe soit suivie d’une autre) et les relations statistiques entre ces unités. Étant donné qu’il n’existe que très peu d’outils dédiés à l’étude du français québécois parlé, SyllabO+ constitue une ressource inestimable pour alimenter les recherches dans plusieurs disciplines, telles qu’en psycholinguistique, en phonétique, en orthophonie et en neurosciences cognitives du langage. Un de ses principaux atouts réside dans sa focalisation sur le langage oral spontané, offrant ainsi une image fidèle de l’usage quotidien de la langue. SyllabO+ se distingue également par l’inclusion d’un grand nombre d’indicateurs issus de plusieurs domaines linguistiques tels que la phonétique, la phonologie, le lexique et la morphologie, tous extraits à partir des mêmes locuteurs et locutrices. Ce travail a été publié une première fois dans la revue internationale Behavioral Research Methods en 2017. Pour lire le texte au complet, cliquer ici. SyllabO+ est accessible gratuitement en ligne sur notre site web ici: https://syllabo.speechneurolab.ca.
L’article que nous vous présentons aujourd’hui est le deuxième article publié dans le cadre de ce projet. Cet article poursuit trois objectifs principaux. Premièrement, il décrit l’élargissement du corpus de français québécois parlé dans le cadre du projet SyllabO+, ainsi que la création, depuis 2017, de trois nouvelles bases de données : les mots, les lemmes et les morphèmes. Deuxièmement, l’article présente une étude menée pour évaluer la transparence sémantique des mots du corpus. Finalement, il explore les implications de ces données pour les chercheurs de diverses disciplines, telles que l’enseignement, la linguistique, et l’orthophonie.
Le processus de mise à jour du projet SyllabO+ et la création des bases de données des mots uniques, des lemmes et des morphèmes
Dans le cadre de l’enrichissement du projet SyllabO+, le corpus initial a été élargi pour permettre la création de trois nouvelles bases de données : les mots uniques, lemmes et morphèmes. Ce projet a été mené par une équipe composée de Pascale Tremblay, Noémie Auclair-Ouellet, Pascale Bédard, Patrick Drouin, Alexandra Barbeau-Morrison et enfin Alexandra Lavoie, une assistante du labo qui a découpé tous les mots du corpus en morphèmes. Les détails des mises à jour du corpus sont présentés à la figure 1 ci-dessous. Ces nouvelles bases de données sont disponibles sur notre site web, en cliquant ici.

La base de données de mots et de lemmes
En 2018, deux nouvelles bases de données, celles des mots et des lemmes, ont été ajoutées au projet SyllabO+.
La construction de ces deux outils a impliqué deux processus essentiels : la tokenisation et la lemmatisation. La tokenisation est un processus consistant à diviser un texte en unités plus petites, appelées « tokens », généralement des mots. Chaque mot du corpus a ensuite été intégré dans une base de données, accompagné d’informations grammaticales telles que son genre (masculin vs. féminin grammatical), son nombre (singulier vs pluriel) et ses marques de conjugaison. Dans un deuxième temps, la lemmatisation a permis de convertir ces mots en leur forme canonique, ou lemme, telle qu’on la retrouverait dans un dictionnaire. Par exemple, le lemme du verbe « courent » est « courir ».
La base de données des morphèmes
L’analyse morphologique a été réalisée à partir de la base de données des mots uniques mentionnée précédemment. Chaque mot a été segmenté en morphèmes puis codé dans la base de données. Un morphème est la plus petite unité porteuse de sens dans une langue. Par exemple, le mot incompréhensible comprend trois morphèmes : le préfixe in- (signifiant « non »), la racine compréhens- (issue du verbe comprendre) et le suffixe -ible (indiquant « qui peut être »). On distingue les morphèmes flexionnels des morphèmes dérivationnels. Les morphèmes flexionnels modifient un mot pour en indiquer le genre, le nombre ou le temps (comme les terminaisons verbales), tandis que les morphèmes dérivationnels servent à créer de nouveaux mots à partir de mots existants.
Pour élaborer la base de données des morphèmes, tous les mots du corpus ont été analysés au niveau de leur structure morphologique. Étant donné qu’ils ne sont pas segmentables en morphèmes, les mots monosyllabiques, tels que « pain », « chat » et les mots grammaticaux, tels que les déterminants, les pronoms, les prépositions ou les adverbes, ont été exclus de l’analyse. Chaque mot a été classé selon qu’il soit dérivé ou non, et les racines ainsi que les affixes ont été identifiés et segmentés afin de fournir une description précise de leur composition interne.
L’étude de la transparence sémantique
En plus de présenter la création de ces trois nouvelles bases de données, notre article visait également à décrire le processus ayant permis d’évaluer la transparence sémantique des mots dérivés chez les locuteurs du français québécois. Pour rappel, un mot dérivé est formé à partir d’un radical auquel on ajoute un affixe, comme un préfixe ou un suffixe. La transparence sémantique fait référence à la facilité avec laquelle le sens d’un mot dérivé peut être déduit à partir de la signification de ses éléments constitutifs, notamment sa racine, son préfixe ou son suffixe. En d’autres termes, un mot est considéré comme sémantiquement transparent lorsque la relation entre sa structure morphologique et son sens est évidente pour les personnes locutrices. Ainsi, le sens du mot « redémarrer » est probablement plus facilement à deviner à partir de son préfixe -re et du radical -démarrer que le sens du mot « déjeuner », dont la combinaison du préfixe -dé et du radical -jeûner signifie « cesser de jeûner ».
L’étude s’est donc penchée sur la manière dont les locuteurs perçoivent cette transparence, en tenant compte de plusieurs facteurs : le type d’affixation utilisé dans la formation du mot dérivé, les caractéristiques des personnes, incluant leur niveau de connaissance du français (français comme langue maternelle ou seconde). Cette étude a permis d’enrichir l’analyse morphologique du français québécois parlé. L’évaluation de la transparence sémantique est essentielle, car la morphologie contribue de manière significative à la fluidité de lecture et à la compréhension des mots, notamment chez les personnes rencontrant des difficultés à décoder les mots.
Pour mener cette évaluation, une étude en ligne a été réalisée auprès de plus de 400 personnes participantes volontaires (voir la figure 2 ci-dessous présentant l’étude de la transparence sémantique).

Les paires de mots incluses dans l’étude de la transparence sémantique ont été choisies en fonction de plusieurs critères. Tout d’abord, afin que le jugement des personnes participantes ne repose que sur la sémantique, les racines des mots dérivés devaient être des mots réels de la langue. Ainsi, la paire « minuit-nuit » a été incluse, mais pas la paire « midi-di ». De plus, lorsque les mots étaient constitués de plusieurs affixes, c’est l’unité la plus courte qui a été utilisée comme racine. Par ailleurs, l’infinitif a été retenu pour toutes les racines verbales. Ainsi, le mot relâchement, a été comparé à la racine « lâcher » (et non « relâcher »). Aussi, les racines grecques ou latines ont été remplacées par leurs équivalents français, à condition que ces derniers soient sémantiquement proches et qu’il y ait un chevauchement phonologique suffisant entre les deux. Cette correspondance a été vérifiée à l’aide d’une transcription phonétique préalable. Ainsi, le mot « mémorisation » a été comparé à « mémoire » et non « mémor ».
Les résultats de l’étude de transparence sémantique
Les résultats de l’étude de transparence sémantique indiquent que la plupart des mots dérivés de l’étude présentent une transparence allant de moyenne à élevée. Toutefois, les statistiques révèlent une certaine variabilité dans les évaluations, particulièrement en ce qui concerne les mots de transparence moyenne. Il est cependant possible que cette variabilité soit attribuable à certains éléments propres à l’étude, telles que les instructions données aux personnes participantes. Par ailleurs, les résultats indiquent que les mots avec suffixe sont plus transparents que ceux avec préfixe et que les mots composés d’un préfixe et d’un suffixe sont moins transparents que les mots uniquement constitués d’un préfixe ou d’un suffixe (voir la figure 3 ci-dessous).

Les résultats ne révèlent aucun effet significatif des variables sociodémographiques prises en compte dans l’étude sur les évaluations de la transparence sémantique. Aussi, bien que l’éducation ait eu l’effet le plus fort, il est important de noter que la représentativité de l’échantillon pour l’étude était limitée, étant donné le niveau d’éducation très élevé. Même si l’étude indique que les évaluations étaient globalement similaires entre les personnes locutrices du français langue seconde et celles des personnes locutrices natives du français, les compétences en lecture et en compréhension orale ont influencé les évaluations de la transparence sémantique des locuteurs du français langue seconde. En effet, l’évaluation de la transparence sémantique entre les personnes locutrices du français langue seconde et natives français est plus proche lorsque la compétence en lecture en français langue seconde est plus élevée, contrairement à une plus haute compétence en compréhension orale.
À quoi sert SyllabO+ ?
Tout d’abord, les bases de données fournies dans SyllabO+ peuvent être utilisées dans le domaine de la réadaptation, et particulièrement en orthophonie. En effet, lorsqu’elle intervient auprès des personnes présentant des difficultés de langage oral et écrit, la personne orthophoniste manipule les phonèmes, les syllabes, les mots ou encore la structure morphologique. Avoir accès à une base de données qui contient toutes ces unités linguistiques de la langue ainsi que des informations sur leur fréquence d’utilisation est une ressource inestimable. En effet, lors des exercices réalisés dans le cadre d’une thérapie, la personne orthophoniste peut contrôler la fréquence (haute ou basse) des stimuli à partir desquels elle travaille avec le patient. Ainsi, elle peut complexifier ou simplifier les exercices, en fonction des objectifs ciblés avec le patient.
Les bases de données sont également utiles dans le domaine de l’enseignement du français langue seconde. En effet, maîtriser une langue seconde implique, aussi bien chez les enfants que chez les adultes, de travailler la conscience morphologique, soit la capacité à identifier et manipuler les morphèmes de la langue. Ainsi, les bases de données offrent de nouveaux matériaux aux enseignantes et enseignants pour élaborer plus facilement des exercices de conscience morphologique en partant de la syllabe, du morphème, du lexème ou encore du mot, adaptés aux spécificités du français québécois parlé.
Les données incluses dans SyllabO+ sont également précieuses pour les chercheuses et chercheurs qui étudient le langage, par exemple dans les domaines de la psycholinguistique ou de la neuroscience du langage. Les équipes de recherche auront ainsi la possibilité de manipuler non seulement les mots eux-mêmes, mais aussi des variables telles que leur complexité, leur fréquence d’usage ou leur longueur. Cela leur permettra de concevoir différentes tâches d’évaluation du traitement du langage ou de la parole chez les individus, telles que la répétition de mots, de non-mots ou de syllabes, les tâches de décision lexicale (par exemple : « ce mot existe-t-il dans la langue ? »), ou encore l’analyse de la perception de la parole au niveau du mot, de la syllabe ou du phonème.
Finalement, l’étude de transparence sémantique met en évidence que les personnes locutrices d’une langue ne perçoivent pas la transparence sémantique de manière uniforme. Les chercheuses et chercheurs pourraient ainsi sélectionner des mots inclus dans l’étude, dont les évaluations de transparence sémantique sont cohérentes, afin de réaliser leurs tâches psycholinguistiques.
Pour conclure, avec désormais six bases de données, SyllabO+ constitue une ressource précieuse pour faire progresser notre compréhension du langage et de la parole. SyllabO+ soutient également le travail des orthophonistes en milieu clinique, tout comme celui des enseignantes et enseignants dans le cadre de l’enseignement du français langue seconde.
Pour lire notre article au complet: https://speechneurolab.ca/wp-content/uploads/2022/05/Bedard_2016_BRM.pdf
Pour en savoir plus sur le projet : https://speechneurolab.ca/page-syllabo/
Lectures suggérées :
- Analyses du langage parlé
- Découper le langage pour mieux l’étudier!
- Test sur la construction du langage oral québécois
- Contrôles en recherche
- Bout de langue
- La profession d’orthophoniste
- Nouvel article scientifique sur l’histoire de la neurobiologie du langage
- Le français québécois comme critère d’inclusion
- Comment créer une expérience scientifique sur le langage ?
- La perception de la parole : une faculté complexe