| |
|
|
|
Les
3 niveaux d'une étude QUMIE
|
|
Une
étude QUMIE, comme toute étude
de langage, s'établit à trois
niveaux différents :
1 Le niveau des MOTS : le LEXIQUE
2 Le niveau des THEMES, la thématique
3 Le niveau de la syntaxe : les GRAPHES
|
|
| 2
Les thèmes |
|
Un
grand nombre des mots recueillis dans un premier
temps par lanalyste, peuvent se regrouper
selon leur ressemblance, dans des catégories
plus vastes : les thèmes.
Par exemple, dans une étude sur le langage
des fermiers, nous trouverons les mots : coq,
poule, lapins... que nous pourrons
regrouper dans la catégorie thématique
: animaux de basse-cour.
Mais
cest ici que nous rencontrerons le plus
de pièges. En effet, la réalité
dépend en partie de la façon dont
nous la regardons et des instruments dont nous
nous servons pour lanalyser. Ainsi, dans
lexemple ci-dessus, nous avons fait deux
choix : ou bien faire entrer tous les animaux
susdits dans la catégorie animaux
de basse-cour, ou bien créer deux
thèmes : un thème animaux de basse-cour
à plumes avec les mots poule et
coq, et animaux de basse-cour à
poils avec lapin. Selon notre décision
dans le degré de précision que
nous voulons donner à lanalyse
thématique, les résultats seront
différents.
La précision
de notre découpage est dautant
plus grande que nous connaissons bien le sujet.
En effet, plus nous sommes familiers dun
sujet plus nous avons tendance à nuancer.
Cest ainsi que là où nous
voyons de la neige, lesquimau voit trente
sortes différentes de neige, quil
nomme de trente noms différents ; pour
lui, le mot neige
serait un mot abstrait !
Grâce
à nos logiciels expert, nous pouvons
résoudre autrement ce type de problème
en adoptant un découpage des thèmes
sous la forme dune arbre ; nous pouvons
ainsi créer deux ou trois niveaux thématiques
et ensuite seulement chercher le niveau qui
donne les résultats les plus efficaces
pour lutilisateur de létude.
Il
nempêche que le découpage
du sens en catégorie et le remplissage
des thèmes avec les mots du lexique est
une opération qui ne peut se passer de
la réflexion humaine, donc une opération
subjective. Nous avons inventé
une méthode permettant de créer
des thèmes de la façon la plus
objective possible.
|
|
La
syntaxe et les graphes
|
En
passant du niveau lexical au niveau thématique,
nous procédons à une généralisation,
donc à une simplification
Mais,
ces deux types danalyse ont une caractéristique
commune : ils ont cassé le texte en petits
morceaux, et la lecture des tableaux quils nous
donnent ne peuvent, en aucun cas nous permettre de
reconstituer le texte lui-même dans sa vie.
Nous en arrivons naturellement au niveau le plus intéressant
de lanalyse de langage : le niveau syntaxique,
celui où nous retrouvons les mots et/ou les
thèmes dans leur contexte naturel : la phrase.
Donnons
un exemple danalyse syntaxique figurée
sous la forme dun graphe. Voici lanalyse
dune personne qui nous a parlé delle-même,
de la façon dont elle envisage la vie. Les
thèmes qui figurent dans le graphe sont les
thèmes les plus fréquents. Les thèmes
les plus importants se reconnaissent au fait quils
sont liés à un plus grand nombre dautres
thèmes que les autres. Ici : Je Moi, Je
suis, Etre capable...
Ce graphe est
en fait un résumé
visuel des phrases les plus prononcées
par la personne interrogée. Il nous permet
de voir dun seul coup doeil, les thèmes
les plus souvent associés entre eux, et les
thèmes qui napparaissent pas ou peu dans
les mêmes phrases.
Lanalyse
syntaxique des co-occurrences (terme technique pour
désigner cette partie dune étude
de langage) nous apprend ce quaucune autre technique
ne peut nous apprendre.
|
|
|
|
|
1 Les mots-clés
et le lexique
|
|
Au
sens de lordinateur, le mot se définit
comme ce qui se trouve entre deux blancs. Au
sens commun le mot peut être un simple mot comme
Président ou une expression comme Président
de la République. Bref, le mot est la plus
petite unité signifiante dun texte. La
distribution statistique des mots dun texte
suit une loi connue depuis le début de ce siècle
du nom de son découvreur : la loi de Zipf.
Cette loi dit
Rang
x Fréquence = Constante,
ce qui signifie que
si nous multiplions le rang dun mot (sa place
dans un classement par ordre décroissant dapparitions)
par le nombre de fois où nous le trouvons dans
un texte, nous aurons tendance à trouver un
chiffre constant. Autrement dit, si le mot le plus
fréquent dun texte (rang = 1) est dit
1000 fois, le deuxième mot aura tendance à
se trouver 500 fois dans le texte et ainsi de suite...
A la fin de la liste nous trouverons 1000 mots nayant
été dit quune seule fois dans
le texte.
Dans toutes nos
études nous avons retrouvé cette loi,
et lavons simplifié sous la forme dune
pseudo-loi de Pareto en disant quen moyenne
:
avec
10 % des mots différents (que nous appelons
Mots-Clés) dun texte (lexique)
nous obtenons 90 % des apparitions de tous les mots
(appelées occurrences).
Ainsi,
même si le lexique dune étude donnée
peut atteindre plus de 5000 mots différents,
il nous suffira détudier le comportement
des 500 principaux mots, pour obtenir une analyse
satisfaisante de tout le texte.
Chaque
personne interrogée au cours dune étude
possède son propre lexique ou plutôt
sa propre utilisation du lexique commun. Mais rapidement,
au bout du 20 ème entretien environ, nous nous
apercevons que les mots utilisés par les interviewés
sont déjà connus. Autrement dit, le
langage est composé dun nombre fini de
mots différents ; cest un ensemble fini,
et partant, les techniques de calcul de la théorie
des ensembles peuvent sappliquer à lanalyse
de langage. Analyser le dit dune personne, cest
découvrir également son non-dit, en
fait lensemble complémentaire.
|
| |
|
Sites
médicaux
|
|
|
|
|
|