Home

Reconnaissance de la parole et modélisation statistique expérience

image

Contents

1. EVE k a p iX econnaissance de la parole Reconnaissance de la parole et mod lisation statistique exp rience du CNET Speech recognition and statistical approach CNET s experience C GAGNOULET CNET LAA TSS RCP Christian GAGNOULET n le 2 septembre 1952 Dipl m de l cole BP 40 F 22301 Lannion Nationale Sup rieure des T l communications il entre au CNET en 4976 Il s int resse la r alisation de diff rents syst mes de reconnaissance de parole et la mise en application de ces syst mes Il est aujourd hui responsable des tudes de reconnais sance au d partement Recherches en Communications par la Parole D JOUVET CNET LAA TSS RCP Denis JOUVET n le 23 juilet 1956 Ancien l ve de l cole BP 40 F 22301 LANNION Polytechnique et ing nieur des T l communications il entre au CNET en 1981 A partir de 1985 il con oit et d veloppe le syst me PHIL86 et participe sa mise en application dans plusieurs projets I soutient en 1988 une Th se de Doctorat de l ENST sur la reconnaissance statistique ind pendante du locuteur Cet article d crit les travaux men s au CNET ces derni res ann es dans enseignements qui en ont t tir s et les r sultats des valuations men es le domaine de la reconnaissance de la parole Apr s avoir rappel le sur le terrain contexte de cette recherche on d crit le logiciel PHIL86 destin reconna tre des vocabulaires de peti
2. en place Un premier relev des erreurs r ellement imputables au syst me de reconnaissance hor mis celles dues au locuteur laisse supposer que plus de 50 de ces erreurs r sultent de mots tronqu s par suite d une erreur du processus de s paration bruit parole automate d tats fint travaillant sur l nergie du signal de Traitement du Signal 272 parole Ceci se produit principalement durant les phases de double parole interruption d un message en cours conditions videmment tr s diff rentes de celles que l on utilise durant l apprentissage ou durant les tests de laboratoire Ceci montre une fois de plus le peu de signification des tests effectu s en laboratoire mais aussi la n cessit de s adapter dynamiquement aux conditions r elles de prise de son en phase d exploitation de ces serveurs valuation du service Un des points fondamentaux relev s lors des exp rimentations est la n cessit de valider la reconnaissance durant tout le dialogue y compris durant l mission des messages vocaux Gr ce cette possibilit le serveur s av re plus rapide et plus naturel qu un serveur identique utilisant un dialogue par clavier touches multifr quences ou qu un serveur VIDEOTEX Depuis plus d un an ce serveur monovoie une seule ligne t l phonique est utilis r guli rement par les habitants de Lannion Plus de 6 000 communications ont t relev es entre avril 88 et f vr
3. les habitudes des utilisateurs fran ais Ainsi le syst me de reconnaissance autorise la prononciation des nombres de 00 99 en mode mots encha n s auxquels s ajoutent quelques mots isol s pour certaines fonctions particuli res appels directs des num ros d urgence POMPIERS SAMU ou pour le contr le du dialogue ENVOI CORRECTION Un exemple de dialogue entre un usager et la cabine PUBLIVOX est repr sent sur la figure 2 En fonction des actions m caniques de l usager et des mots prononc s commandes vocales on indique l tat du dialogue et l affichage correspondant sur la barrette Commande vocale sie D crochez ou ins rez votre carte Introduction carte verrouillage Prononcez votre num ro par grou pes de 2 chiffres 96 96 07 96 96 05 Communication Raccrochage Inactif Appui sur bouton R cup ration de la carte Figure 2 Exemple de dialogue entre un usager et PUBLIVOX Traitement du Signal 271 econnaissance de la parole Une exp rience du CNET Les dix prototypes ont t install s fin 1988 dans 6 villes fran aises Paris Rennes Montpellier Valence Lannion et Perros Guirec Le comportement des usagers a t suivi et analys durant 6 mois dans 3 de ces villes valuation de la reconnaissance Le taux d erreur de reconnaissance observ en situation avec des utilisateurs novices es
4. tion statistique nous d crirons les sp cificit s du logiciel PHILS6 Puis pour deux applications diff rentes nous d taillerons la mise en uvre les probl mes rencontr s et l valuation qui en a r sult 2 Description de PHIL86 2 1 MOD LISATION STATISTIQUE L approche par mod les de Markov cach s 3 4 est utilis e au CNET depuis 1985 et a donn naissance au syst me PHIL86 SI Ce syst me s est rapidement av r nettement plus performant que le syst me ant rieur SERAPHINE qui reposait sur la technique de comparai son dynamique entre formes acoustiques 6 Ce syst me PHIL86 permet l introduction dans les mod les de connais sances phon tiques explicites 7 8 Dans ce syst me les fonctions de densit de probabilit sont associ es aux transitions et sont suppos es continues et gaussiennes avec une approximation diagonale pour les matrices de covariance L analyse acoustique calcule toutes les 16 ms fen tres de Hanning de 32 ms avec un recouvrement de Traitement du Signal 268 econnaissance de la parole Une exp rience du CNET 50 6 coefficients cepstraux obtenus partir de l chelle Mel MFCOC compl t s par un param tre d nergie et sa variation temporelle entre trame suivante et trame pr c dente Les mod les de Markov employ s sont d finis par les tats q de la cha ne de Markov sous jacente les probabilit s a des transitions et les param tres vecteurs mo
5. alis es par le CNET ont servi en particulier sensibiliser les indus triels aux possibilit s offertes par la reconnaissance Le savoir faire tant maintenant entre les mains des indus triels de nouvelles applications de complexit quivalente devraient se d velopper en 1990 notamment dans le domaine des serveurs vocaux interactifs Nous d crirons ici les deux premi res de ces applications lanc es par le CNET entre 1985 et 1987 la cabine t l phonique PUBLIVOX command e la voix recon naissance locale et le serveur interactif MAIRIEVOX reconnaissance travers le r seau t l phonique 3 1 PUBLIVOX CABINE PUBLIQUE COMMAND E A LA VOIX En supprimant le clavier et le combin t l phonique dans une cabine t l phonique publique on r duit d autant les risques de vandalisme tout en am liorant le confort gr ce la conversation en mode mains libres Le projet PUBLI VOX 10 men avec la participation industrielle de la soci t CROUZET reposait sur cette hypoth se et avait galement pour objectif d tudier les limites en situation r elle des syst mes de reconnaissance ind pendants du locuteur et de mieux mesurer l importance des facteurs humains dans un dialogue homme machine Il faut noter qu en m me temps on pla ait la reconnaissance dans une situation techniquement tr s risqu e environnement acoustique difficile utilisation d un vocabulaire difficile et tr s peu comp titif fac
6. ar mots tr s simples sont pris en compte et l analyse acoustique est ici r duite un calcul d histo grammes de passages par z ro On aboutit ainsi pour un co t approximatif de 100F un syst me presque ind pendant du locuteur capable d identifier presque correctement jusqu 8 mots isol s 2 4 VALUATIONS EN LABORATOIRE Plusieurs tests de laboratoire ont t effectu s sur PHILS86 avec des bases de donn es enregistr es travers le r seau t l phonique interurbain avec des locuteurs d accents r gionaux diff rents Chiffres Chiffres isol s 0 9 450 locuteurs Tr gor 36mots isol s mots de commande 510 locuteurs Nombres Nombres deux chiffres 00 99 720 locuteurs Une base de donn es compl mentaire a t enregistr e travers le r seau t l phonique local pour tudier l influence de la taille du vocabulaire sur les performances Mots les 500 mots les plus courants du Fran ais base d compos e en s ries al atoires de 100 mots 10 locu teurs et 3 r p titions par locuteur Pour cette base les r sultats sont fournis pour des sous ensembles de 100 300 et 500 mots Mots _ 100 Mots 300 et Mots_ 500 Les trois premi res bases ont t d coup es en deux parties sensiblement gales une pour l apprentissage Pautre pour les tests contenant videmment des locuteurs diff rents pour des tests en mode ind pendant du locuteur Xloc La
7. aux USA Les prix sont en baisse les performances annonc es en hausse Les tudes de march 1 2 pr disent avec obstination depuis 1980 une explosion du march dans un futur proche Malgr cela il n existe toujours pas d application de grande diffusion L impact dans le grand public demeure quasi ment nul la reconnaissance y tant souvent totalement inconnue ou per ue comme un gadget amusant Les tudes de reconnaissance men es au CNET depuis 1981 ont pour vocation de r pondre aux besoins sp cifi ques des T l communications C est pourquoi certains choix ont t faits depuis plusieurs ann es limitant les efforts de recherche quelques domaines jug s prioritai res la reconnaissance ind pendante du locuteur en pr sence de canaux de transmission t l phoniques ainsi que la prise en compte des facteurs humains cruciaux pour la mise en place d applications r elles A partir de 1985 une nouvelle g n ration de syst mes de reconnaissance a t con ue au CNET reposant sur une mod lisation statistique du vocabulaire de chaque applica tion Ces syst mes utilisent des variantes d un m me logiciel appel PHIL86 qui ont t implant es sur des dispositifs mat riels adapt s cartes RDP avant d tre valu es en situation dans plusieurs applications exp ri mentales et transf r es depuis dans le milieu industriel fran ais Apr s quelques rappels sur les principes de cette mod lisa
8. derni re base a servi des tests plurilocuteurs liste ferm e de locuteurs Ploc On pr sente dans le tableau 2 deux ensembles de tests Pour les tests PHIL86 RDP on utilise des mod les par pseudo diphones et l analyse acoustique standard de la carte RDP50 6 MFCC l nergie et sa variation Traitement du Signal 270 econnaissance de la parole Une exp rience du CNET TABLEAU 2 valuations de PHIL86 en laboratoire Type Taille du corpus PHILS86 PHIL386 de test RDP VAX Chiffres 2 100 mots 2 5 0 7 1 1 3 gt 0 5 8 400 mots 2 5 0 3 0 9 0 2 Tr gor Nombres XLoc 6 700 mots 8 5 0 7 5 5 0 5 7 2 chiffres 1 000 mots 3 000 mots 5 000 mots Mots_100 Ploc 5 2 1 4 Mots_300 Ploc 13 3 1 2 Mots_500 Ploc 21 1 gt 1 1 Pour les tests PHIL86 VAX on emploie des mod les par mots avec 30 tats par mot et une analyse acoustique tendue calculant toutes les 16 ms 8 MFCC l nergie et les d riv es temporelles de ces 9 param tres obtenues par r gression lin aire sur 5 trames adjacentes 80 ms 3 Applications aux T l communications Les premi res applications de la reconnaissance vocale dans les T l communications ne sont apparues en France qu en 1988 Elles reposent toutes sur les techniques pr sent es ci dessus logiciel PHILS86 et cartes associ es ou d riv es de celles ci Ces applications initi
9. e aux claviers les nombres volume 7 n 4 Une maquette de cabine commande vocale o la num rotation tait obtenue en pronon ant des chiffres isol s ayant t favorablement accueillie lors d une exposi tion au mus e postal Paris en 1984 il fut d cid de r aliser 10 prototypes industriels o la num rotation serait faite par groupes de deux chiffres Ces prototypes devaient tre valu s sur le terrain aupr s du grand public dans plusieurs villes fran aises Ext rieurement les cabines PUBLIVOX restent tr s proches des cabines publiques conventionnelles Seules les vitres de l habitacle ont t renforc es pour am liorer lisolation acoustique une am lioration de 6 dB a ainsi t obtenue Le combin est remplac par un microphone et un haut parleur dissimul s derri re des grilles de protec tion La barrette d affichage a t conserv e pour guider l usager La parole synth tique cod e bas d bit est r serv e aux cas o l usager h site ou commet une erreur au cours du dialogue avec le publiphone Le paiement par cartes m moire est bien entendu conserv Les nouveau t s essentielles concernent l emploi de la reconnaissance de la parole durant la phase de num rotation et d un t l phone mains libres durant la phase de communication La reconnaissance est effectu e en local large bande La num rotation se fait en pronon ant des nombres de deux chiffres selon
10. h septembre 1987 11 C Gacnouzer J Damay MAIRIEVOX a speech activated voice information system Eurospeech Paris septembre 1989 volume 7 n 4
11. ier 89 Plus de la moiti de ces appels 62 concernent les renseignements relatifs aux loisirs ce qui tend prouver l int r t du service Aujourd hui encore sans aucune publicit ext rieure au CNET MAI RIEVOX re oit environ 150 appels par semaine essentiel lement en soir e horaires des cin mas Hormis l int r t purement local du service MAIRIEVOX a permis de d montrer la faisabilit de telles applications volume 7 n 4 econnaissance de la parole Une exp rience du CNET S erveur Bonjour ici MAIRIEVOX tout moment pour obtenir des renseignements sur MAIRIEVOX utilisez le mot GUIDE Et maintenant vous Dites SERVICES DE GARDE LOISIRS ou MAIRIE Utilisateur LOISIRS S Dites SPECTACLES MANIFESTATIONS LOCALES ou CINEMAS CINEMAS Dites LE CLUB LE TAPAL OEIL LE CLUB Programmes du cin ma LE CLUB Rain Man le 25 SUIVANT Chinatown PRECEDENT Rain Man AUTRE RUBRIQUE Dites LE CLUB GUIDE nn C n En Eee un Guide Figure 4 Exemple de dialogue entre un usager et MAIRIEVOX sur le r seau t l phonique Parmi les domaines directe ment concern s il faut citer les t l sondages les jeux interactifs les syst mes de messagerie l accueil automati que au niveau des standards d entreprise D ores et d j plusieurs syst mes industriels comparables mais de
12. ivers titres ces travaux Manuscrit re u le 14 d cembre 1989 volume 7 n 4 BIBLIOGRAPHIE 1 STONERIDGE TECHNICAL SERVICES Understanding Voice IJO markets opportunities in the 80s 1984 2 Prose RESEARCH Inc Speech recognition the major market thrusts 1988 1995 New York d cembre 1988 3 F JeLmex Continuous speech recognition by statistical methods Proc IEEE vol 64 avril 1976 4 L R Rasmer B H Juang An introduction to Hidden Markov Models IEEE ASSP Magazine 1986 5 D Jouver J Monne D Dusois new network based speaker independent connected word recognition system IEEE ICASSP 86 Tokyo 1986 6 C GacnouLer M CouvraT SERAPHINE a Connected Word Speech Recognition System Proc IEEE ICASSP 82 Paris 1982 Traitement du Signali 274 econnaissance de la parole Une exp rience du CNET 7 D Jouvet Reconnaissance de mots connect s ind pendamment du locuteur par des m thodes statistiques Th se Doctorat ENST Paris juin 1988 8 K BarrkovA D Jouver Speaker Independent Speech Recogni tion Using Allophones Proc ICPhS 1987 Tallin USSR ao t 1987 9 J P Tusacu C GaGnouLer J L Gauvain Advances in speech recognition products from France Speech Technology Confe rence New York avril 1989 10 C Gacnourer F ZuRCHER J Tirgois T SERRADURA PUBLI VOX a voice controlled card pay phone European Conf on Speech Technology Edinburg
13. oarticulations entre mots fig le et de d finir ventuelle ment des unit s allophoniques fig 1d La description des mod les de Markov pour chaque unit de base cha ne de Markov et association des densit s de probabilit Afin de r duire les calculs lors de la phase de reconnais sance le r seau est optimis en regroupant les l ments communs ig la et 1c Pour des petits vocabulaires quelques dizaines de mots et pour une prononciation en mots isol s les mod les utilisant les mots comme l ments de base sont suffisants En revanche pour de plus gros vocabulaires ou bien pour le traitement des mots encha n s l emploi d unit s de taille inf rieure au mot devient n cessaire pour des raisons de taille du mod le et de qualit de reconnais sance En effet on obtient ainsi des mod les plus compacts et l introduction des r gles phonologiques permet d am liorer sensiblement la qualit de reconnaissance Traitement du Signal 269 2 3 IMPLANTATION SUR CARTES Trois cartes ont t con ues en 1986 et 1987 pour recevoir et exploiter ce logiciel PHIL86 sous des formes plus ou moins simplifi es 9 comme le r sume le tableau 1 La carte RDP50 est une carte au format PC organis e autour d un processeur Texas Instruments TMS32020 ou TMS320c25 et dot e d une capacit m moire de 2 fois 64 Kmots de 16eb La parole est num ris e au moyen d un COFIDEC adapt aux conditions d expl
14. oitation t l phoniques Pour une fr quence d horloge de 40 MHz on peut reconna tre en temps r el un vocabulaire d environ TABLEAU 1 Cartes de reconnaissance adapt es PHIL86 Logiciels Interface RDP8 PHIL86 simplifi mots isol s RS232 volume 7 n 4 70 mots On notera qu en utilisation t l phonique et pour des raisons de qualit de reconnaissance il convient de se limiter une dizaine de mots diff rents chaque instant Cette carte est aujourd hui commercialis e par plusieurs soci t s fran aises XCOM SEFER MEDIAVISUEL un prix voisin de 15 000 F logiciel compris La carte RDP20 est une version r duite de la pr c dente C est galement une carte au format PC mais elle utilise un processeur moins puissant le TMS32010 de Texas Instruments Avec une capacit m moire r duite 2 fois 8 Kmots on peut traiter des vocabulaires d une trentaine de mots avec des performances identiques celles obte nues sur la RDP50 Cette carte dot e d une interface t l phonique int gr e est commercialis e par la soci t ACSYS un prix de 15 000 F environ En bas de gamme enfin et pour des applications grand public tol rantes o le co t est le crit re dominant jeux la carte RDP8 a t r alis e titre d exercice de style essentiellement En effet cette carte exploitable par liaison RS232 utilise un monochip Motorola 6805 Seuls des mod les p
15. plus forte capacit 60 voies t l phoniques ou plus ont t mis en place et sont en cours d exp rimenta tion certains avec plusieurs milliers d appels par jour D autres sont attendus pour les prochains mois 4 Conclusion et perspectives Des progr s sensibles ont t accomplis ces derni res ann es et des applications r elles ont montr que les techniques de reconnaissance ont pr sent atteint sous certaines conditions un niveau de qualit acceptable par le grand public Cependant elles ont aussi mis en lumi re l importance de l ergonomie du dialogue pour la r ussite Traitement du Signal 273 d une application vocale et l importance de probl mes techniques dont ne se pr occupaient gu re les chercheurs jusque l Ainsi le rejet des mots trangers au vocabulaire recon na tre reste un probl me pour lequel aucune solution satisfaisante n a encore t trouv e en mode ind pendant du locuteur Une meilleure tol rance vis vis des d fauts d locution des locuteurs h sitations r p ti tions mots parasites para t galement un pr alable n cessaire au d veloppement de services nouveaux bien accept s du grand public C est sur ces points prioritaire ment que porteront nos efforts de recherche au cours des prochaines ann es REMERCIEMENTS Les auteurs tiennent associer ce papier tous les membres de l quipe de reconnaissance du CNET ayant contribu d
16. suscit es et la meilleure connaissance des conditions r elles d exploitation de la reconnaissance qu elle a permise 3 2 MAIRIEVOX SERVEUR VOCAL INTERACTIF Les progr s de reconnaissance ont permis d envisager d s 1987 des applications centralis es dans le r seau t l phoni que sous forme de serveurs interactifs commande vocale La qualit du r seau analogique et la diversit des microphones et des terminaux entra nent cependant des limitations s v res sur la taille des vocabulaires reconnus chaque instant une dizaine de mots isol s seulement Les probl mes ergonomiques pos s par des dialogues enti rement vocaux pour ces serveurs destin s au grand public d finition des prompts choix des menus proc du res de r cup ration des erreurs de reconnaissance ont t soigneusement tudi s Un serveur sur PC d montrant l int r t de la reconnais sance dans le domaine de l information au grand public a ainsi t r alis et install par le CNET la mairie de Lannion d s Avril 1988 Ce serveur MAIRIEVOX 111 est destin fournir aux habitants de cette ville des renseigne ments vocaux sur les loisirs r gionaux ou sur les services d urgence Le dialogue entre le syst me et l usager est de type arborescent menus explicites l usager doit dans chaque cas prononcer une des commandes qui lui sont propos es volume 7 n 4 Tel 96 37 97 00 Services de garde Act
17. t beaucoup plus maniable notamment avec une arithm ti que en virgule fixe C est pour cette raison que dans PHIL86 nous utilisons cet algorithme aussi bien durant la reconnaissance que l apprentissage 2 2 MOD LISATION DES APPLICATIONS Dans PHILS6 les mod les de chacun des mots sont regroup s en un r seau unique compil pour chaque application qui d crit toutes les s quences de mots autoris es dans le cas d une reconnaissance de mots encha n s Ce r seau inclut des mod les de silence en d but et en fin de phrase ce qui autorise l emploi d un algorithme de s paration bruit parole relativement simple Pour une application donn e on doit associer ce r seau les densit s de probabilit sur l espace des trames acousti ques Pour illustrer cette mod lisation et afin de ne pas alourdir la figure nous avons choisi l exemple d une application fictive destin e reconna tre les nombres 2 chiffres compris entre 00 et 69 Pour construire ce mod le unique on introduit et on traite successivement La syntaxe des phrases possibles fig la volume 7 n 4 econnaissance de la parole Une exp rience du CNET Figure 1 Mod lisation d une application Nombres compris entre 00 et 69 e La d composition ventuelle de chaque mot fig 1b en unit s plus petites syllabes phon mes ou diphones e Les r gles phonologiques qui permettent de traiter les c
18. t voisin de 25 pour les nombres deux chiffres Ce chiffre est comparer ceux obtenus lors des valuations en laboratoire 3 3 d erreur pour des nom bres 3 chiffres enregistr s en large bande et lors d une valuation faite Lannion dans un PUBLIVOX avec des locuteurs exp riment s 7 d erreur La plupart des erreurs de reconnaissance proviennent d une part du non respect des consignes d locution par les usagers mode d emploi non lu ou mal interpr t d autre part du manque de robustesse du syst me face aux perturbations acoustiques Paris notamment valuation du service Les moyennes observ es r v lent qu au premier essai 19 des utilisateurs abandonnent en cours de route ou composent un mauvais num ro Cer tains des utilisateurs ont t convi s faire une seconde tentative Lors de ce second essai ce pourcentage tombe 9 Ceci montre bien l effet d adaptation du locuteur Le t l phone mains libres et le guidage par messages vocaux en cas de probl mes sont tr s appr ci s Globalement le trafic observ sur les PUBLIVOX s l ve 65 de celui obtenu avec des cabines conventionnelles situ es proxi mit Tr s peu de r actions de rejet ont t observ es M me si le co t des prototypes ne permet pas une g n ralisation de ces cabines dans l tat actuel cette exp rience reste tr s positive par les am liorations techni ques qu elle a
19. te taille ind pendamment du locuteur et les d veloppements mat riels qui lui ont t associ s Deux MOTS CL S exp rimentations de la reconnaissance dans le domaine des T l commu Applications de la reconnaissance de parole mod les de Markov cach s nications sont ensuite pr sent es en insistant principalement sur les reconnaissance ind pendante du locuteur serveurs vocaux interactifs This paper presents the work done at the CNET in speech recognition KEYWORDS during the last few years The authors present the recent generation of Speaker independent systems based on statistical modeling using the Markov models PHILS86 software Seyeral applications of these systems in the Telecommunications area are described as well as the lessons drawn from them Speaker independent speech recognition applications hidden Markov modeling speech activated audiotex Nota Cet article reprend plusieurs fragments d un article publi dans l cho des Recherches n 135 du 1 trimestre 1989 267 Traitement du Signal PTE volume 7 n 4 L Introduction Les d monstrations en laboratoire de syst mes de recon naissance sont chaque jour plus impressionnantes tr s gros vocabulaires reconnus langue quasi naturelle Le nombre de produits industriels ne cesse de cro tre environ 200 produits diff rents disponibles aujourd hui et les soci t s proposant des syst mes de reconnaissance sont nombreuses notamment
20. ualit s Guide Suivant Pr c dent Autre rubrique Annulation Oui Non econnaissance de la parole Une exp rience du CNET Cin mas Le Tapael oell j Les Baladines Le Club Figure 3 Description du service MAIRIEVOX Ce type de dialogue limite de fait la complexit de l arbre d crivant le service puisque pour des raisons de rapidit d acc s l information l arbre ne doit pas tre trop profond et pour des raisons de m moire auditive il ne doit pas tre trop large Une profondeur et une largeur de 3 semblent un compromis tout fait acceptable La structure de cet arbre est pr cis e sur la figure 3 La figure 4 illustre un exemple de dialogue entre un usager et MAIRIEVOX On notera que le syst me autorise l usager interrompre les messages tout moment ce qui compte tenu de la mauvaise s paration entre les voies d mission et de r ception a n cessit d introduire un annuleur d cho pour ne pas d grader la qualit de reconnaissance valuation de la reconnaissance Le vocabulaire de recon naissance comporte 21 mots isol s mais seulement 6 d entre eux sont valides un instant donn 3 choix possibles 3 mots de gestion Ici encore comme pour PUBLIVOX on observe un cart important entre les taux d erreur en laboratoire 2 5 et ceux observ s en situation de l ordre de 20 d erreur Une proc dure d coute des mots prononc s a t r cem ment mise
21. yennes m et matrices de covariance diagonales des fonctions de densit de probabilit gaussiennes B associ es aux transitions En notant X r la i me trame vecteur de p coefficients du mot inconnu X 1 T de T trames B X r repr sente la probabilit d observation de la trame Xft durant la transition de l tat q vers l tat qi Au cours de la reconnaissance on s int resse la probabi lit maximale d observation de l ensemble des trames du mot ou de la phrase inconnu la cha ne de Markov tant donn e En notant fr g l la probabilit maximale d observation des t premi res trames le long des chemins atteignant l tat q au temps 7 on peut utiliser l algorithme de Viterbi algorithme de programmation dynamique pour calculer fr g l Vi partir de D r 1 g l Vi Pour chaque trame et pour tous les tats de la cha ne nous utilisons la formule de r estimation suivante qui tablit qu un chemin de longueur 7 r sulte de la prolongation d un chemin de longueur 7 1 par une transition entre tats et l observation de la trame X r au cours de cette transition fr g l Max D r L q l dji Ba X r dj Ainsi en notant gp le dernier tat de la cha ne T qp est la probabilit cherch e Bien gue algorithme de Baum Welch calcule la probabi lit d observation exacte et non pas la probabilit maxi male le long d un chemin l algorithme de Viterbi es

Download Pdf Manuals

image

Related Search

Related Contents

H. FLーA32A/CR-AD    Installation Guide PDF  

Copyright © All rights reserved.
Failed to retrieve file