Home

R R IDI A P - Idiap Publications

image

Contents

1. Seuils 0 678 0 353 0 201 0 092 Fic 2 D rive des seuils en mode incr mental En revanche on observe pour les deux m thodes une d rive du seuil optimal pour le DTET en fonction du nombre de sessions prises en compte Ceci est mis en vidence pour l apprentissage incr mental sur la figure 2 o l on peut comparer les points de fonctionnements optimaux pour chaque configuration repr sent s pas des croix et le point de fonctionnement correspondant un seuil fixe optimis sur la configuration 5 sessions repr sent s par un rond Le m me ph nom ne s observe dans le cas de l apprentissage batch Cette d rive est g nante car elle rend n cessaire une estimation de seuil diff rente pour chaque r estimation ou chaque adaptation IDIAP RR 00 08 7 5 D rive des seuils 5 1 Analyse diagnostique Une analyse fine du comportement du syst me sur la t che trait e indique que la d rive des seuils provient de la variation dans la qualit de l estimation des mod les du client estimation d autant plus mauvaise que le volume de donn es utilis est limit En effet en cas de donn es insuffisantes les estimateurs P Y X des distributions clients P Y X sont de tr s mauvaise qualit et induisent de ce fait un biais n gatif dans la valeur du seuil optimal par rapport au seuil Bay sien th orique gal 0 pour le DTET D un point de vue pratique ces mauvaises estimations se manifestent d
2. Y prononc par un locuteur proclamant l identit X on calcule le logarithme du rapport de vraisemblance ba SER o P Y X repr sente la vraisemblance de l nonc sous l hypoth se qu il a t prononc par le locuteur proclam et o P Y X repr sente la vraisemblance de l nonc sous l hypoth se qu il a t prononc par un autre locuteur Le mod le probabiliste correspondant X dit mod le client est estim partir de donn es d apprentissage compos es d nonc s prononc s par X Le mod le correspondant X dit mod le non client est obtenu partir d nonc s semblables prononc s par d autres locuteurs Quand le mod le 4 IDIAP RR 00 08 du non client est le m me pour tous les clients ce qui est le cas dans ces travaux on le d signe par mod le du monde not 2 Dans les travaux d crits ici la v rification s effectue sur un mot ou un groupe de mot issu d un vocabulaire de 17 mots diff rents ce vocabulaire tant commun tous les clients Les mod les probabilistes utilis s sont des HMM Mod les de Markov Cach s topologie gauche droite un par mot dont les fonctions d mission des tats sont des m langes de distributions Gaussiennes Une sp cificit importante de nos HMM r side en ce que les mod les client et le mod le du monde ont une topologie identique 2 2 D cision et types d erreurs Dans les applications o il s agit de prendre une d cis
3. demment l approche propos e revient donc estimer les moyennes des gaussiennes des fonctions d mission pour les HMM clients sous la forme _ Bug bmx B b o ux est la moyenne de la gaussienne du mod le client adapt uo la moyenne de la gaussienne correspondante dans le mod le du monde mx la moyenne des donn es client associ es la gaussienne et 8 et b les poids attribu s au mod le du monde et aux donn es client respectivement Contrairement au cas pr c dent les poids et b ne peuvent tre choisis gaux au nombre d observa tions associ es la gaussienne consid r e dans le mod le du monde et le mod le client respectivement car en pratique 8 b C est pourquoi on r crit l quation pr c dente sous la forme HX ux YHa l y mx et lon choisit une valeur de y commune toutes les gaussiennes de fa on optimiser les performances du syst me Le param tre y correspond alors au poids relatif apparent du mod le du monde dans le processus d adaptation Dans nos exp riences nous avons test les valeurs de y gales 0 1 2 2 3 et 3 4 5 3 R sultats La table 1 montre l influence des valeurs de y sur le DTET et sur la valeur du seuil optimal pour le mod le intial et ceux issus d un apprentissage incr mental On observe que c est pour les valeurs de y de 1 2 et de 2 3 que les performances optimales sont obtenues avec une d rive des seuils moindre dans le second cas Notons que da
4. REPORT IDIAP RESEARCH Dalle Molle Institute for Perceptual Artificial Intelligence e P O Box 592 e Martigny e Valais e Switzerland phone 41 27 721 77 11 fax 41 27 721 77 12 e mail secretariat idiap ch internet http www idiap ch IDIA P Martigny Valais Suisse ADAPTATION ROBUSTE DE MOD LES HMM POUR LA V RIFICATION DU LOCUTEUR D PENDANTE DU TEXTE Johnny Mari thoz Fr d ric Bimbot IDIAP RR 00 08 JUNE 2000 PUBLISHED IN JEP2000 IDIAP BP 592 CH 1920 Martigny Switzerland IRISA Campus Beaulieu 35042 Rennes France IDIAP Research Report 00 08 ADAPTATION ROBUSTE DE MODELES HMM POUR LA VERIFICATION DU LOCUTEUR DEPENDANTE DU TEXTE Johnny Mari thoz Fr d ric Bimbot JUNE 2000 PUBLISHED IN JEP2000 Abstract When deploying a secure system based on speaker verification the limited amount of training data is usually critical Indeed the enrollment procedure must be fast and user friendly An incremental training of HMM speaker models based on a MAP Maximum A Posteriori adaptation technique is used in order to make the enrollment more robust with only one or two utterances of the client password This paper presents the improvements which can be achieved in term of verification performance and stability of the decision thresholds Our results highlight the benefits of MAP adaptation in conjunction with a synchronous alignment approach 2 IDIAP RR 00 08 Tab
5. adapter le mod le client courant partir du seul nonc de la session pr c dente Cette contrainte est impos e par la pr occupation de minimiser et de contr ler IDIAP RR 00 08 5 x le volume occup par les informations n cessaires caract riser le client On d signera par 12 3 12 3 4 et 12 3 4 5 les configurations correspondant l apprentissage incr mental avec les sessions 3 4 et 5 respectivement 3 2 Adaptation Bay sienne Les techniques d adaptation Bay sienne sont couramment utilis es pour estimation statistique des mod les probabilistes utilis s en reconnaissance de la parole GL94 car elles offrent un cadre th orique et une bonne efficacit pratique pour traiter des diff rents probl mes d adaptation que l on peut rencontrer dans les contextes applicatifs que ce soit l adaptation au locuteur au canal l environnement d utilisation etc voir par exemple MC99 Nous adoptons cette m me approche pour l apprentissage incr mental nous consid rons que le probl me pos revient adapter le mod le client estim sur les sessions initiales partir de nou velles observations en l occurrence les donn es client provenant des sessions ult rieures Mok98 Par ailleurs on se place dans le cadre de l adaptation supervis e c est dire sous l hypoth se que les don n es servant adapter le mod le proviennent effectivement du client Des travaux parall les F 00 tudient le co
6. est consid rablement r duite avec une fluctuation du seuil optimal de l ordre de 5 seulement autour du seuil th orique En outre le temps n cessaire une v rification est quasiment divis par deux car il suffit d effectuer un seul d codage Viterbi au lieu de deux Ces r sultats suppl mentaires confirment donc tout l int r t de la technique d alignement synchrone pour la v rification du locuteur IDIAP RR 00 08 9 20 12 12 3 10 12 3 4 12 3 4 5 5 hes x o Qk LL 1 0 5 0 2 0 1 Re ml i 0 10 2 05 1 2 5 10 20 FA Sessions 12 12 3 124344 12 3 4 5 Seuils 0 044 0 0 035 0 069 FIG 4 D rive des seuils avec une adaptation Bayesienne du mod le Q avec y 2 3 et alignement synchrone sur Q l apprentissage et au d codage 6 Conclusions Nos travaux tendent mettre en vidence l apport des techniques d adaptation diff rents ni veaux de l apprentissage des mod les de locuteur Nos exp riences illustrent l int r t d adapter le mod le client partir d un mod le ind pendant du locuteur Elles valident galement l utilisation d un apprentissage incr mental permettant de remettre jour de fa on incr mentale le mod le du client partir des nonc s prononc s en phase op rationnelle sans avoir stocker l ensemble des donn es acoustiques correspondantes Enfin nous confirmons l int r t de l alignement synch
7. eux niveaux d une part une mauvaise estimation des moyennes des gaussiennes dans les tats du HMM client D autre part un chemin de d codage inad quat lors de l alignement de l nonc de test avec le mod le client Les scores de vraisemblance de chaque trame de test sont donc doublement ent ch s d erreur 5 2 Apprentissage par adaptation L approche utilis e dans les exp riences pr c dentes repose sur un apprentissage du mod le client initial configuration 12 partir des donn es d entra nement correspondantes en utilisant le mod le Q comme initialisation de l algorithme EM N anmoins au cours des it rations certains tats peuvent devenir faiblement occup s voire totalement d sert s par les donn es d apprentissage ce qui a une influence n faste tant sur les capacit s de g n ralisation du mod le que sur la qualit de l alignement qu il peut fournir sur de nouvelles observations C est pourquoi nous avons opt dans notre contexte de v rification d pendante du texte pour une approche d estimation des mod les clients initiaux bas e sur l adaptation Bay sienne du mod le du monde s appuyant sur des r sultats montrant l int r t de proc der ainsi en v rification du locuteur ind pendante du texte Rey97 Seule l intialisation du mod le client est modif e tape 12 ensuite l apprentissage reste identique tape 12 3 etc En utilisant le m me formalisme d adaptation que pr c
8. ieux s curiser les transactions vocales sur les diff rents r seaux de t l communications en offrant la possibilit de r duire les risques de fraude sans n cessiter implantation d quipement suppl mentaire chez l abonn Cependant des difficult s sp cifiques existent pour ce type d applications commerciales une d entre elle tant la n cessit de garantir une mise en oeuvre rapide du service pour tout nouvel utilisateur En pratique les applica tions vis es doivent tre op rationnelles partir d une ou deux sessions d entra nement ce qui limite consid rablement la repr sentativit des donn es d apprentissage que ce soit en termes de couverture de la variabilit individuelle au cours du temps ou de type de microphone et de canal de transmission observ Pour rem dier ce probl me une solution consiste affiner au fil de l utilisation du syst me les mod les caract ristiques de chaque client avec les nonc s produits par ce client l occasion d uti lisation pr c dentes du service afin d acqu rir progressivement des donn es plus repr sentatives des diff rentes conditions d utilisation de l application par ce client Les travaux pr sent s dans cet article se placent dans le contexte d un formalisme probabiliste du probl me de la v rification du locuteur o la d cision est prise partir d un rapport de vraisemblance fourni par le mod le sp cifique du client et un mod le ind
9. ion binaire d acceptation ou de rejet de l identit proclam e le score Sy est compar un seuil de d cision choisi de fa on optimiser les performances du syst me dans une condition de fonctionnement particuli re Cette condition de fonc tionnement est sp cifi e par le rapport des co ts associ s aux deux types d erreur possibles faux rejet si un client authentique est rejet par le syst me et fausse acceptation si un imposteur n est pas d tect 2 3 Mesure des performances Les performances des approches d crites dans cet article sont pr sent es sous deux formes une courbe DET MP97 qui indique les caract ristiques du syst me en terme de pouvoir de s paration des clients et des imposteurs plus la courbe DET est proche de l origine meilleure est la s paration apport e est le syst me les performances du syst me dans une condition de fonctionnement quico t c est dire pour laquelle les deux types d erreur sont consid r es comme tant de gravit gale Dans ce cas la d cision optimale vise minimiser le Demi Taux d Erreur Total DTET c est dire la moyenne arithm tique du taux de faux rejets et du taux de fausses acceptations Les r sultats pr sent s sont obtenus par r glage des seuils a posteriori c est dire en optimisant le DTET sur l ensemble de test Notons que pour la condition de fonctionnement quico t le seuil Bay sien th orique sur le logarithme du rappo
10. le des mati res 1 Introduction 3 2 Cadre g n ral 3 2 1 Mod le probabiliste 3 2 2 D cision et types d erreurs 4 2 3 Mesure des performances 4 3 Apprentissage incr mental 4 3 1 Modalit s d apprentissage 2 a a 4 3 2 Adaptation Bay sienne 5 4 Performances 5 4 1 Protocole d valuation 5 A2 RESUS AS Tr sobre LTD RD R ESA RS MS ALU Ni wade S 5 5 D rive des seuils 7 51 Analyse diagnostique 40 poe el eS LEE ee eb dP ek 7 5 2 Apprentissage par adaptation 7 53 TR sultats is eatin Gk A tn ei D mg db E parodies LI IRINZ A ee 7 54 Align ment SYnChrONE rene ges ee le Pe MM eg ay 8 6 Conclusions 9 Table des figures 1 b tch vSAncr mental 48 22 cca Sa ee le es SREB MS Pe eee ee A 6 2 D rive des seuils en mode incr mental 6 3 D rive des seuils avec une adaptation Bayesienne du mod le du monde avec y 2 3 8 4 D rive des seuils avec une adaptation Bayesienne du mod le 2 avec y 2 3 et aligne ment synchrone sur Q l apprentissage et au d codage 9 IDIAP RR 00 08 3 1 Introduction La v rification du locuteur suscite un int r t croissant de la part des fournisseurs de services t l phoniques dans la mesure ot ces techniques permettent de m
11. mportement de l apprentissage incr mental en cas d attaques d imposteurs En pratique nous utilisons une version simplifi e de l apprentissage Bay sien qui consiste n ac tualiser que les moyennes des distributions gaussiennes selon la formule d adaptation An Un am 1 Pas Qn a O Hn et Un 1 d signent respectivement les moyennes du mod le avant et apr s adaptation et o m repr sente la moyenne des donn es observ es Le poids a est pris gal au nombre de donn es utilis es pour estimer la valeur de un et a correspond au nombre de valeurs observ es pour calculer m A chaque incr ment a est remis jour Qn41 Qn 4 Performances 4 1 Protocole d valuation La base de donn es utilis e comporte 17 mots de commande provenant de la base de donn es PolyVar suisse romand La population des clients est constitu e de 19 locuteurs 12 hommes et 7 femmes Une autre population de 56 locuteurs 28 hommes et 28 femmes est utilis es pour estimer le mod le du monde 56 nonc s Les r sultats exp rimentaux sont obtenus partir d environ 6000 acc s clients soit en moyenne de l ordre de 15 acc s par client et par mot et d peu pr s 12000 acc s imposteurs issus de la m me population que celle des clients Les coefficients LPCC d ordre 16 ainsi que les deltas et les delta deltas sont utilis s pour la param trisation acoustique des nonc s La topologie des mod les HMM des client
12. n and Technology Eurospeech 99 Budapest Hungary September 5 10 1999 MC99 C Mokbel and O Collin Incremental enrollment of speech recognizers In ICASSP 99 1999 Mok98 C Mokbel Incremental enrollment PICASSO WP5 Delivrable D5 1 December 1998 MP97 A Martin and M Przybocki The det curve in assessment of detection task performance In Eurospeech 97 volume 4 pages 1895 1898 1997 Rey97 D A Reynolds Comparison of background normalization methods for text independent speaker verification In Eurospeech 97 volume 2 pages 963 966 1997
13. ns ce dernier cas le seuil optimal ne diff re du seuil th orique que de 5 15 selon le nombre de sessions d adaptation 8 IDIAP RR 00 08 TAB 1 Influence de y sur le mod le initial et sur les mod les obtenus par apprentissage incr mental i Co IA e souil DTETIA Te souil DTETTA Do sul DET aa a p Sen DIET m lt 1243 10 12 3 4 1243 445 5 L x 2l LL 1 ba 0 5 0 2 o1 i i 0 102051 2 5 10 20 FA Sessions 12 1243 12 3 4 124 3 4 5 Seuils 0 072 0 131 0 170 0 208 FiG 3 D rive des seuils avec une adaptation Bayesienne du mod le du monde avec y 2 3 5 4 Alignement synchrone Pour tenter d accroitre la robustesse du syst me nous avons int gr dans le processus de v rification une technique de synchronisation des alignements des observations acoustiques dans le mod le client et dans le mod le du monde Selon cette approche M 99 la s quence d tats dans les deux mod les est exactement la m me et est en l occurence d finie par l alignement dans le mod le du monde La figure 4 montre les r sultats avec adaptation dans le cas de l utilisation d un alignement syn chrone sur le mod le 2 pour l apprentissage et le d codage Il est int ressant de noter que les performances en terme de courbes DET sont similaires celles observ es pr c demment figure 3 mais que la d rive du seuil
14. pendant du locuteur appel mod le du monde Nous utilisons les techniques d adaptation Bay sienne pour effectuer l apprentissage incr mental du mod le du client Nous comparons tout d abord l impact sur les performances du syst me d une approche incr mentale par adaptation partir des donn es nouvelles par rapport une approche par r apprentissage complet utilisant l ensemble des donn es produites Nous commentons ensuite nos observations sur la d rive des seuils de d cision optimaux et nous pr sentons une solution permettant de rem dier aux probl mes rencontr s en utilisant galement une technique Bay sienne pour estimer le mod le client initial Enfin nous mettons en vidence un avantage suppl mentaire utiliser une technique d alignement synchrone pour calculer le rapport de vraisemblance sur une s quence d tats commune aux mod les du client et du monde Les travaux rapport s dans cet article sont effectu s dans le contexte du projet Europ en Telematics PICASSO B 99 Work Package 5 Les exp riences ont t r alis es avec la plate forme logicielle commune Picassoft sur la base de donn es Poly Var suisse romand selon un protocole exp rimental d fini par l ensemble des partenaires 2 Cadre g n ral 2 1 Mod le probabiliste L approche utilis e dans l ensemble de cet article s appuie sur un formalisme probabiliste du pro bl me de la v rification Pour un enonc de test not
15. rone qui semble contribuer faciliter le r glage et le suivi des seuils en apprentissage incr mental Une des tapes suivantes consiste tendre cette tude au cas de l apprentissage non supervis c est dire sans savoir a priori si les nonc s d apprentissage ont effectivement t produits ou non par le client Remerciements Ce travail est financ par POFES Office F d ral de l Education et de la Science project n 97 0494 2 et par la CE Commission Europ enne Telematics Programme LE4 project 8369 R f rences B 99 F Bimbot et al An overview of the picasso project research activities in speaker verification for telephone applications In 6th european conference on speech communication and tech nology eurospeech 99 volume 5 pages 1963 1966 Budapest Hungary September 5 10 1999 Ft 00 C Fredouille et al Behavior of a bayesian adaptation method for incremental enrollment in speaker verification In ICASSP2000 IEEE International Conference on Acoustics Speech and Signal Processing Istanbul Turkey June 5 9 2000 GL94 J L Gauvain and C H Lee Maximum a posterionri estimation for multivariate gaussian mixture observation of markov chains In IEEE Transactions on Speech Audio Processing volume 2 pages 291 298 April 1994 10 IDIAP RR 00 08 M 99 J Mari thoz et al Client world model synchronous alignement for speaker verification In 6th European Conference on Speech Communicatio
16. rt de vraisemblance est gal 0 3 Apprentissage incr mental 3 1 Modalit s d apprentissage Une partie de notre tude consiste comparer les performances du syst me selon deux modalit s d apprentissage des mod les du client d sign es par mode batch et mode incr mental Dans les deux modalit s un mod le client initial est estim partir de 1 r p tition provenant des 2 res sessions d enregistrement soit 2 nonc s au total Le mod le initial ainsi obtenu sera d sign dans la suite par l abr viation 12 Pr cisons que l algorithme d apprentissage utilis est l algorithme des k moyennes segmentales c est dire un algorithme EM avec segmentation par Viterbi o le mod le initial est le mod le du monde Dans le mode batch on r estime compl tement apr s chaque nouvelle session le mod le client partir des donn es d initialisation 2 res sessions auxquelles on adjoint successivement la r p tition des sessions ult rieures session 3 puis 4 puis 5 soit des ensembles d apprentissage constitu s respec tivement de 3 4 et 5 nonc s Chaque r estimation n cessite que soit conserv s en m moire les nonc s repr sent s sous forme acoustique param tr e On d signera ces configurations par les abr viations 123 1234 et 12345 Dans le mode incr mental on fait hypoth se que l on a plus acc s aux donn es acoustiques des sessions pass es et que l on doit se limiter
17. s et du monde est identique savoir 2 tats par phon me et 1 gaussienne par tat 4 2 R sultats La figure 1 pr sente sous forme de courbes DET les performances des deux protocoles d appren tissage incr mental vs batch Ces figures mettent en vidence un avantage relativement marginal de Vapproche batch On retiendra donc que l approche incr mentale ne semble pas d grader les perfor mances de fa on sensible et qu il est donc judicieux de l utiliser d s lors que les capacit s de stockage pour chaque client sont limit es 1 annulation casino cin ma concert corso exposition galerie du Manoir Gianadda guide Louis Moret Manifes tation message mode d emploi mus e pr c dent quitter suivant 6 IDIAP RR 00 08 20 r 20 12 D 123 1243 10 1234 10 12 3 4 12345 12 3 4 5 5 5 x He 2 or 2 1 1F 0 5 be 0 5 0 2 Fe 0 2 0 1 i i i n i 1 0 1 i i i i i i 0 10 2 0 5 1 2 5 10 20 0 10 2 0 5 1 2 5 10 20 FA FA a batch b incr mental Sessions 12 12 3 4 12 3 4 5 DIET A bain 67 207 361 DTET incremental 5 67 4 26 3 73 3 39 Fic 1 batch vs incr mental ae Ja 12 3 10 12 3 4 12 3 4 5 5 L z 2 LL 1 L 0 5 02 o1 EE i 0 10 2 0 5 1 2 5 10 20 FA Sessions 12 12 3 124 3 4 124 3 4 5

Download Pdf Manuals

image

Related Search

Related Contents

取扱説明書 D JA セグメントロールガイド装置 SW  Mpman CSU640BT  ASUS P8B75-V F8474 User's Manual  WIRED CONTROLLER  service manual fm/mw/lw cassette car stereo  Piano di Sicurezza e di Coordinamento  Abit Slot 1 BE6-II (BE6  RLM W12  Technical Handbook For The Repair And Maintenance of Walk  SFI interactivo onda Senoidal Manual de Usuario  

Copyright © All rights reserved.
Failed to retrieve file