Home
Corpus OTG - Université François Rabelais
Contents
1. UNIVERSIT Le FRAN OIS RABELAIS Corpus OTG Pr sentation g n rale Jean Yves Antoine LI Universit Fran ois Rabelais de Tours Rapport technique VALORIA CORAIL 2002 02 Universit de Bretagne Sud http www info univ tours fr antoine parole publique Introduction Ce document pr sente en d tail le corpus OTG Office du Tourisme de Grenoble un corpus pilote de dialogue oral homme machine r alis par les laboratoires VALORIA et CLIPS IMAG avec le soutien de l AUF dans le cadre de l Action de Recherche Concert e Dialogue Oral ARC ILOR B2 ainsi que dans le cadre du projet AGILE OURAL du programme TECHNOLANGUE du Minist re de la Recherche Ce corpus est diffus librement par le laboratoire LI de l Universit de Tours sous r serve de respect d une convention d utilisation sur Internet dans le cadre du projet PAROLE PUBLIQUE Plus pr cis ment ce rapport pr sente le contenu du corpus distribu ainsi que les conditions dans lesquelles il a t recueilli les modes de distributions du corpus la convention laquelle elle li e l utilisation de ce corpus toutes fins scientifiques ou industrielles les r f rences bibliographiques associ es ce corpus les conventions de transcription et d encodage suivies lors de la r alisation du corpus 1 Pr sentation du corpus contenu et conditions d enregistrement Le corpus OTG est un corpus pilote de d
2. E 1460154 cF5 E 14G0157 4FO E 14G0359 cF5 El 14G0364 4FO E 14G0141 AF5 1acoiss liacois7 ars iacos 2 E 1aG0364 4F5 5 14G0141 CFS E 14G0155 4FO E 14G0157 CF5 E acosz Aaro E 1a60364 cF5 a l1aG0154 Mliacoiss aFs 1a60359 iacos z ars liacoses E 1A60154 4F0 E 14G0155 CFS E 14G0359 AFO E 14G0362 cF5 E 14G0365 4FO lt gt Nom du fichier Fichiers de type Ouvrir A Annuler 3 SfSWin n arrive pas reconna tre le format des fichiers OTG Nous allons donc devoir lui pr ciser certaines informations la main Cho isissez pour cela l option Link dans le menu qui appara t SFSWin cannot process file D CORPUS_PAROLE_PUBLIQUE DISTRIBUTION_OTG_AUFOTGSUDIOMAGOTAT AFS SFSWin does not understand this file type Do vou want CNVSFS to try to convert this file automatically or would you prefer to link to it manually Cancel 3 D finissez la main les informations manquantes dans le formulaire qui appara t v Type de donn es input file format RAW v Fr quence d chantillonnage sampling rate 16 000 Hz sur le bouton Browse Nom du fichier filename choisissez celui ci dans l explorateur de fichiers qui appara t apr s clic Cliquez sur OK une fois ces informations saisies Elles seront conserv es pour les prochaines coutes pour lesquelles vous n aurez qu modifier le nom
3. la fr quence d chantillonnage de 16000 Hz 16 KHz Cette information est essentielle pour une bonne coute des enregistrements 2 Ecoute des fichiers sonores distribu s Les fichiers sons distribu s peuvent tre cout s avec n importe quel diteur de signal Nous recommandons cependant l utilisation de deux utilitaires bien connus dans la communaut scientifique v le logiciel de transcription Transcriber v diteur de signal SfSWin 2 1 Ecoute avec Transcriber Transcriber est un outils d aide la transcription de corpus oraux d velopp par la DGA Claude Barras Direction G n rale de l Armement et le LDC am ricain Ce gratuiciel freeware permet d diter la plupart des formats de signaux de parole et offre une interface interactive tr s bien con ue pour couter et transcrire en parall le ces corpus oraux Dans le cas du corpus OTG l int r t de cet utilitaire est pr cis ment de permettre une coute s par e ou simultan e des deux pistes audio L installation de ce logiciel peut n cessiter quelques efforts pour des utilisateurs non informaticiens Une fois le logiciel compl tement install l coute de nos fichiers sons se r alise comme celle de tout format support par Transcriber Nous vous recommandons de consulter le manuel d utilisation du logiciel qui peut tre consult sur la page de t l chargement du programme http trans sourceforge net 2 2 Ecoute avec SfSWin SFSWin Speech Fillin
4. not es par le sigle e pauses silencieuses not es par le sigle 5 ANNEXE B Codage formats de transcription en sortie Trois formats de sortie ont t d finis pour les fichiers de transcription codage XML codage en format texte ASCII format PDF regroupant dans un seul fichier l ensemble des transcriptions obtenues en format texte 5 1 Codage XML La transcription a t r alis e l aide du logiciel libre Transcriber Le format XML de sortie suit donc la DTD d finie par ce logiciel Nous ne d taillerons pas ici cette DTD le lecteur int ress se r f rera Barras et al 1998 ou consultera le site Internet consacr Transcriber http www etca fr CTA gip Projets Transcriber IndexFr html On notera simplement que ce format de sortie permet de d crire les chevauchements ainsi que l alignement temporel des d buts et fin de tours de parole Pr cisons enfin que la version de Transcriber utilis e version Windows pr sentait un bug quant au codage du en Unicode Dans le corpus distribu ce codage erron a t corrig 5 2 Codage ASCII Ce codage est la traduction simplifi e en ASCII de la transcription XML pr c dente Dans ce format ne sont conserv s que les informations concernant le dialogue par lui m me pas d ent te l exception de l tiquette du dialogue concern ne sont pas conserv es les informations d alignement temporel est par contre conse
5. transcrit puis je 2 mots plate forme sera transcrit plate forme 1 mot La description des v nements acoustiques ou prosodiques est limit e au minimum et est non exhaustive On se contente ainsi de marquer seulement les pauses longues sans distinction de type De m me la transcription ne comprendra aucune marque de ponctuation Les linguistes travaillant sur l oral tels les chercheurs du GARS DELIC d nient g n ralement toute pertinence de la notion de ponctuation dans le langage parl 4 2 1 Bruits Ce corpus a t enregistr en conditions r elles avec un m diocre rapport signal sur bruit Les bruits non humains n ont pas t transcrits Nous avons par contre op r r alis une annotation minimale de certains bruits de l appareil phonatoire rire annot rire bruits de bouche annot bb toux annot tx souffle annot pf 4 2 2 Majuscules minuscules De mani re g n rale les transcriptions ne comportent que des caract res minuscules L emploi de majuscules est n anmoins pertinent pour marquer les noms propres de la langue ainsi que les caract res pel s D une mani re plus pr cise les nonc s transcrits ne d butent pas par une majuscule on retrouve ici l absence de ponctuations Les acronymes et les caract res pel s ou sigles sont transcrits en majuscule Ils ne sont pas s par s par des points SNCF et non S N C F les noms propres commencent par une maju
6. acte du locuteur Par exemple septante deux et non 72 4 2 4 Acronymes et sigles La transcription des sigles d j voqu e suit bien entendu la prononciation du locuteur __Int gralement s il est prononc mot mot Soci t Nationale des Chemins de Fer Sous forme de caract res pel s si son acronyme est prononc lettre lettre SNCF Sous forme d un nom propre particulier si son acronyme n est pas pel Tag etnon TAG 4 2 5 Prononciations incompl tes Sont consid r es ici les prononciations incompl tes de mots dues au caract re spontan de la parole ph nom nes de reprises ou r p titions ou interruptions par l autre locuteur Elles seront marqu es l aide des parenth ses plac es en fin du fragment prononc Ce fragment sera transcrit sous forme orthographique en suivant les r gles standard de prononciation Lorsqu il y a difficult d interpr tation du fragment la transcription compl te du mot attendu est pr cis e entre les parenth ses Par exemple donne moi une po une poire ou encore donne moi une po pomme une poire 4 2 6 D l tions contractions Le fran ais parl pr sente de nombreuses occurrences de contractions ou de d l tions de syllabes qui concernent en particulier les locutions fr quentes ou les petits mots outils Ces d l tions ne peuvent tre consid r es comme des prononciations incompl tes puisqu elles rel vent de la strat gie d locution et non d
7. anscribing speech Actes LREC 1998 Grenade Espagne pp 1373 1376 C Blanche Benveniste C Jeanjean 1987 Le fran ais parl Paris Didier Erudition D Gibbon R Moore R Winski Eds 1997 Handbook of standards and ressources for spoken language systems Berlin Mouton de Gruyter pp 825 834 4 ANNEXE A Conventions de transcription du corpus OTG La transcription est strictement orthographique avec mention minimale des v nements acoustiques connexes voir ci apr s D une mani re g n rale les conventions de transcription s inspirent des fortement des recommandations utilis es dans le projet SPEECHDAT Gibbon et al 1997 ainsi que des conventions d finies par la laboratoire DELIC pour le fran ais 41 Structuration de la transcription tours de parole Chaque dialogue est segment en tours de parole La d finition du tour de parole varie dans la litt rature d un auteur l autre Dans le cadre de ce corpus nous avons utilis la d finition op rative suivante un nouveau de parole appara t lorsqu un nouveau locuteur se met parler Deux situations peuvent alors survenir Tour de parole sans chevauchement Le tour de parole est d limit par d but la prise de parole d un locuteur et fin par la fin de sa production Ce tour de parole ne concerne donc qu un seul locuteur Exemple de tour de parole sans chevauchement transcrit au format ASCII lt 03 gt institutrice 1 quel film veux
8. du fichier concern SFS Program slink This program allows SFS programs to access existing speech data stored in foreign format files The data is NOT copied Supported formats RAW RIFF WAV VOC AU AIFF ILS HTK PCLX M M r r Input file format RAW 16000 X Sampling rate Channel Total channels Starting time I Starting sample 7 Ending time Ending sample M Swap bytes Remove DC level Multiply signal by factor Length of header M Filename Ok Cancel 4 Apr s validation sur OK le signal de parole est correctement reconnu l item correspondant s affiche dans la fen tre de travail de SfSWin Pour couter le signal vous proc dez alors comme pour tout signal de parole reconnu par l utilitaire Pour savoir comment proc der partir de ce point lisez le manuel d utilisation joint au logiciel
9. e corpus peut tre utilis des fins d analyse mais en aucun cas ne peut tre diffus s publiquement La distribution de ces corpus est libre quel que soit l usage de ce corpus Par ailleurs nous vous serions extr mement reconnaissants de nous signaler toute utilisation du corpus des fins de recherche ou industrielle ainsi que de nous communiquer tout article reposant sur des donn es extraites du corpus Ceci afin de nous permettre d identifier les usages faits avec la ressource pour son am lioration ventuelle l avenir 3 R f rences bibliographiques Liste des publications la date de l mission de ce rapport technique Consultez le site Internet du projet Parole Publique pour une bibliographie jour 3 1 Publications concernant le corpus OTG J Y Antoine S Letellier Zarshenas P Nicolas I Schadle 2002 Corpus OTG et ECOLE MASSY vers la constitution d un collection de corpus francophones de dialogue oral diffus s librement Actes TALN 2002 Nancy France Juin 2002 pp 319 324 P Nicolas S Letellier Zarshenas I Schadle J Y Antoine J Caelen 2002 Towards a large corpus of spoken dialogue in French that will be freely available the Parole Publique project and its first realisations Actes LREC 2002 Las Palmas de Gran Canaria Espagne Mai 2002 pp 649 655 3 2 Publications cit es dans ce document C Barras et al 1998 Transcriber a free tool for segmenting labeling and tr
10. e je lt 003 gt h tesse client h oui c Connaissance lt 004 gt client c du monde Figure 2 Extrait du corpus OTG transcription sans annotation morpho syntaxique format ASCII 1 5 Organisation du corpus distribu La figure 3 d crit l arborescence des fichiers du corpus distribu A un premier niveau on trouve le fichier de pr sentation du corpus ainsi que 3 r pertoires regroupant les transcriptions aux formats XML r pertoire Trans_XML ASCII r pertoire Trans_TXT et PDF r pertoire Trans_PDF Dans le cas d une distribution avec fichiers sonores cf 3 ci dessous un quatri me r pertoire Audio regroupe les fichiers sons correspondant aux dialogues Ota Ca Audio A Trans_PDF Trans_TXT a Trans_XML Figure 3 Organisation des r pertoires du corpus OTG Dans ces r pertoires terminaux se trouvent les fichiers audio ou de transcription raison d un fichier par dialogue Dans le cas des transcriptions XML on trouvera galement le fichier trans 13 dta correspondant la DTD Transcriber utilis e 2 Distribution du corpus et convention d utilisation Le corpus OTG est diffus suivant deux modes corpus transcrit seul T l chargement partir de la page WWW du projet PAROLE PUBLIQUE corpus transcrit corpus audio Compte tenu de la taille des fichiers audio le corpus fichiers son transcription au divers formats est distribu sur CD adress par courrier postal Dans le ca
11. g System for Windows est un diteur de signal d velopp par Mark Huckvale University College London qui est d di au traitement du signal de parole Ce gratuiciel freeware permet d coute tr s simplement les fichiers audio du corpus OTG ainsi que r aliser des traitements de base calcul de spectrogramme suivi de formants d tection de fr quence fondamentale sur ces fichiers L installation de ce logiciel sur votre ordinateur est triviale SFSWin peut tre r cup r l URL suivante http www phon ucl ac uk resource sfs La lecture des fichiers audio distribu s sous SfSWin n est par contre pas imm diate SfSWin n est en effet pas capable de d tecter automatique la fr quence d chantillonnage des fichiers du corpus OTG Pour couter correctement ces fichiers vous devez suivre la proc dure suivante 1 Lancer l utilitaire La fen tre de travail repr sent e droite appara t l cran sfswin Unknown MSIE File View Item Tools Window Help osm gt SEE JA Size History gt UCL Phonetics and 2 Ouvrir le fichier consid r en allant dans le menu File Open Choisissez le fichier recherch dans l explorateur qui appara t l cran en d roulant du bas Ouvrir Regarder dans liacoi4t Miacois4 ars 1acois7 s lectionnant le type de fichier A11 Files dans le menu AUDIO z e a e E 14G0359 AFS pal 14G0364 E 14G0141 AFO
12. gistrement sont celles d un office tr s fr quent d o un rapport signal sur bruit assez m diocre Les enregistrements ont t effectu s sur deux pistes s par s l aide d un enregistreur DAT Deux microphones directifs taient orient s l un vers le client cach et l autre vers l agent On dispose donc de deux fichiers audio par dialogue Un exp rimentateur assistait la prise de son En fin de dialogue il s assurait du respect des r gles d ontologiques en la mati re En particulier une fois l enregistrement effectu il mettait au courant les clients de cette exp rimentation Il tait alors demand aux clients s ils acceptaient que l enregistrement les concernant soit conserv s ou non Au total 7 heures d enregistrement ont t conserv es Ce corpus oral a fait l objet d une premi re distribution sur CD ROM par le CLIPS IMAG Cette distribution est rest e limit es aux membres de ARC AUF ex AUPELF UREF http www info univ tours fr antoine parole_publique Dialogue Oral Ce corpus comprenait pour chaque dialogue deux fichiers audio au format wav ainsi qu un fichier d annotation d crivant bri vement la transaction ses buts et sa r alisation 1 3 Transcription orthographique Enregistr en conditions r elles ce corpus pr sente un nombre important de transactions de qualit sonore passable ou m diocre La transcription des dialogues fortement bruit s s est av r e d
13. ialogue oral homme homme finalis relevant du cadre applicatif du renseignement touristique Il a t enregistr en conditions r elles au sein de l Office du Tourisme de Grenoble et regroupe un ensemble de dialogue entre un ou plusieurs touriste s et le personnel d accueil de l office Le corpus distribu comprend les fichiers audio enregistr s ainsi qu une transcription orthographique des dialogues ainsi recueillis 1 1 Fiche signal tique Corpus OTG Version 1 0 3 juin 2002 Type de dialogue Dialogue oral Homme Homme finalis t che de renseignement touristique Locuteurs Adultes touristes francophones r ceptionnistes hommes ou femmes Enregistrement Conditions r elles enregistrement semi clandestin micro touriste cach Contenu Corpus audio transcription orthographique Concepteur s Jean Yves Antoine LI Universit de Tours Recueil Mariette Bessac CLIPS IMAG Transcripteur s Pascale Nicolas VALORIA Julien Foulon VALORIA Diffusion libre sous r serve du respect d une convention d utilisation 1 2 Enregistrement t che et conditions d enregistrement Le corpus OTG a t enregistr par le CLIPS IMAG en conditions r elles au sein de l Office du Tourisme de Grenoble suivant une proc dure semi clandestine seul le personnel de l office tait pr alablement mis au courant de l enregistrement Le personnel d accueil na t soumis aucune consigne particuli re Les conditions d enre
14. ifficile voire impossible bien souvent les transcripteurs ne sont pas parvenus s accorder sur de nombreux passages Dans une telle situation le laboratoire DELIC sugg re de repr senter les diff rentes transcriptions alternatives Compte tenu du nombre important de passages conflictuels dans certains dialogues nous avons au contraire choisi de ne pas int grer d hypoth ses alternatives et de privil gier les dialogues ne pr sentant aucune ambigu t d coute pour le transcripteur C est pourquoi la transcription n a t r alis e que sur des dialogues de qualit sonore jug e excellente ou bonne tableau 1 Notons toutefois que certains nonc s de bonne qualit sonore pr sentaient encore des parties inaudibles et n ont pas t transcrits dans cette premi re phase Il en va de m me pour une trentaine de transactions qui correspondaient des trilogues Dans ce cas il s est av r difficile de faire une distinction s re entre les productions des deux clients concern s Qualit sonore Excellente Qualit sonore Bonne Tableau 1 R partition par dur e des dialogues du corpus OTG qualit excellente ou bonne Au final 315 dialogues ont t transcrits qui correspondent environ 2 heures d enregistrement tableau 2 Le corpus distribu a une taille de 26 000 mots transcrits dur e d enregistrement 117 minutes nombre de dialogues 315 nombre de locuteurs 5 r ceptio
15. nnistes 315 touristes nombre de mots 25 695 Tableau 2 R partition par dur e des dialogues du corpus OTG qualit excellente ou bonne 1 4 Corpus distribu Chaque dialogue donne lieu un fichier audio au format wav et un fichier de transcription orthographique Les conventions de transcription et de codage suivies reprennent les normes les plus utilis es au sein de la communaut savoir conventions de transcription du fran ais parl utilis es par le laboratoire DELIC Blanche Benveniste et Jeanjean 1987 et l g rement enrichies par certaines recommandations issues du projet SPEECHDAT Gibbon Moore et Winski 1997 Ces conventions sont d taill es en annexe de ce document codage au format structur XML avec utilisation de l alphabet Unicode cod sur 8 bit La transcription a t r alis e l aide du logiciel libre Transcriber Barras et al 1998 dont nous reprenons la DTD XML en format de sortie Au final les transcriptions sont distribu es suivant trois formats de sortie correspondant des usages potentiels diff rents codage XML figure 1 codage en format texte ASCII reprenant une structuration en tours de parole figure 2 Les chevauchements ventuels restent repr sent s dans ce format L information d alignement temporel des tours de parole n est par contre par reprise ici format PDF regroupant dans un seul fichier l ensemble des transcriptions obte
16. nues en format texte lt xml version 1 0 encoding UTE 8 gt lt DOCTYPE Trans SYSTEM trans 13 dtd gt lt Trans scribe Nicolas audio_filename 1ag0365 version 1 version_date 011008 gt lt Speakers gt lt Speaker id spk1 name h tesse check no type female dialect native accent lt Speaker id spk2 name client check no type female dialect native accent lt Speakers gt lt Topics gt lt Topic id tol desc 1ag0365 gt lt Topics gt lt Episode gt lt Section type report startTime 0 endTime 5 980 topic tol gt lt Turn startTime 0 endTime 0 629 speaker spk1 gt lt Sync time 0 gt bonjour madame lt Turn gt lt Turn speaker spk2 startTime 0 629 endTime 3 420 gt lt Sync time 0 629 gt bonjour est ce que vous avez le programme de oui e e je lt Turn gt lt Turn speaker spk1 spk2 startTime 3 420 endTime 3 856 gt lt Sync time 3 420 gt lt Who nb 1 gt oui lt Who nb 2 gt Connaissance lt Turn gt lt Turn speaker spk2 startTime 3 856 endTime 4 24 gt lt Sync time 3 856 gt du monde lt Turn gt lt Section gt lt Episode gt nn scope local gt scope local gt Figure 1 Extrait du corpus OTG transcription sans annotation morpho syntaxique format XML fichier audio 1ag0365 lt 001 gt h tesse h bonjour madame lt 002 gt client c bonjour est ce que vous avez le programme de oui e
17. rv e la segmentation en tours de parole Chaque tout de parole se voit accorder un num ro sp cifique par incr ment Pour un tour de parole donn on pr cise ensuite la ligne l identit du locuteur ainsi que l nonc prononc Ce format permet toujours une repr sentation des chevauchements dans ce cas deux nonc s sont donn s dans un tour de parole particulier avec toujours en t te d nonc la mention de l identit du locuteur correspondant La figure 1 donne un exemple de sortie dans ce format fichier audio 1ag0365 lt 001 gt h tesse h bonjour madame lt 002 gt client c bonjour est ce que vous avez le programme de oui e e je lt 003 gt h tesse client h oui c Connaissance lt 004 gt client c du monde Figure 2 Extrait du corpus OTG transcription orthographique format ASCII 5 3 Format PDF Ce format de sortie est la simple compilation sous la forme d un fichier Acrobat PDF unique des fichiers ASCII de transcription d crits ci dessus 6 ANNEXE C Ecoute des fichiers sonores 1 Pr sentation Les enregistrements ont t effectu s sur deux pistes s par s l aide d un enregistreur DAT Deux microphones directifs taient orient s l un vers le client cach et l autre vers l agent On dispose donc de deux fichiers audio par dialogue Leur extension est respectivement afs et cfs Ces enregistrements sonores ont t num ris s sous un format brut raw format
18. s d une distribution par CD il vous est demand une participation de 15 Euros correspondant aux frais de constitution et d envoi du CD AL Hormis les frais d envois susmentionn s le corpus OTG est distribu gratuitement sous licence Creative Commons CC BY SA Cela signifie que vous devez respecter le contrat d utilisation suivant BY paternit Vous devez citer les auteurs de ce corpus pour toute utilisation du corpus Dans le cas d une publication s appuyant sur ces travaux nous vous demandons ainsi de citer les articles r f renc s dans la description de la ressource jointe la distribution ou dans la liste ci dessous SA partage des conditions initiales l identique Vous ne pouvez cr er une nouvelle ressource partir de la ressource existante et en faire ensuite un usage diff rent de celui impos par ce contrat L encore nous sommes ouverts toute utilisation du corpus pour cr ation de nouvelles ressources mais nous vous demandons de nous contacter pour discuter de ces nouveaux usages Important Par ailleurs cette ressource int gre des changes dont la communication porte atteinte la protection de la vie priv e ou portant appr ciation ou jugement de valeur sur une personne physique nomm ment d sign e ou facilement identifiable ou qui font appara tre le comportement d une personne dans des conditions susceptibles de lui porter pr judice Code du Patrimoine art L 213 2 3 A ce titre c
19. scule par exemple Jospin Grenoble L application de cette r gle est stricte afin d viter d englober autant que possible des noms communs Ainsi on transcrit monsieur Lionel Jospin et non Monsieur Lionel Jospin mairie de Grenoble et non Mairie de Grenoble A l oppos les noms propres correspondant des sigles sont mentionn s l aide de majuscules L existence d un acronyme correspondant ce sigle est un bon indice de capitalisation Par exemple Soci t Nationale des Chemins de Fer SNCF Transports de l Agglom ration Grenobloise TAG les noms communs ayant fonction de nom propre par exemple titre de film ne correspondant pas un sigle sont transcrits entre guillemet et restent en minuscule Lorsqu on rel ve un nom propre dans ce type de nom commun il prend bien entendu une majuscule Par exemple le bureau info montagne lamicale la que de la ville de Massy Remarque Cette r gle de transcription tait optionnelle la d limitation des situations sigle nom commun ayant fonction de nom propre nom commun tant relativement floue 4 2 3 Nombres A l exception du nombre un qui peut tre confondu avec l article ind fini les nombres ont t cod s en chiffre lorsque leur prononciation suivait celle du fran ais standard Par exemple 128 et non cent vingt huit Dans le cas contraire les nombres ou s quences de nombres sont transcrites en caract res afin de refl ter la prononciation ex
20. tu voir Tour de parole avec chevauchement Le tour de parole est d limit par le d but et la fin du chevauchement Ce tour de parole regroupe alors deux voire plus locuteurs Leurs productions orales sont repr sent es simultan ment dans ce tour de parole en distinguant chaque locuteur Exemple de tour de parole avec chevauchement transcrit au format ASCII lt 04 gt client h tesse c d accord h on a simplement Dans les dialogues les p riodes sans chevauchement succ dent bien entendu sans arr t des p riodes avec chevauchement A titre d exemple supposons qu un locuteur prononce un certains nonc par exemple Tiens j ai vu Paul hier gt tandis que le second locuteur se contente d une marque d tonnement ah ouais en milieu d nonc Cette tranche de dialogue sera alors segment e en 3 tours de parole d but d nonc sans chevauchement du locuteur 1 partie chevauch e avec prononciations des locuteurs 1 et 2 fin d nonc sans chevauchement du locuteur 2 4 2 Conventions de transcription La transcription est strictement orthographique avec mention minimale des v nements acoustiques connexes voir ci apr s Elle suit les normes orthographiques standards du fran ais Notons cependant que tout mot sera s par par un espace blanc le tiret entre deux mots n tant conserv que si ceux ci constituent un lemme ins cable Ainsi puis je sera
21. u caract re spontan de la production Certaines transcription rivalisent de conventions particuli res destin es rendre compte le plus pr cis ment possible de la prononciation r alis e par exemple y a ka pour il n y a qu Au contraire on s est limit ici l instar des recommandations du DELIC ex GARS une transcription aussi proche que possible de l criture standard Par exemple je vais pour j vais en phon tique jve il y a pour y a Dans le cas d une d l tion compl te de mot cas de la chute du discordantiel ne par exemple le mot ne sera pas transcrit 4 2 7 Erreurs de prononciations prononciations idiomatiques Les formes correspondant une erreur manifeste de prononciation lapsus par exemple ou une prononciation idiomatique sont transcrites sous leur forme r guli re pr c d e d un ast risque La forme r ellement prononc e est alors transcrite sous forme orthographique en respectant les r gles standard de prononciation du fran ais entre crochets apr s la forme corrig e Exemple je r p te r cap p te depuis le d but b dut Si la forme inattendue ne peut se traduire fid lement sous forme orthographique on adopte la notation phon tique ajout e en signes On utilise pour cela la convention de notation SAMPA 4 2 8 Ev nements acoustiques pauses Deux types de pause ont t distingu es pauses remplies h sitations du type euh mmh etc
Download Pdf Manuals
Related Search
Related Contents
MANUAL DE INSTRUCCIONES 1 シゴトのミカタ利用規約 第 1 条(目的) 1.本規約は、株式会社アイ User Manual remarque Copyright © All rights reserved.
Failed to retrieve file