Home

Document de référence - OFROM

image

Contents

1. tiquette Verbe conditionnel auxiliaire Pronom personnel sujet etc S il le d sire il peut galement sp cifier dans la case verte la forme du texte recherch e p ex on peut rechercher tous les l ments pronoms personnels objets qui ont la forme le Contexte Recherche principale Part of speech token min Adjectif Tous Ce Avec le lemme se 1 Ajouter un crit re Choisir le type Avec le texte Figure 4 Fonction recherche du concordancier Comme on peut le voir sur la Figure 2 il est possible d affiner la recherche Pour ce faire trois types de filtres peuvent tre appliqu s NB il est possible de r initialiser les crit res de recherche pour chacun des trois filtres On peut galement r initialiser tous les crit res en une seule fois 4 2 1 Filtre contexte Avec le premier filtre on peut restreindre le contexte ant rieur et post rieur de l unit en ajoutant un crit re Les m mes options que celles propos es pour la recherche principale sont alors disponibles 12 v Contexte R initialiser les crit res Recherche principale Part of speech token min M Verbe Tous Ajouter un crit re Part of speech token mwu Part of speech Mwu Avec le texte Op rateur Dans l intervalle de 15 Mot s Contexte temporel Ant rieL Seconde s ETS Figure 5 Fonction recherche avec contexte du concordancier On peut alors pr ciser l empan temporel
2. autres genres devraient tre disponibles Selon l un des 7 cantons suisses o le fran ais est langue officielle soit Gen ve Vaud Berne Neuch tel Valais Jura et Fribourg 7 Les niveaux socio ducatifs sont les suivants niveau 1 cole obligatoire avec apprentissage plut t technique niveau 2 cole obligatoire avec apprentissage plut t bureau niveau 3 maturit niveau 4 tudes universitaires Cette cat gorisation est celle qui a t utilis e pour identifier socio ducativement les locuteurs du point Neuch tel qui figurent sur le site du projet PFC cf pour une pr sentation de ces donn es Racine amp Andreassen 2012 15 4 2 4 Visualisation des r sultats de la recherche Les r sultats de la recherche s affichent dans une nouvelle fen tre qui lorsqu elle appara t masque le concordancier EE ACCUEIL STATISTIQUES CONTACT SIGNALER UNE ERREUR Merci d utiliser un navigateur compatible HTMLS tel que Firefox et Chrome afin que la lecture des sons soit possible Recherche seie Gene Fa En Ce Poe 1 2 Tout Rien Locuteur Texte unine08 ses afin de construire euh petit petit le sujet gt D tails unine08 ses t Puis c est pour a que ben justement de temps en temps je j ai des petits mandats gt E ext rieurs o unine08 aha ensuite une petite couche de de mayonnaise a personnellement j aurais pr f r un peu de
3. un ne de n gation et d un pronom personnel objet il faudra qu il sp cifie intervalle 1 mot pour l adverbe de n gation et l intervalle 2 mots pour le pronom personnel objet v Contexte R initialiser les crit res Recherche principale Part of speech token min Verbe Tous l Ajouter un crit re Part of speech token mwu zl Part of speech Mwu Pronom x personnel objet direct Op rateur ET Dans l intervalle de Mot s l Contexte temporel Post rieur Contexte ant rieur Recherche principale Part of speech token min ET Part of speech token mwu ET Part of speech token mwu Contexte post rieur le n gation Supprimer 2 Mot s Supprimer Figure 7 Exemple de recherche de la s quence pronom personnel sujet adverbe de n gation pronom personnel objet 4 2 2 Filtre locuteur On peut galement d finir une cat gorie de locuteurs selon des crit res sociolinguistiques classiques Ces crit res sont extr mement rudimentaires et ne permettent pas de faire une recherche pouss e en fonction de l identit sociolinguistique des locuteurs Ils permettent toutefois de proc der un tri grossier des donn es Chacune des rubriques contient un menu d roulant qui s ajuste automatiquement en fonction des choix que l on op re lors de l application de tel ou tel crit re 14 Locuteur R initialiser les crit res Canton de r sidence
4. comme il y a un temps pour tout m me en politique _ y a un temps pour tout donc moi Berne je vois plut t des gens uninel 1 eza 17 et avec ce jeune brass band qui n a que quatre ans uninel 1 gpa 18 euh des des gens qui sont pas forc ment exp riment s l dedans unineO8 sea Nous retranscrivons l lision quand elle est r alis e nous ne la transcrivons pas lorsqv elle ne l est pas 19 elle s loigne un peu de la _ de la voiture et pis lui en mettant le contact en s approchant de _ d elle et ben la voiture elle explose uninel 1 jva 20 ou m me ce qui se passe autour de elle uninel 1 sca Nous ne changeons pas non plus la forme morphologique du mot si une r gle d accord en genre ou en nombre n est pas respect e 21 22 ou si le pronom ou le mode du verbe enfreint la norme cf respectivement 23 24 21 l euh je sais pas la Sagrada Familia c est une norme glise que Gaudi a fait uninel 1 tpa 22 a devient une euh une m canisme de groupe uninel 1 sma 23 je vais beaucoup moins parce que j y dis faut aussi un peu te calmer maintenant uninel 1 jsa 24 et puis euh chaque aide soignante s asseye c t d une personne pour l aider prendre son repas unine09 tba Enfin nous ne signalons pas les carts de prononciation dans la transcription que ces carts soient courants ou non Par exemple parce que est toujours crit tel quel qu il soit prononc rack lt ou r
5. Facult des Lettres et des Sciences Humaines de l Universit de Neuch tel ainsi que du Rectorat de l Universit de Neuch tel et du Fonds National Suisse de la recherche scientifique subside n P300P1_147781 Nous remercions Pierre M n trey http www webox it com webmestre pour le travail de confection du site Merci galement Sandra Schwab Universit de Gen ve pour ses conseils et la confection des scripts Praat qui ont t utilis s pour la mise en ligne des premi res donn es sonores et des transcriptions associ es George Christodoulides nous a fourni le logiciel pour tagger la base de donn es et cr er des fichiers xml pour la charger Fran ois Delafontaine Universit de Neuch tel a r alis un travail colossal de r vision et de correction des transcriptions Nous remercions galement toute l quipe du Centre de dialectologie Nathaniel Hiroz Camille Legrand Aline Widmer Maude Ehinger et Julie Rothenb bhler ainsi qu Anna Schwab et Gwendoline Grivel pour les enqu tes de terrain et Julie Rothenb hler et Fran ois Delafontaine pour la transcription la correction et la mise en ligne Christophe Benzitoun a nettoy dans le cadre du projet ANR ORFEO certains des fichiers pr sents dans la base Enfin nous remercions l ensemble des collaborateurs scientifiques des tudiants et des locuteurs qui ont particip aux diverses campagnes d enqu te 8 R f rences Adda Decker M amp Lamel
6. L 1999 Pronunciation variants across system configuration language and speaking style Speech Communication 29 83 98 Adda Decker M amp Snoeren N D 2011 Quantifying temporal speech reduction in French using forced speech alignment Journal of Phonetics 39 261 270 Avanzi M 2013 Note de recherche sur l accentuation et le phras prosodique la lumi re des corpus de fran ais Tranel 5 24 Barras C Geoffrois E Wu Z amp Liberman M 1998 Transcriber a Free Tool for Segmenting Labeling and Transcribing Speech Proceedings of the First International Conference on Language Resources and Evaluation LREC 1373 1376 Baude O d 2006 Corpus oraux Guide des bonnes pratiques Paris CNRS Editions 23 Bigi B P ri P amp Bertrand R 2012 Influence de la transcription sur la phon tisation automatique de corpus oraux Actes des JEP 449 456 Blanche Benveniste CI amp Jeanjean C 1986 Le fran ais parl Edition et transcription Paris Didier Erudition Blanche Benveniste CI 1997 Approches de la langue parl e en fran ais Paris Gap Ophrys Boersma P amp Weenink D 2012 Praat V 5 3 http www fon hum uva nl praat Christodoulides G Avanzi M Goldman J PH 2014 DisMo A Morphosyntactic Disfluency and Multi Word Unit Annotator An Evaluation on a Corpus of French Spontaneous and Read Speech Proc LREC 3902 3907 Dister A amp Si
7. _ euh _ de fil en aiguille euh _ m euh avait fond avait fait euh _ 4 2 6 2 Lecteur int gr Le lecteur int gr offre les fonctions classiques d un lecteur de son les touches 44 et gt gt permettent de passer un intervalle ou d y revenir on peut lire gt ou arr ter M le son changer le volume lire en boucle etc Interval 188 206 346 31 372 33 63 mots Figure 12 Lecteur de son int gr 19 4 2 6 3 T l chargement dynamique Si l utilisateur le d sire il est galement possible d entrer directement les bornes de d but et de fin de l extrait que l on souhaite couter 188 206 346 31 372 33 Il est aussi possible de t l charger le fichier son au format wav et sa transcription au format TextGrid Les fichiers sont g n r s dynamiquement en fonction du contexte s lectionn les extraits wav et TextGrids sont concat n s automatiquement en un seul fichier y compris les pauses et peuvent tre ensuite dit s dans Praat NB Ne pas oublier de mettre jour la s lection avant de t l charger le son et ou le fichier TextGrid 4 2 6 4 Informations sur le locuteur et sur l enregistrement Enfin des informations sur le locuteur et l enregistrement sont indiqu es dans des tableaux en bas de la page Information sur le locuteur Informations sur l enregistrement Nom unine08 aca Qualit Bonne Langue Fran ais L1 Type m Sexe Homme Genre de pa
8. actuel Indiff rent x Lieu de r sidence actuel Indiff rent D Locuteur Indiff rent Langue Indiff rent l Niveau socio ducatif Indiff rent x Sexe Indiff rent ge au moment de entre et l enregistrement Figure 8 Fonctions filtre locuteur du concordancier Comme on le voit sur la Figure 8 on peut ainsi s lectionner les locuteurs selon leur canton et ou leur lieu de r sidence actuel On peut galement s lectionner un ou plusieurs locuteurs de la base si on connait leur nom de code On peut aussi filtrer les locuteurs selon qu ils sont francophones natifs L1 ou non L2 selon leur niveau socio ducatif selon qu il s agit d un homme ou d une femme On peut galement indiquer un intervalle temporel pour sp cifier la tranche dans laquelle le locuteur est n 4 2 3 Filtre enregistrement Enfin 1l est possible de filtrer la recherche selon le genre de parole et la qualit sonore de l enregistrement Enregistrement R initialiser les crit res Genre de parole Indiff rent Qualit sonore Indiff rent Mis en ligne au plus tard le Figure 9 Fonctions filtre enregistrement du concordancier Pour le moment la base de donn es OFROM ne contient que des interviews dominante monologique et des dialogues que nous avons cat goris s comme des narrations ou des discussions On trouve galement un extrait de conf rence Dans le futur des enregistrements d
9. gt F moutarde avec du beurre anei aha euh qu est ce qu il y avait encore dans ce bon sandwich un peu de tomate un petit peu de gt D tails F salade unine08 aha si vraiment ceux qui veulent un petit peu plus gt unine08 aha sinon ben alors les petits d jeuners de ce de ce camp de ski c est gt D tails unine08 aha LR sans viennoiseries parce que bon les a revient un petit peu cher dans mon budget de gt camp de ski unine08 aha jus de pamplemousse un petit peu moins mais surtout gt D tails unine08 aha sinon ben l pour les petits d jeuners j aurai fait le tour qu est ce qu on gt D tails F unine08 aha une activit pour un peu conna tre le village donc ce sera un petit peu une sorte de de rallye gt unine08 aha les les petits supermarch s si ils ont un petit creux euh sur les pistes gt unine08 aha euh les petits bars pour jeunes hein on va pas on va pas se gt unine08 aha euh donc diff rents euh petits postes qui seront euh gt D tails unine08 aha des jeux d images des sortes un peu de de sudokus un petit peu remani s gt D tails unine08 aha euh et certains ont d cid de faire des des petits sketchs donc on ne sait pas encore trop La unine08 aha une soir e un petit peu plus euh revisit e c est dire qu on va faire euh gt D tails unine08 aha encore nous avons un pocker aussi un petit peu revisit gt D tails E unine08 aha des premiers petits couples de camps de ski c est c est toujours euh gt unine08 aha euh ben le r
10. les chiffres affichent les secondes On peut largir ou restreindre le contexte de l occurrence que l on recherche Pour que la modification ait lieu il est imp ratif de mettre jour en cliquant sur le bouton au dessus de la frise 18 Afficher pauses _ Afficher non transcrits Afficher censur s Son Continu 313 324 335 343 357 364 372 381 392 403 _ e amp t puis euh on discutait encore bien deux trois heures apr s autour d une bi re _ euh c tait assez sympa y avait y avait un rapport entre nous qui tait _ qui tait tr s chouette on parlait bon bien s r surtout musique _ mais heu on parlait un petit peu de tout quoi _ et _ euh _ de fil en aiguille euh _ m euh avait fond avait fait euh _ NB on peut choisir d afficher ou non les pauses _ les segments non transcrits ou censur s jouer le son en continu ou non NB la dur e des pauses s affiche en millisecondes dans des info bulles lorsque l on passe la souris sur l intervalle AMcher pauses _ Micher non transcrits Afficher censur s Son continu 04l 324 339 343 357 364 372 361 392 403 __ Let puis euh on discutait encore bien deux trois heures apr s autour d une bi re _ euh Dait assez sympa y avait y avait un rapport entre nous qui tait _ qui tait tr s chouette on parlait bon bien s r surtout musique _ mais heu on parlait un petit peu de tout quoi _ et
11. m talinguistiques 17 associ es au locuteur et le contenu de la s quence s il y a plusieurs l ments s lectionn s le tableur comprend autant de lignes que d l ments s lectionn s 4 2 6 D tails de l extrait 4 2 6 1 Agrandir restreindre le contexte de l l ment recherch Si l on clique sur le bouton d tails pour une occurrence donn e une nouvelle fen tre appara t Elle affiche la s quence dans son contexte ainsi que d autres options Afficher pauses _ E Afficher non transcrits W Afficher censur s F1 Son continu pJ Interval 195 359 26 361 5 10 mots x Information sur le locuteur Informations sur l enregistrement N Nom unine08 aca Qualit Bonne Langue Fran ais L1 Type m Sexe Homme Genre de parole narration Ann e de naissance 1953 Uni UNINE Lieu de naissance NR Propri taire Mathieu Avanzi Lieu de r sidence actuel NR Lieu d enregistrement Fribourg Canton de r sidence actuel NR Canton Fribourg Y habite depuis NR Enregistr par Am lie Cochard Niveau socio ducatif Niveau 4 Date d enregistrement 21 04 2008 Occupation Enseignant Transcrit par Am lie Cochard ge au moment de l enregistrement 55 R vis par Fran ois Delafontaine Statut familial Mari Date de r vision 18 09 2012 Figure 11 Fen tre d information de l extrait d tails En haut de la fen tre une frise indique la position temporelle de l extrait dans l ensemble du fichier son
12. par un tudiant de Master avant leur mise en ligne Depuis 2014 les enregistrements sont r alis s et transcrits par des collaborateurs scientifiques du Centre de dialectologie et d tude du fran ais r gional de l Universit de Neuch tel dirig par Federica Di moz En moyenne les entretiens enregistr s durent entre 30 et 40 minutes mais seules une dizaine de minutes sont transcrites pour chacun des locuteurs de la base Des erreurs dans les transcriptions n tant pas impossibles nous invitons les utilisateurs de la base nous signaler les ventuelles erreurs qui pourraient demeurer En mettant au point cette base nous n avons pas cherch construire un corpus de r f rence du fran ais parl en Suisse romande qui serait chantillonn en vertu de crit res sociolinguistiques classiques comme le genre de discours l ge le sexe et l origine des locuteurs L entreprise aurait t trop difficile Avec OFROM nous avons simplement souhait mettre disposition de la communaut une base de donn es comprenant des enregistrements et les fichiers de transcription correspondants sur laquelle 1l est possible de proc der La base de donn es Phonologie du Fran ais Contemporain PFC cf Durand et al 2002 2009 h berge galement des enregistrements de locuteurs romands originaires de Nyon de Gen ve et de Neuch tel des requ tes simples l aide d un concordancier mis en ligne sur un site
13. t l charger l ensemble des enregistrements et des transcriptions de la base ni m me un fichier sonore et la transcription compl te associ s un locuteur ou un groupe de locuteurs Pour avoir acc s au contenu de la base 1l est donc obligatoire de passer par le moteur de recherche Leur dur e est indiqu e dans des info bulles lors de la recherche sur le concordancier cf infra 4 2 6 1 10 4 2 Concordancier Le moteur de recherche se pr sente sous la forme d un concordancier gr ce auquel il est possible de chercher une suite de caract re un item monolexical ou polylexical une tiquette un lemme ou une combinaison de ces informations dans un contexte donn Le concordancier d OFROM se pr sente de la fa on suivante ACCUEIL CONCORDANCIER STATISTIQUES CONTACT SIGNALER UNE ERREUR Merci d utiliser un navigateur compatible HTMLS tel que Firefox et Chrome afin que la lecture des sons soit possible v Contexte R initialiser les crit res Recherche principale Choisir le type Ajouter un crit re Choisir le type Contexte ant rieur Recherche principale Contexte post rieur Locuteur R initialiser les crit res Canton de r sidence actuel Indiff rent Lieu de r sidence actuel Indiff rent Locuteur Indiff rent x Langue Indiff rent zl Niveau socio ducatif Indiff rent Sexe Indiff rent ge au moment de entre et l enregistrement Y Enregistrement R initi
14. uni en sport prend pas mal de temps unine08 oca 8 J ai t l cole de com uninel1 rpa Les mots prononc s de fa on non abr g e sont transcrits dans leur forme pleine 9 voil donc a c est pour euh les soir es et cetera on peut encore parler des Journ es unine08 aha Les chiffres sont transcrits en toutes lettres y compris les ges les dates les quantit s etc 10 ben j ai commenc prendre des cours de chant quand j avais quinze ans uninel 1 vpa 11 et puis euh il est de dix neuf cent vingt cinq uninel 1 eja 12 tu me la vendrais pas quatre mille francs uninel 1 tpa Les mots trangers sont transcrits dans leur orthographe d origine S ils ne sont pas connus ils ne sont pas transcrits cf infra 2 3 4 13 apr s une petite semaine euh de gal re quand m me euh en couch surfing unine0O8 ema 14 on a pass euh ben avec mon copain on a pass le le dive euh l open water en fait uninel 1 nfa 15 mais apr s y a eu l volution dans l entreprise o on nous a fait des ordersatz uninel 1 jea 2 3 2 2 Morphologie La consigne donn e aux transcripteurs est que l on transcrit ce que l on entend et que l on ne transcrit pas ce que l on n entend pas Ainsi nous ne notons pas syst matiquement tous les pronoms dans les tournures impersonnelles cf 16 ni les ne de n gation si ceux ci ne sont pas clairement audibles cf 17 et 18 respectivement 16
15. AU S ecaa in nn 7 29 2 2 MOFPROIOPIC ne SAR nu Ain 8 2 33 AMORCE S anne a Momie a AA its 9 2 3 4 Segments Non ansor iiS He neue nee shui inde 9 237 Paus s vides t pauses pleines Jin nuhdnsniiinianmiinns 9 2a ADON ysa oMa Die nel can 10 Donn es m talinguistiques 10 Mode d emploi du concordancier 0000000000neeeneennnnnnsssssssssssettereesnsssssssssssese 10 AE Aner SSe MEN Eoria Net oi elee a a 10 4 2 Concordance en a t 11 4 2 1 PINECONE E RE ie ne da ie men ce 12 4 2 2 Proce oa ES 14 4 2 3 Filteciresrtenreibiesean na nl nes none 15 4 2 4 Visualisation des r sultats de la recherche 16 4 2 5 Extraction des fichiers associ s la recherche 17 4 2 6 D TAMS CS ERP at 18 4 2 6 1 Agrandir restreindre le contexte de l l ment recherch 18 4 2 6 2 Lecteur IME oTE asiaan E une 19 4 2 6 3 T l chargement dynamique scine e a ii 20 4 2 6 4 Informations sur le locuteur et sur l enregistrement 20 SASAE S i a e a 21 Formulaire de contact ou pour signaler une erreur 22 ROM FCMENCS nn A A 23 R F TETOCSL ES Sn a 23 1 Avant propos OFROM constitue la premi re archive comprenant uniquement des enregistrements de fran ais parl en Suisse romande align texte son Les enre
16. OFROM Corpus oral de fran ais de Suisse romande Mathieu Avanzi Marie Jos B guelin Federica Di moz Universit de Neuch tel University of Cambridge Version 2 2 Ao t 2015 Avertissement Les ressources du corpus OFROM sont distribu es librement la communaut scientifique sous licence Creative Commons Attribution Noncommercial Share Alike 3 0 License Pour obtenir une copie de cette licence rendez vous sur la page http creativecommons org hicenses by nc sa 3 0 Vous tes autoris s utiliser tout ou partie de ces ressources tant que vous mentionnez les sources d information suivantes Avanzi M B guelin M J Di moz F 2012 2015 OFROM corpus oral de fran ais de Suisse romande v 2 2 Ms Universit de Neuch tel http www unine ch ofrom Avanzi M B guelin M J Di moz F 2015 par De l archive de parole au corpus de r f rence La base de donn es orale du fran ais de Suisse romande OFROM Cahiers Corpus Table des mati res 1 2 3 4 5 6 7 8 Avant DEODOS nd St ee are de NL 4 Transcription des enregistrements 00000000000000o0eeeeoonnnssssssssssssererereesessssse 5 Ak Support de TADSCHPUOM Hs nn Die Ni Lee 5 2 2 HACAULICAUONIUES IOCUI UES sn nn E 6 2 3 Conventions de transcription ss 6 2 31 Unit s CC HANSCHDUONES SSSR tetes 6 253 2 Choix d une orthographe standard 7 2 3 2 1 R SIES INDES TADI
17. a ox de m me que des morph mes comme enfin prononc E 2 3 3 Amorces Les amorces de mots sont signal es par des slash qui suivent les premi res lettres du morph me inachev 25 y a d excellentes boulan boucheries aussi tout au long du vallon uninel1 rpa 26 y a un grand jur euh qui habit qui qui au b aux Etats Unis ils ont euh unine 1 jva 2 3 4 Segments non transcrits Nous codons certaines portions de signal que nous ne transcrivons pas Certains l ments ne sont pas transcrits car le ou les mots prononc s sont incompr hensibles en raison d une mauvaise articulation d un changement de qualit vocale d un chevauchement de parole ou des fins d anonymisation cf infra S2 4 2 3 5 Pauses vides et pauses pleines Les informations relatives l habillage suprasegmental sont directement lisibles dans Praat Nous ne les indiquons donc pas dans nos transcriptions Nous notons cependant de fa on syst matique les pauses silencieuses et ce peu importe leur dur e Les pauses silencieuses sont ainsi isol es dans des intervalles d di es et transcrites l aide du symbole _ Nous avons t moins pr cis pour les pauses remplies allongements et euh associ s des h sitations qui ne sont pas forc ment cantonn es dans des intervalles d di s mais comprises dans les m mes intervalles que les mots auxquels elles s accolent 2 4 Anonymi
18. aliser les crit res Genre de parole Indiff rent x Qualit sonore Indiff rent Mis en ligne au plus tard le Rechercher R initialiser tous les crit res Wen ON Figure 2 Aper u d ensemble du concordancier OFROM L utilisateur doit d abord choisir le type d l ment qu il souhaite rechercher en cliquant sur la premi re boite rose en haut de la fen tre Choisir le type S il choisit de chercher un mot entier token une cha ne de caract re ou un lemme une nouvelle case en vert appara t sur la droite il suffit alors 5 Les lemmes correspondent la forme non fl chie des adjectifs noms d terminants etc et la forme l infinitif des verbes 11 d entrer le texte voulu et de cliquer sur le bouton rechercher en bas de la page v Contexte R initialiser les crit res Recherche principale Cha ne de caract res Choisir le type Ajouter un crit re Cha ne de caract res Mot entier token Contexte ant rieur Part of speech token min Part of speech token mwu Darhamrha neinrinaln Lemme Figure 3 Fonction recherche du concordancier Si l utilisateur choisit de faire une recherche par tiquette morphosyntaxique alors trois nouvelles cases apparaissent Dans les cases oranges sur la droite 1l est possible de s lectionner la cat gorie d tiquette Adjectif Pronom Verbe etc et dans la seconde de ra ffiner la recherche par sous type d
19. du contexte de recherche en termes de nombre de mots ou de secondes et pr ciser si on veut que l l ment soit avant ou apr s l l ment principal recherch Il faut ensuite cliquer sur le bouton ajouter et alors on peut de nouveau pr ciser le contexte en ajoutant d autres filtres v Contexte R initialiser les crit res Recherche principale Part of speech token min Verbe Tous x Ajouter un crit re Part of speech token mwu l Part of speech Mwu Avec le texte Op rateur Dans l intervalle de 5 Mot s M Contexte temporel Post rieur M Contexte ant rieur ET Part of speech token mwu Adverbe de n gation 5 Mot s Supprimer Recherche principale Part of speech token min Verbe Tous 5 Mot s Supprimer Contexte post rieur ET Part of speech token mwu Ad Figure 6 Fonctions filtre contexte du concordancier La syntaxe de la requ te est alors visible dans des lignes en dessous des filtres Les op rateurs logiques en violet sont au nombre de trois ET OU ou SAUF On peut supprimer une ligne de requ te en cliquant sur le bouton supprimer de la ligne en question 13 NB Dans le cas o l on cherche des cha nes de mots tr s pr cises 1l faut bien pr ciser l ordre des l ments du contexte par rapport au mot cible Ainsi si l utilisateur travaille sur l ordre des clitiques et qu il cherche tous les pronoms personnels sujets suivis d
20. etour chez soi toujours une preuve un petit peu plus gt D tails unine08 aha de ces copains copines et et de faire un petit peu les les clowns durant la semaine gt vei pi P D OC rer peatas T l charger les l ments s lectionn s T l charger tous les l ments de la requ te Figure 10 R sultats de la recherche de l adjectif petit premi re page L l ment recherch ici l adjectif petit est mis en vidence en gras et en bleu et le nom de code du locuteur est donn sur la m me ligne que l extrait juste devant le texte en gris 16 NB il est possible d afficher de nouveau les crit res de recherche pour changer ou ra ffiner la requ te en cliquant sur le bouton recherche en haut gauche de l cran Locuteur Texte O 2 5 2 5 6 7 suivant Dernier Tout Rien unine08 sea afin de construire euh petit petit le sujet gt SEE unine08 sea et puis c est pour a que ben justement de temps en temps je j ai des petits mandats ext rieurs o gt Det s T E ensuite une petite couche de de mayonnaise a personnellement j aurais pr f r un peu de moutarde gt u eUG aha Jet avec du beurre ae partir de l on peut couter en cliquant sur le bouton lecture l l ment dans son contexte imm diat tel qu il est affich l cran ou bien cliquer sur d tails pour acc der plus d options v infra 4 2 6 NB pou
21. ettres indiquent l universit dans laquelle l tudiant tait inscrit quand il a r alis son enregistrement et sa transcription UNINE pour Neuch tel UNIFR pour Fribourg les chiffres qui suivent l ann e universitaire pendant laquelle l enregistrement a t r alis 08 pour 2008 09 pour 2009 etc Un trait d union s pare ce premier code de trois autres lettres dont les deux premi res sont mises pour les initiales du locuteur ou du transcripteur premi re lettre du pr nom m me si c est un pr nom compos la derni re pour diff rencier les locuteurs enregistr s une m me ann e a pour le premier locuteur b pour le second etc Ainsi la locutrice dont la Figure 1 ci dessus donne un extrait a t enregistr e par un tudiant de l universit de Neuch tel en 2011 a un pr nom qui commence par y et un nom par v elle est la premi re locutrice ayant de telles initiales dans la vol e d enregistrements r alis s en 2011 D autres informations ont t cod es pour chacun des locuteurs de notre base de donn es Elles peuvent tre affich es dans des fen tres sp cifiques lors de la recherche sur le concordancier cf infra 3 partir de 2014 le codage des locuteurs a t l g rement modifi Les trois derni res lettres ont t remplac es par une simple num rotation sur trois chiffres allant de 001 999 2 3 Conventions de transcription 2 3 1 Unit s de transcriptio
22. fournissent des r sultats optimaux 1l faut que la transcription du texte colle au plus pr s ce qui est prononc Par cons quent nous avons d prendre quelques distances quant aux autres conventions de transcription g n ralement suivies par nos coll gues 2 3 2 1 R gles typographiques Compte tenu de la non pertinence de la ponctuation orthographique pour transcrire l oral l usage des majuscules est r serv aux noms propres aux titres d ouvrages 1 aux acronymes 2 3 et aux lettres prononc es de fa on isol es 4 5 1 vous avez gagn un voyage Abidjan _ et puis _ c est la seule fois o je suis all e en avion nous sommes all s en C te d Ivoire _ et nous avons v cu des heures extraordinaires avec l orchestre de Lille _ dirig par Casadesus _ ils ont et puis ils ont jou _ l air de Nabucco uninel 1 yva 2 j ai un CFC de commerce unine08 rza 3 j habitais pr s d une stat euh une base a rienne de l OTAN tenu par des am ricains uninel 1 rpa 4 un nom qui commence avec un W uninel 1 sma 5 tous les films qu ils voient c est des films euh de s rie B avec toujours des femmes blanches euh pr tes coucher avec n importe qui unine09 Iba Les mots prononc s de fa on abr g e sont transcrits comme tels sans apostrophe finale 6 et le prof tait pas mal en plus unine08 ema 3 e aini 2 on La signification des acronymes n est pas donn e dans la transcription 7 l
23. gistrements que la base contient sont pour la plupart extraits d entretiens guid s dominante monologique dans lesquels l interview un locuteur n en Suisse et vivant en Suisse romande tait sollicit pour r pondre des questions n cessitant des r ponses plus ou moins longues pos es par l intervieweur le responsable de l enqu te Une plus petite partie des enregistrements ressemblent davantage des interactions puisqu ils impliquent au moins deux personnes qui parlent b tons rompus Les th mes abord s concernent aussi bien les m tiers les voyages les passe temps des locuteurs que leurs relations de voisinage leurs projets ou les situations incongrues auxquelles ils ont t confront s dans leur vie Elles peuvent galement tre en rapport avec le syst me politique ou la situation linguistique de la Suisse etc Les enregistrements actuellement mis disposition ont t r alis s partir de 2008 par des tudiants de Bachelor lors d un travail conduit dans le cadre des s minaires de linguistique fran aise dispens s pour les uns par Mathieu Avanzi et Marie Jos B guelin l Universit de Neuch tel cote UNINE pour les autres par Alain Berrendonner l Universit de Fribourg cote UNIFR Durant cette p riode les transcriptions associ es aux fichiers sons ont t faites par les tudiants responsables de l enqu te Elles ont toutes t v rifi es anonymis es et uniformis es
24. mon A C 2008 La transcription synchronis e des corpus oraux Un aller retour entre th orie m thodologie et traitement informatis Arena Romanistica 1 1 54 79 Durand J Laks B Lyche C 2002 La phonologie du fran ais contemporain usages vari t s et structure In Romance Corpus Linguistics Corpora and Spoken Language Pusch C Raible W ds T bingen Gunter Narr Verlag 93 106 Durand J Laks B Lyche C 2009 Phonologie variation et accents du fran ais Paris Hermes Giovannoni D C amp Savelli M J 1990 Transcrire traduire orthographier le fran ais parl De l impossible copie la falsification des donn es orales Recherches sur le fran ais parl 10 19 37 Goldman J P 2011 EasyAlign an Automatic Phonetic Alignment Tool under Praat Proceedings of Interspeech 3233 3236 MacWhinney B 2000 The CHILDES Project Tools for Analyzing Talk 3 Edition Mahwah NJ Lawrence Erlbaum Associates Racine I amp Andreassen H 2012 A phonological study of a Swiss French variety Data from the canton of Neuch tel in R Gess C Lyche amp T Meisenburg Eds Phonological Variation in French Illustrations from Three Continents Amsterdam John Benjamins 173 207 24
25. n Les empans ou intervalles de transcription dans les TextGrids Praat ne correspondent pas des s quences linguistiques dont on serait en mesure de donner une d finition scientifique stable Les aligneurs automatiques n cessitant des empans de transcription relativement restreints Goldman 2011 Bigi et al 2012 nous avons pris le parti de s lectionner pour la transcription des fen tres temporelles courtes de 1 5 secondes au maximum Au plan linguistique ces s quences sont relativement sous sp cifi es elles correspondent des groupes assortis d une fronti re intonosyntaxique mineure ou majeure l id e est que l on ne coupe pas au milieu d un mot ou d un syntagme de bas rang 2 3 2 Choix d une orthographe standard Les enregistrements sont transcrits en orthographe standard sans trucages ni ponctuation nos conventions suivent en cela les recommandations du GARS Blanche Benveniste amp Jeanjean 1986 Blanche Benveniste 1997 reprises dans la plupart des corpus de fran ais parl transcrits existants DELIC 2004 Dister amp Simon 2008 Branca et al 2012 Ces trucages orthographiques qui sont largement illustr s dans les publications de r f rence Giovanni amp Savelli 1990 sont d autant moins n cessaires que les aligneurs contiennent des dictionnaires qui incluent plusieurs variantes de prononciation pour un m me mot Adda Decker amp Snoeren 2011 Cela dit pour que les aligneurs
26. r que la lecture des sons soit possible il est conseill d utiliser un navigateur compatible HTMLS tel que Firefox ou Chrome 4 2 5 Extraction des fichiers associ s la recherche Il est possible de s lectionner certains l ments ou l ensemble des l ments trouv s pour sa recherche en cochant les cases la fin des lignes o appara t chaque occurrence Le nombre de r sultats est limit 20 par page On peut naviguer dans les pages gr ce des commandes en dessous et au dessus des r sultats ___ Euh de faire un petit peu on va dire euh mon entr e euh dans le domaine protessionnel parce que j avais unine08 aca c est c tait un petit peu m me si je jouais d j dans pas mal de groupes gt unine08 aca alors j tais content d avoir un petit peu r ussi a et pis euh P unine08 aca et puis euh ben l aussi j ai d un petit peu apprendre euh sur le tas on avait P Pr c dant 1 3 4 5 6 Suivant Dernier Une commande au bas de la page permet de t l charger le ou les l ments coch s ou tous les l ments de la requ te Lorsque l on proc de au t l chargement de la s lection on t l charge un fichier zipp qui contient plusieurs fichiers un fichier au format wav et sa transcription au format TextGrid qui correspondent l extrait affich Un fichier au format csv que l on peut ouvrir dans un tableur type Excel qui contient le nom de code du locuteur les informations
27. role narration Ann e de naissance 1953 Uni UNINE Lieu de naissance NR Propri taire Mathieu Avanzi Lieu de r sidence actuel NR Lieu d enregistrement Fribourg Canton de r sidence actuel NR Canton Fribourg Y habite depuis NR Enregistr par Am lie Cochard Niveau socio ducatif Niveau 4 Date d enregistrement 21 04 2008 Occupation Enseignant Transcrit par Am lie Cochard ge au moment de l enregistrement 55 R vis par Fran ois Delafontaine Statut familial Mari Date de r vision 18 09 2012 Figure 13 Informations sur le locuteur et sur l enregistrement Les informations affich es tant assez transparentes nous ne les commentons pas davantage ici 8 F _ PE Les contenus sonores des intervalles cod s et ne sont pas compil s dans le fichier final 20 5 Statistiques La rubrique statistiques permet de consulter tout moment le contenu de la base de donn es Au moment de sa mise en ligne d cembre 2012 le corpus contenait 154 883 mots tait d une dur e d environ 17 heures et compte 74 locuteurs qui se r partissent de la fa on suivante Nombre de locuteurs par canton allt Total 74 Pa Es bi vis D b 4 x a o NA n y Fa E Pais Te L un i Fo mi 4 Le Nombre de locuteurs Figure 14 Nombre de locuteurs par canton dans la base de donn es au mois de d cembre 2012 En septembre 2013 la base s enrichissait d environ 50 nouveaux locuteurs Le corpus
28. sation La parole est une propri t Baude 2006 Les locuteurs enregistr s dans notre corpus ont sign des autorisations stipulant qu ils donnaient leur accord pour l enregistrement la diffusion et l analyse des fins linguistiques de leur parole condition que les donn es soient anonymis es Nous n avons pas proc d une anonymisation du signal proprement parler Pour viter de rendre publiques certaines informations prononc es pouvant servir l identification des locuteurs nous avons simplement fait correspondre aux s quences sonores pouvant aider l identification du locuteur des intervalles d di s l int rieur de la couche de transcription Ces intervalles contiennent un symbole sp cial qui permet lors de la recherche l aide du concordancier que le contenu sonore associ l intervalle incrimin ne puisse pas tre entendu ni t l charg cf infra 4 L anonymat des locuteurs de notre COrpus est ainsi pr serv 3 Donn es m talinguistiques Les enqu teurs avaient pour consigne de recueillir pour chaque locuteur enregistr un certain nombre d informations qui devaient permettre de trier les locuteurs selon des crit res sociolinguistiques minimaux au moment de la recherche sur concordancier Ces crit res seront d taill s plus loin cf 4 2 2 4 Mode d emploi du concordancier 4 1 Avertissement Pour des raisons d anonymisation 1l n est pas possible de
29. tait d une dur e de plus de 28 heures et contenait environ 232 536 mots Au total la base contenait alors 119 locuteurs qui se r partissent de la fa on suivante Nombre de locuteurs par Canton Total 119 AN r Fu F NU amp a Po s A 2 Pr 6 rs lt v gt lt gt 5 Q lt e ik F F x j Figure 15 Nombre de locuteurs par canton dans la base de donn es au mois de sept 2013 21 Le corpus est suite la derni re mise jour ao t 2015 d une dur e d un peu plus de 64 heures et contient environ 615621 mots pour un total de 222 locuteurs qui se r partissent de la fa on suivante Nombre de locuteurs par canton Total 222 O ue mM Te N re N k em 2 amp a D amp _ D S V2 s amp LE B gt 7 SP 4 KS G VY Nombre de locuteurs 30 20 10 0 N Y Figure 16 Nombre de locuteurs par canton dans la base de donn es au mois d ao t 2015 6 Formulaire de contact ou pour signaler une erreur Un formulaire de contact est disposition de l utilisateur de m me qu un formulaire permettant de signaler une erreur Nom et pr nom E mail Nom du locuteur Description de l erreur Champs obligatoires Figure 17 Formulaire de contact pour signaler une erreur 22 7 Remerciements La confection de ce site n aurait jamais t possible sans le soutien financier du programme Campus virtuel Suisse de la
30. tuitement t l chargeable sur le web et de nombreux tutoriels pour sa prise en main existent cf p ex http latlcui unige ch phonetique praattutos php pour un tutoriel en fran ais De par son ergonomie son caract re gratuit et open source le logiciel Praat est aujourd hui en passe de devenir le logiciel de r f rence pour les tudes de phon tique Signalons par ailleurs toutes fins utiles qu il existe de nombreux logiciels qui permettent de lire les fichiers de transcription au format TextGrid que g n re Praat Une fois convertis en xml avec un logiciel comme Transformer Ehmer 2006 les TextGrids peuvent tre lus par des logiciels comme Transcriber Barras et al 1998 ou Clan MacWhinney 2000 Comme on peut le voir sur la Figure 1 le logiciel Praat permet en effet d avoir acc s la transcription de fa on align e directement avec le son et de visualiser de fa on dynamique le spectre la ligne d intensit les variations de FO et les pauses de fa on pr cise au cours du temps 2 2 Identification des locuteurs Les paroles d un locuteur sont reproduites orthographiquement dans une tire c est dire dans une couche de transcription qui lui est propre et qui porte son nom Les locuteurs re oivent chacun un nom de code qui est unique dans la base de donn es Ce code est compos de cinq lettres suivies de deux chiffres d un trait d union et de trois lettres Les cinq premi res l
31. web convivial Nous souhaitons que la base de donn es OFROM puisse servir la recherche sur le fran ais tel qu il est parl en Suisse romande 2 Transcription des enregistrements 2 1 Support de transcription l origine les enregistrements ont t r alis s en vue d tudes sur la prosodie qui impliquent un alignement fin en phon mes et syllabes puis un codage des pro minences et des groupes accentuels de diff rents rangs Avanzi 20131 Dans ce contexte nous avions d cid que les enregistrements seraient transcrits directement dans le logiciel Praat Boersma amp Weeninck 2012 PP TP TEE ENT E ET E F e ct Cuers nr elei b n Bourdisry 0 0003649 LE a L LMI d i N A A Lagi NA A 1138 Hr gt S Fe ENS DES e N NIV AD 16 DH he D UN HAH 1 e malin c est l homme qui allait travaillloui il tait professeur plils levaient des po ummet t yva r l apr s midi la femme t uis elle aussi ul s 3 18 3 387230 Visible 10 097345 seconds 12484570 EEES OO SN ingsi Total duwra on 25 436236 seconds Figure 1 Copie d cran Praat avec dans la partie sup rieure l oscillogramme dans la partie interm diaire la courbe de FO d intensit et le spectre et dans la partie inf rieure la transcription orthographique synchronis e sur le signal Les pauses sont not es _ cf infra 2 3 5 Le logiciel Praat est gra

Download Pdf Manuals

image

Related Search

Related Contents

Smart Switch intelligent enfichable Interruptor  マキタ コンクリート用ガスピン打ち機 GN420C  『パンがやけたよ!アンパンマン』2009年10月10日(土)発売    administración temporal sylabus área carrera seminario único  デジタル手動血圧計 BP  Phonix IP5CBCB mobile phone case  Sennheiser MMD 935  PDFファイル  Nokia N95 User Guide  

Copyright © All rights reserved.
Failed to retrieve file