Home

WAHSP End-user Manual

image

Contents

1. NV De Agrarische Pers 1 Dagblad van Rotterdam Drukkers amp Uitgevers Mij N V 1 Hilarius Courantenbedrijf 1 Figure 9 Some newspaper statistics corresponding to the query Hovering the pie pieces displays the corresponding text Queries L Combine Combine 2 queries Boolean COL operator AND OR 7 NOT cocaine vliegenzwam Save result as cocaine OR vliegenzwam Figure 10 Combining existing queries 4 Word cloud configuration The word cloud in fig 6 was made with default cloud parameters but there are several options to tune the result according to your wishes Fig shows the word cloud options This configuration widget can be opened from the toolbar Configuration Word cloud options Require fresh cloud ignore browser cache Reduce font size differences 50 Font scale factor lt 4 Remove stop words Remove words shorter than 3 characters stemming Named Entity Recognition 100 Max of words in cloud Figure 11 Word cloud configuration The word cloud options have the following effect e Require fresh cloud This adds a dummy variable with random value to the cloud request This should convince your browser not to return a cached result e Reduce font size differences When the word sizes decline too fast at the cloud edge this option should improve the result e Font scale factor This scale factor determines the maximum font size e Remove stop words Th
2. maar proven tief ler beschikking gesteld levenslang als gedegenereerde ge limineerd moct worden ecltpseeren Het is een monsirum dat voor een lolletje brandsticht kinderen mutileert en verkracht en dorgelijke mear Verbetering is viigeslolen er is een morecle missing link die niets ix bij te brengen Sublimeeren figuurlijke vergassing Is eenige blijvend Tabula Eouviile Figure 18 The scan of the newspaper article Een kat in kapok The word monstrum is blue because that was the query 6 Some abbreviations Contextual Query Language Graphical User Interface Koninklijke Bibliotheek Named Entity Recognition Optical Character Recognition Search Retrieval via URL eXtensible Markup Language Text Analysis Service Uniform Resource Locator Web Application for Historical Sentiment mining in Public media TEE U E Table 1 Abbreviations 7 Acknowledgments Apart from having received comments from my WAHSP colleagues DAAN ODIJK STEPHEN SNELDERS amp TOINE PIETERS I also got contributions from and VERHEUL of Utrecht University and my new colleague PIM HUIJNEN 12
3. Bouville levende voordat gevoel si bloede aande n lijfstraffen onwillekeurig ler gesteld openend vergassing dierenmishandeling link keer brengen geeft lS Let gewaagt brandsticht w rden PUNJEN blijkens vond KORAN einde kinderen eerste bis monstrum moest 200 Verbetering opwelling beschikking praktisch Figure 17 The word cloud of the newspaper article Een kat in kapok 11 Een kat in kapok G Weir gewaagt de pers van cen erger lijke dierenmishandeling erger dan die van den boer die zijn paard met een hoolvork ten doede mishandelde Een nb 18 jarige lummel die voor verzending kapok moest pakken deed daarin een levende kat mei t gevolg dat de ontvanger van pak na maanden het ope nend daarin de doode kat vond die blijkens de omgeving hevig te keer moest zijn gegaan voordat de verlossende dood aan het lijden Ziet eens hier Zoen ind eens hier n individu dat koelen bloede voor de grap dat deed kan nu moge lijk amp maanden krijgen maar wat s dat in vergelijking met het lijden van dat dier Men kan tegen l fsiraffen zijn maar bij zoo leis gaat men onwillekeurig in de eerste opwelling spontaan toch lets voelen voor cen jus talloni Men krijgt t gevoel om zoon ondier te lijt te gaan en te pijnigen Maar bij nadere overweging is praktisch bekeken zoo n een gevaarlijke sadist een psycha paath als men wil die niet gestraft moet wor den want dat goeft loch niets
4. This shows the list of your saved queries which are used to retrieve the OCR data of the articles create word clouds and display newspaper statistics The screen area to the right of the accordion is for displaying the OCR statistics and clouds and will be discussed together with searching 3 Searching trivial way to search is by using a single query word Say we type vliegenzwam in the textline area in the accordion and then click the Seach button see fig Bh It shows that 141 articles are found The first chunk is displayed with their titles in blue and underlined Underneath the title is some additional information the newspaper title article date and newspaper type country wide or regional Clicking next gives the next chunk of articles i mg The creation of a lexicon starts with composing its query in the Search vliegenzwam Search accordion Give it a name and save the query Then fetch the articles by clicking the 1stof the 4 small icons Found 141 records next E Save query a Refresh DE VLIEGENZWAM Hoe oom Hendrikus zich vergi De tribune soc dem weekblad 1936 07718 Dag Landelijk Gj je FRANKRIJK TEGEN PADDENSTOELENVERGIFTIGING beschaving erfelijkheid 184 2012 05 21 15 54 45 a se Nieuwe Tilburgsche Courant 1932 09 21 Dag Hegionaal lokaal TOMAAT PADDENSTOELEN De Tid gadsdienstig staatkundig dagblad 1938 08 28 Ochtend Landelijk monstrum 876 2012
5. 05 07 16 07 56 Paddestoelen Nieuwsblad van het Noorden 1935 1 0 1 1 i Dag Regionaal lo kaal erffactor 32 20 12 05 04 12 34 50 LEVENDE NATUUR Najaarsgedachten ll slot De Nieuwsblad van het Noorden malthusianisme 9 2012 05 04 12 33 37 1935 10 19 Dag Regionaal lokaal Kinderen van den herfst Het Vaderland staat en letterkundig nieuwsblad vitamine vitaliteit 62 2012 05 01 13 25 51 1941 10 12 Dag Landelijk DE WANDELAAR spart 129 2012 04 25 13 08 07 Het Vaderland staat en letterkundig nieuwsblad 1929 10 18 Avond Landelijk Een middel dat door iedere leek direct kan w Leeuwarder nieuwsblad goedkoop advertentie blad 1937 09 14 Dag Hegionaal lokaal Een middel dat door iedere leek direct kan w erfelijkheid kerk 252 2012 05 25 15 42 55 erfelijkheid 3682 2012 05 14 16 21 57 variatie volk of ras 2211 2012 05 09 15 18 54 menschentype 400 2012 05 07 15 18 54 kerk eugenetica 19 2012 05 04 12 29 05 regulatie onderwijs 142 2012 04 25 13 00 48 a Search panel b Saved queries Figure 3 Search and Saved queries in the accordion When you click one of the article titles its OCR text is shown in the Text tab see fig Clicking the Original tab shows the scan image of the newspaper article fig 5 The third tab View at KB opens the KB search engine page in a new browser window or tab The corresponding word cloud of the article is shown in fig 6 The used font size
6. text Figure 15 Sentiment option in configuration widget This is an article from the query monstrum Now that we speak of sentiment should we add monstrum to the red list The figure also shows that what is highlighted are not whole words but substrings which may lead to curious mistakes And the OCR will never be perfect which clearly affects the resultg Apart from OCR mistakes there is a second shortcoming in the data The semi automatic segmentation of the newspaper scans into individual articles is not perfect either leading to numerous oversegmentation articles consisting of just their title their body text having been delegated to the next article The current settings of the KB search engine imply that short articles come first in the result list 10 The corresponding article cloud and scan are shown in figs 17 and Een kat in kapok Text Original Weer gewaagt de pers van een lijke dierenmishandeling erger dan die van den boer die zijn paard met een hooivork ten doode mishandelde Een n b 18 jarige lummel die voor verzending kapok moest pakken deed daarin een levende kat met t gevolg View at KB dat de ontvanger van t pak na maanden het openend daarin de doode kat vand die blijkens de omgeving hevig te keer moest zm gegaan voordat de verlossende daad aan het lijden een einde maakte Zieteens hier Zoon individu dat in koelen bloede voor de grap dat deed kan nu mogeli
7. word cloud immediately The cause of this difference is that with a single article the fetching of the data is done automatically When fetching and pre processing the articles is done you can click the second icon which now produces the word cloud of all articles together after a while accumulating all the word frequencies and some basic statistics of the lot in the text panel see fig ol 3 2 Combining Queries With the query widget see fig reachable from the toolbar one can combine two existing ie saved queries into a new query First select the desired boolean combination operator AND OR or NOT and then select the first and second query from the available list The widget will suggest a name for the combined query but you can change that before clicking OK edition Dag 9 Avand 2 papertitle Delftsche courant nieuwsblad voor Delft en Delfland 1 Het Vaderland staat en letterkundig nieuwsblad 2 Keesings historisch archief ge llustreerd dagboek van het hedendaagsch wereldgebeuren met voortdurend bijgewerkten alphabetischen index 1 Nieuwe Rotterdamsche Courant 1 De courant Het nieuws van den dag 1 Nieuwe Tilburgsche Courant 2 Drentsch dagblad officieel orgaan voor de provincie Drenthe 1 Dagblad van Rotterdam 1 Dagblad van het Oosten Almelo s dagblad 1 publisher J H Malenbroek 1 M Nijhoff ete 2 Keesing 1 Nijgh 1 N V de Courant Het Nieuws van den Dag 1 A Arts 2
8. WAHSP End user Manual Fons Laan Informatics Institute University of Amsterdam Science Park 904 1098 XH Amsterdam version 0 2 2 8 Jun 2012 Web Application for Historical Sentiment mining Public media Contents 1 Introduction 1 2 User interface 1 3 Searching 3 o Query editor s s e hee Box RO EECH 3 3 2 Combining Querles 6 Word cloud configuration 8 Sentiment highlighting 10 Some abbreviations 12 Acknowledgments 12 en I 1 Introduction In this document we will describe how to use the web application of the Clarin WAHSP project With your browser you can find the application at WAHSP is research tools for historians that uses the newspaper data of the KONINKLIJKE BIBLIOTHEEK as input material One can search with single query terms or with combinations thereof Apart from showing the articles that match the query the results can be visualized by word clouds of single articles together with sentiment words highlighted or by a word cloud of the whole result set together with newspaper statistics derived from their metadata Additional information about the project can be obtained from the BILAND CMS site http biland nl which is the successor of WAHSP 2 User interface In this section we will give an overview of the components of the user interface After accessing the WAHSP URL you will see the login window see fig 1 Just clicking the Lo
9. depapier geneeskundige Hit organisatie kr h soldaben jonge slechts _ geldig bestaan Staan Europa verhandeld Zaken verbanden bepalen verko cht J n H e n S Du wekaminen eau eerste aantal blijven Duitsche CU directeur mogen September Hn d thans Wel Geuns ongeveer Europeesche strijd deel Unie Je ugd grogte Dm sue iu ere wordt a d r ZO uten eraal aanwijzingen in Eik zgn ltali oorlog volkeren volk noun eene bevoegdheid gemaekte Zullen daarvan onder merknamen ux Lel levertraan Jeugdstorm Se t meisjes wereld 5 landen Sch Staten insuline peat roem t geneesmiddelen gegeven ien Nederlandsche nieuwe verworven nzen wijziging Secretari voeren Diriemagendhedenpact werden driemogendhedernpaci Figure 12 Word cloud of the query wekaminen geldig cologne Nederlandsche voeren Drie geneesmiddelen komen Unie welke Sovjet landen bestaan pi S dee mogen nieuwe thans Volk artsen soldaten land minister daarvan iaarJeugd nan de aanzien wijziging generaal WER alle wordt slechts jonge doel staan Zgh 5e islesrecept ag 2 September T SIE Pl eau Staten levertraan staat bepalen ood eerste Duitsche JONGENS Itali m I Zaken Jeugdstorm Europeesche gegeven I directeur waardepapier beslut Duitschland volkeren dezen Staatscourant F hrerinsuline Aantal secretaris groote dee En steeds Figure 13 Word cloud of the query wekam
10. esses And they may need a bit more time The new lexicon now appears in the accordion The number after the lexicon name in brackets shows the number of articles available If it is a single number identical to the number mentioned before then the loading is done But it may easily happen that you see two numbers which are the separate counts of the article metadata and ORC It likely means that the WAHSP helpers are still busy You may click the Refresh button to see if progress is being made When the metada and OCR counts are non zero the second tiny icon will have been enabled and you can proceed to look at preliminary word clouds and graphs of statistics There are two other reasons that may lead to article counts changing over time e The KB digitization of the historical newspapers is still an ongoing process Once in a while new data is made available WAHSP does not check this but when when you manually reload the data you may see an increase of the number of articles e Another issue is that over time days weeks the metadata and OCR count may become different This is an unresolved bug like WAHSP itself Reloading the data will fix this at least for some time Lexicon The basis lexicon of 5353 articles is loaded Figure 8 Loading of the KB data seems to be done So the article set corresponding to the query must first be loaded in order to view the cloud of all words together For a single article you can view the
11. gin button makes you a guest user but WAHSP collaborators will use their own credentials Notice that there is only one guest account so other guests can delete the queries that you as a guest saved WAHSP Login Username hue st Password H toon Figure 1 Login window The WAHSP opening window is shown in fig lInternet Explorer may not work with WAHSP Please use Google Chrome a recent Firefox Opera WAHSP Mozilla Firefox CN Hle Edit View History Bookmarks Tools Help WAHSP EA Al wahsp nl 8 N EN EEN Ov X gt 0MB 29MB 15 4 MB 1024 MB 8 Figure 2 WAHSP opening screen The window consists of the following screen regions The toolbar at the top An accordion widget at the left The article tab widget at the top right A region for the word cloud at the bottom right The toolbar consists of the following widgets Two date widgets to limit the search period The full date range of the KB newspapers is 1900 1945 e query widget used to combine saved queries into a new query e logout widget e configuration widget mostly for word cloud options e An about widget showing the collaborators of the project and a link to this document The query accordion on the left has the two divisions Search Here one creates new queries to be sent to the KB search engine e Saved queries
12. inen with reduced font size differences Noorsche Vlaanderen p y Amerikaansche 29 Meas TOt Vereenigde StatenSaponatus ondheia Amsterdam pdt wegen Telegraaf Sovjet Unie Rusland ap Ankara Schirach Baldur Europeesche Sovjet Unie Levente amp quot F hrer poglavnik Hi A ik Belgie Ver Statenzwe V b Hitler Financi n Moskou 7 Willkie Duitschland Gate _JapanAntonescu Slowaaksche see Engeland Duitsche Mihai Foe Kris Spaansche i tali Pact van Drie vels Roemeni taliaansche mess Amerika Westen GE Roemeensche 995945 Hongarije Insuline RiBBentrop Kroati Berlijn Nederlandsche Geekerkenos e Hitlerjugend Thans Duitschland EN Turkije Japansche jose odds usute Eau de Cologne Staatscourant pe Kaukasus Buitenlandsche Zaken g Brannik k Kroatisch De Brannik NEDERLAND GENEESMIDDELEN ALLEEN Alg Handelsblad Belgi Figure 14 Word cloud of the query wekaminen with Stanford Named Entity Recognition Used colors locations persons organizations and miscellaneous 5 Sentiment highlighting In fig 4 we showed the plain OCR text of an article After turning on the sentiment option in the configuration widget see fig 15 the article OCR looks as depicted in fig with positive and negative sentiment words highlighted Configuration Cloud Options Sentiment Sentiment options E Highlight sentiment words in article
13. is removes short words as specified by a pre defined list e Remove words shorter that 3 characters When the stop word list does not block enough noise this will filter more e Stemming This applies stemming to the words before computing the cloud e Named Entity Recognition This applies NER currently a bit slow e Max of words in cloud The number of words returned by the server can be very big lruncating the list before generating the cloud speeds it up Fig 12 shows the word cloud of the query wekaminen which yields only 11 articles Often as in this case the cloud does not properly occupy the available space One can increase the maximum number of words displayed to remedy this assuming more words are indeed available But when the words at the border of the cloud are already small that does not help much because words that are too small become invisible anyway Then it is better to reduce the font size differences see fig 13 for the result Finally fig shows the same word cloud with Named Entity Recognition Used colors locations persons organizations and miscellaneous The latter means that the NER algorithm thinks these are entities but cannot be more specific about it The NER we used is Stanford trained for Dutch It is not perfect but it is better than several alternatives Notice that the figure only shows the recognized entities the remaining words are left out Opvoeding waar
14. jk amp maanden krijgen maar wat is dat in vergelijking met het lijden van dat dier Men kan tegen lijfstraffen zijn maar bij zoo leis gaat men onwillekeurig In de eerste opwelling spontaan och leis voelen voor een jus tallanls Men krijgt t gevoel om zoon ondier te lijf te gaan en te pijnigen Maar bij nadere overweging Is praktisch bekeken zoon monstrum en gevaarlijke sadist en psvchopaath al men wil die niet gestraft moet worden want dat geeft tach niets maar prevenlief ler beschikking gesteld levenslang als gedegenereerde ge limineerd moet worden eclipseeren Het ls monstrum dat voor een lolletje brandsticht kinderen mutileert en verkracht en dergelijke meer Verbetering is uitgesloten er is een morecle missing link die niets Is blj te brengen ubllmeeren figuurlijke vergassing ls teenige blijvend Tabula rasa Hauvllle Figure 16 OCR text of the KB article Een kat kapok with positive and negative sentiment highlighting levenslang d d k k verkracht Weer voelen dier verzending tallons QOQOQE apo gevaarlijke sadist ontvanger eenige missin ei lijf on j deed daarin Pij erger Zoon figuurlijke morecle __ ondier lolletje gegaan rasa lijde n EIS gestraft lummel dood vergelijking lange mishandelde blijvend zijn S kat zoon 9 sent krijgt dergelijke gaan pak ge limineerd paard grap mogelijk Ziet gaat Ta Aua nadere psvchopaath hevig bekeken
15. m the KB When the loading is done click the second icon Apply query luminal That creates the cloud of the luminal articles plus some statistics Search Select an article cql serverChoice exact luminal Le Search luminal Search for newspaper isle Search Exact Forbidden Alternatives chloral Create word list 3 amp Remove term Figure 7 Query editor The Saved queries panel shows the query titles their article count and the creation date of the queries that you have saved If the article count is zero either you have not loaded the KB data or there just is no loadable data because your query did not yield a single hit To the right of each query are four small icons When you move your mouse over them you will see their hover text Create basis lexicon Apply query Modify Delete After you saved a new query it is important to realize that you cannot show the word cloud of those articles together yet because the OCR text of all articles has to be fetched from the KB and be pre processed by our xTAS Text Analysis Service see That will be accomplished by clicking the first of the four icons When the query yielded many articles it is time for coffee After a while the loading is done fig B and the number of articles is shown Please remember this number for moment What is actually done is that WAHSP finished delegating all the hard work to a bunch of helper proc
16. of the words is the graphical equivalent of their frequency in the document Words of too low frequency may not be shown and in general noise is also suppressed Inspecting the words in the cloud may lead one to make adaptations to the original query 3 1 Query editor Creating queries that consist of more than a single word is done with the built in query editor The editor is easiest to explain by creating an example query Let say that we create a new query that we will later save with the name luminal Proceed with the following steps e the Search panel of the accordion type luminal as search term e Click on the tiny arrow on the right half of the Search button e Click on the button Start search that appeared underneath the Search button 3 LEVENDE NATUUR Najaarsgedachten ll slot De Sporenfoto Text Original Op mijn tafel staat weer zooals iederen herfst een schaaltje opgemaakt met paddestoelen mos en herfstvruchten en daarvan heb ik dagenlang genoegen Voorzichtig ingepakt tusschen wat gras in onze botaniseertrommels hebben we ze meegenomen en als morgen View at KB studie of andere bezigheden ons thuis houden hebben we toch een klein bescheiden stukje herfstbasch in onze kamer waaraan we ons bovenmatig kunnen verkwikken en dat zoete herinneringen wekt De hoed van de uitgegraven vliegenzwam hebben we zonder steel platop een zwart carton gelegd op een windstille plek in een tast en daar vorm
17. ogen zeldzame Mevio UNN WELLEN vrij ingepakt ihuis bekend dung goede pachi 5parenfolto chai oed carton zwar bescheiden at onzichibaar mos houden name li wit laat es LEVENDE gelegd zooakbkanderen Alvorens bop heen hefsivuchten klein welke Wigegmvencood Vosbergen plat gekleurde stukje iederen vliegenzwam aangelmffen vermelden paddestoelen purmeribruine zwavekopjes hetsibaach siudi weki rangschkken alee siriken NATUUR bewerking Najaargedachien daarvan Figure 6 Word cloud of a single KB article Below the text widget that now contains cql serverChoice exact luminal there is a new button with text luminal Click on its arrow at the right side You will see a new frame with several buttons and other widgets Click on the button Make word list e Next to Word list luminal there is a tiny icon of the inline editbox click on it Type chloral in the text region see fig 7 en then press Enter Next to luminal we now also see chloral in the word list Once more press the icon Type wekaminen and press Enter Click the Search button which shows the found records Then go to Saved queries in the accordion and at Type query title here type luminal and click the Save query button Then luminal is displayed as the new saved query unless that name is already taken Click its first icon with hover text Create basis lexicon luminal This loads the OCR data of all the luminal articles fro
18. t zich nu in den loop van den nacht een prachtige zg sporem oto De sporen namelijk welke bij milliaenen uitde plaatjes aan den onderkant van den hoed vallen rangschikken zich op het carton in n figuur welke met de groepeering der plaatjes overeenkomt De sporen der vliegenzwam zijn wit De zwavelkopjes hebben purperbruine sparen zoodat we die op wit papier hebben gelegd De gekleurde sporenfig ren fixeeren we door er van onderen met een penseeltje fixatief tegen te strijken Deze dringt dan door het papier heen en fixeert de sporen aan de bovenzijde Voor witte sporen die door deze bewerking onzichtbaar worden is ons geen goede methode bekend Alvorens van de paddenstoelen af te stappen wil ik nog even vermelden dat mevrouw Kraus ons in de Vosbergen een prachtige sponszwam Sparassis erlspa heeft gewezen een vrij zeldzame soort die we er tot nu toe nooit hebben aangetroffen Figure 4 OCR text of a KB article in the Text tab Figure 5 Scan image of a KB article in the Original tab The word vliegenzwam is blue because that was the query millioe nen Fixeere n bovenmatig sporenioto onde kant paddensiaelen veikwkken stappen joe schaallje Voorzichtig bovenzijde genoegen methode papier prachtige amspeering meegenomen even wille nooi sk windstile Spamssis hers opge maakt boianiseerrmmrmeE gewezen yalen dagenlang jusschen slaal weer Figuur Ze zoodaj Sponszwam avemenkami kamer jafel Kraus m

Download Pdf Manuals

image

Related Search

Related Contents

Manual de Operação Tomadas de Força  SECTION 10 ON-CHIP EMULATOR  Trust Micro Mouse - Green  Tristar OV-1413 microwave  ASUS UX303LA User's Manual  Blue Coat® Systems ProxySG™  SPRINT GLASS FT 2012  Kinetix 6000M Integrated Drive  Dahle 40005 scissor  SOYO SY-6BA+ User's Manual  

Copyright © All rights reserved.
Failed to retrieve file