Home
PG473 - Endbericht
Contents
1. n chste NewsFeedURL Abbildung 8 6 RSS ber Nachrichten Iterieren besteht 4 Wenn der Text eines Elementes mindestens aus MinTextPhrases S tzen besteht 5 Wenn zwischen zwei Elementen wobei das erste Element schon relevant f r eine Nachricht ist maximal Max EmptyTextTagsBetweenText nicht re levante Elemente stehen Damit wird sichergetsellt nachdem der Anfang Titel einer Nachricht gefunden worden ist dass die folgenden Elemente auch Nachfolger Textpassagen die zur Nachricht geh ren der berschrift sind Keine direkten Nachfolger da Texte h ufig durch Werbeelemente un terbrochen sind aber auch nicht zu weit entfernte Nachfolger In Schritt 6 wird ber die Nachrichten und RSS Feeds iteriert siehe Abbildung 8 6 8 2 3 Ausgabe Die extrahierten Daten werden in der FIPs Datenbank in die Tabelle Nachricht geschrieben Dabei wird als Datum der Nachricht das aktuelle Datum genom men wann die Nachricht in die Datenbank geschrieben wird Zun chst ist der Ansatz gewesen das Datum der Nachricht zu nehmen wie es im RSS Feed defi niert ist doch viele RSS Feeds pflegen diese Angabe nicht Die Implementierung 8 3 SPAM FILTER 115 des RSS Wrappers ist ohne grafische Benutzeroberfl che und Benutzerinterak tion Somit wurde der Aufruf des RSS Wrappers mittels einem CRON Job auf dem PG Server angesto en so dass jeden Tag einmal alle Nachrichten aus den in der Konfigurationsdatei angegebenen RSS Feeds geladen und
2. m pi et lt lt extend gt s eg g S a 3 S x gt i par pe Entscheidungsregeln f r Nachrichtenkategorien festi egent KI geneet am e lt extend gt gt EE PR o ec Pr en un s Robot konfiguri ET Eemeren u E Beer SE ee g AN 2 eg Saa Admin Eer gt S PE E EE E AE e ge eg Finanzprodukt l schen InfoQuellen festlegen Finanzprodukt hinzuf gen Finanzpr en ar gen E u u Fi D Finanzprodukt ndern Sen Ze lt lt extend gt gt ee N a lt lt extend gt gt j E7 Se Y f lt serlend gt gt on Ya D e Aktie verwalten ES hi VA PT wm eeng Gm er WEE de Finanzprodukt verwalten A TR Unternehmen ee pe Tee Fr Ze ET e A lt einclude gt gt En Anleihe verwalten S RR dr Abbildung 1 1 Admin Anwendungsfalldiagramm Akteur Robot Der Robot holt die Daten eines Finanzproduktes indem er einen daf r pas senden Wrapper startet bei Aktien also einen Aktienwrapper Dieser Wrapper liest zuerst seine Konfiguration extrahiert die entsprechenden Daten aus der Quelle und speichert diese Ergebnisse schlie lich in der Datenbank ab hnlich verh lt es sich wenn der Robot Nachrichten holt Er startet daf r den Nach richtenwrapper der entweder Nachrichten aus einem HTML Format oder aus RSS Feeds extrahiert Akteur Kl Die KI ist daf r zust ndig die vom Robot geholten Nachrichten zu kategori sieren und zu bewerten Daf r benutzt sie die vom Admin vorgegebene
3. DIV EKR 1 1 0 0 005 1 15 2 25 0 12 5 15 17 5 20 22 5 PEG KBV 1 1 0 0 008 098 1 11 12 015 2 25 3 35 Abbildung 4 4 Fuzzymengen f r Sicherheitsbetrachtung rot positiv blau neu tral gr n negativ Kapitel 5 Bewertungsans tze f r Finanznachrichten 5 1 berblick Dieses Kapitel geht einerseits auf die erstellten Bewertungskategorien denen die Finanznachrichten zugeordnet werden andererseits auf die angewendeten Ver fahren zur Einordnung in diese Kategorien und den dabei aufgetretenen Schwie rigkeiten ein Um Finanznachrichten berhaupt bewerten zu k nnen muss zun chst fest gestellt werden was in diesen Nachrichten steht Dazu werden in Kapitel 5 4 zun chst Methoden beschrieben die das Preprocessing angehen Diese sind un abh ngig von den sp teren Methoden die in Kapitel 5 5 beschrieben sind Kapitel 5 2 zeigt zun chst das Ziel auf n mlich eine Kategorisierung der Un ternehmungen aufgrund der bearbeiteten Nachrichten Kapitel 5 3 besch ftigt sich mit der Einbindung der Methoden ins Gesamtsys tem und den dabei entstandenen Schwierigkeiten 5 2 Finanznachrichten in Klassen under market und outperformer Wie im Kapitel 4 3 beschrieben werden die Aktien aufgrund ihrer Kennzahlen in drei Klassen eingeteilt Under market oder outperformer Hier besch ftigen wir uns allerdings nicht mit der Einteilung der Aktien durch ihre Kennzahlen sondern mit dem Problem ob wir mit Hilfe von bekannt
4. M gliche Ursachen f r die hohe Fehlerrate e Keine eindeutige Zuteilung von Worten in eine Klasse Wort x kann sowohl in einem Text der positiven als auch negativen Klasse vorkommen e Nur syntaktische Analyse m glich bei Finanznachrichten ist aber h ufig auch die Semantik f r die Analyse wichtig e Qualit t der Nachrichten 100 ige Zuordnung zu einer Klasse selten m glich nicht relevante Nachrichten konnten nicht immer aussortiert wer den e Bin re Klassifikationsstruktur m glicherweise nicht ausreichend vielleicht mehrere Klassen n tig oder die gew hlten zwei Klassen waren zu allge mein Anwendbarkeit Fazit Da bei unserem Problem einzelne W rter sowohl in der einen als auch anderen Klasse mit einer bestimmten H ufigkeit vorkommen k nnen ist dieser Ansatz der Klassifizierung mit Hilfe von Support Vektor Maschinen eher ungeeignet Support Vektor Maschinen sind gut geeignet wenn man die Klassifikation anhand der H ufigkeit der einzelnen W rter durchnehmen m chte Bei unserem Problem allerdings reicht so eine syntaktische Analyse nicht aus um eine Klassifizierung mit einer akzeptablen Fehlerquote zu erreichen 5 5 3 ART 2a Vorstellung der Methode Beschrieben wird im Folgenden eine Implementierung des ART 2a adaptive resonance theory 2 advanced Algorithmus entwickelt von Stephen Grossberg Gail A Carpenter und David B Rosen Allgemein ist ein ART Netz ein neuronales Netz das un berwachtes Lernen unt
5. Wie hoch ist Ihr Haushalts Nettojahreseinkommen 127000 Wie viele Personen leben in Ihrem Haushalt 2 Erwachsene Kinder F r wieviele Monate haben Sie Notfallreserven Wieviel Geld wollen Sie anlegen Welchen Verlust sind Sie bereit maximal hinzunehmen lt 2 Monate 2 3 Monate 3 6 Monate gt 6 Monate 15000 Son Stammen die Mittel der Anlagesumme aus Krediten cja nein teilweise Wie lange wollen Sie Ihr Geld festlegen Wieviel Erfahrung mit Wertpapieren haben Sie kurzfristig 1 2 bis 1 Jahr 1 2 Jahre 2 5 Jahre 5 10 Jahre gt 10 Jahre keine lt 2 Jahre 2 5 Jahre 5 10 Jahre C gt 10 Jahre Wie h ufig wollen Sie unser System durchschnittlich benutzen C t glich mehrmals w chentlich mehrmals monatlich seltener Abbildung 11 3 Fragebogen erster Teil 11 2 M GLICHKEITEN F R DEN BENUTZER UND TYPISCHE ABL UFEI35 nein teilweise Geben Sie bitte Wie lange wollen Sie Ihr Geld festlegen kurzfristig Ihre Kundennummer 1 2 bis 1 Jahr 1 2 Jahre 2 5 Jahre und Ihr Passwort ein 5 10 Jahre gt 10 Jahre Anmelden Wieviel Erfahrung mit Wertpapieren haben Sie keine lt 2 Jahre Geben Sie bitte 2 5 Jahre Benutzername und 5 10 Jahre Passwort an gt 10 Jahre t glich Sie sind noch nicht S mehrmals w chentlich re
6. Anmelden Geben Sie bitte Benutzername und Passwort an Sie sind noch nicht registriert Dann melden Sie sich hier an Impressum PG 473 In Zusammenarbeit mit BREI Abbildung 11 1 Login Screen Willkommen zu unserem Projekt softlab group BS d FIPs Konzeption und Implementierung einer Finanz Research Infothek zur intelligenten Unterst tzung von Kauf Verkaufvorschl gen auf der Grundlage wissensbasierter Finanzinformationen 11 2 M GLICHKEITEN F R DEN BENUTZER UND TYPISCHE ABL UFEI33 Bei der Neuanmeldung gelangt man dann zu einer Seite in der man nach seinen f r die Registrierung notwendigen Daten insbesondere aber nach einem Passwort gefragt wird z e ENER Ihre pers nlichen Daten Ihre Kundennummer Anrede Frau Nachname und Ihr Passwort ein ji 7 Vorname Anmelden Emailadresse Passwort Passwort Wdh Sie ne Asch nicht Geburtsjahr OT registrie i Dann melden Sie sich Speichen hier an Impressum Abbildung 11 2 Pers nliche Daten 134 KAPITEL 11 ARBEITEN MIT DEM SYSTEM Mit dem Button Speichern gelangt man zum Fragebogen wo der User seine finanzielle Lage seine Anlagesumme und horizont sowie Erfahrungen angeben kann Geben Sie bitte Ihre Kundennummer und Ihr Passwort ein Anmelden Geben Sie bitte Benutzername und Passwort an Sie sind noch nicht registriert Dann melden Sie sich hier an Impressum Fragebogen
7. O s d w hle n chsten Vektor zuf llig aus Einen Nein Normierung z Kontrastverst rkung Y Normierung g Hein Abbildung 5 4 bersicht Preprocessing des ART 2a Algorithmus 5 5 METHODEN IM DETAIL 53 Zun chst w hlen wir den n chsten Vektor der Eingabematrix zuf llig aus Dieser Vektor wird dann in dieser Epoche nicht mehr benutzt Haben wir einen Nullvektor gew hlt so wird gar nicht mehr weiter verfahren Wir w hlen einfach den n chsten Eingabevektor Gew hnlich wird der Nullvek tor auf die Nullklasse abgebildet doch unser Vorgehen ist ja prinzipiell gleich Wenn wir den Nullvektor sehen behandeln auch wir ihn gesondert Es wird nichts mehr gelernt der Rest der Klassen bleibt unber hrt Haben wir keinen Nullvektor gew hlt normieren wir ihn zun chst Nach ei ner Kontrastverst rkung oder Rauschunterdr ckung normieren wir ihn erneut Die Rauschunterdr ckung l sst sich durch die Implementierung folgender For mel realisieren SS E E me 0 v fa 0 sonst Hierbei ist x die i te Komponente des Eingabevektors und v die i te Kom ponente des neuen Vektors Durch diese Funktion kann der alte Vektor nat rlich wieder auf den Nullvektor abgebildet werden Wieder w re es sinnlos ihn zu er lernen Nun befinden wir uns in der Klasseneinteilungs und Trainingsphase Wie oben schon angedeutet sind dies nicht zwei g nzlich voneinander getrennte
8. Tagesordnung 1 N OS a A wa N Begr ung Formalia Endberichte zusammentragen der Arbeitsvorg nge Zeitplan erstellen Sonstiges TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Top3 Gruppe Kunde Fragebogen wurde ver ndert und vorgestellt Formeln wurden ange passt Punkteverteilung ist abgeschlossen Es gibt 120 Punkte die mit Faktor 1 2 auf 0 100 Punkte verrechnet werden Anmerkung Besser w re es Felder mit keine Angabe zur Verf gung zu stellen aber hierbei soll nicht allzu viel Zeit verwendet werden Kunde wird als Vektor gespeichert Fuzzy Mengen als Trapeze Die Formeln f r die Kombination von Fuzzy Mengen wurden vorgestellt Gruppe Informationsbeschaffung 13 1 SITZUNGSPROTOKOLLE 163 Konjunktureinflussgr en Indikatoren wurden ermittelt Nachrichtenbearbeitung Problem mit Unternehmensberichten schlecht zu analysieren meis tens in pdf und erz hlender Text Format XBRL ist guter L sungsansatz wird aber nicht oft verwen det keine verl ssliche Quelle Problem Nachrichten werden unstrukturiert dargestellt Informatio nen sind schwierig zu extrahieren L sung RSS Feeds werden von den Anbietern zur Verf gung gestellt k nnen automatisch heruntergeladen werden mit kostenlosem Tool Feeds sind in XML Format geben Kurzbeschreibung der
9. ber den Weihnachtsmarkt zu gehen Es soll in der n chsten Sitzung dar ber abgestimmt bzw ein Termin bestimmt werden Sonstiges TOPS n chste Sitzung siehe n chste Sitzung 208 KAPITEL 13 ANHANG Sitzungsprotokoll vom 08 12 2006 Abwesend Martin entschuldigt Versp tet Christian 10 Min Madan 10 Min Sitzungsleitung Stefan Rosas Protokollf hrung Mehmet Sari Tagesordnung 1 Begr ung 2 Formalia 3 Ergebnisse der Kleingruppen 4 Sonstiges 5 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Ergebnisse der Kleingruppen Gruppe to do s Niels berichtet e to do Liste wurde erweitert e einige Punkte wurden schon bearbeitet und einige Punkte sind noch dazu gekommen e weil ein wichtiges Interface fehlt wollen sich Nils und Christian mit der Gruppe Web Entwicklung zusammensetzen Gruppe W rterbuch Markus berichtet e graphische Schnittstelle f r Nachrichten wurde erstellt e es m ssen nur noch die einzelnen W rter durch markieren in das W rterbuch eingef gt werden e bis Dienstag soll das W rterbuch fertig sein Gruppe Spamfilter Christoph berichtet 13 1 SITZUNGSPROTOKOLLE 209 e f r das Problem wurden Support Vektor Maschinen benutzt e hierzu wurden 700 Nachrichten klassifiziert es ist jedoch kein vern nftiges Ergebnis dabei raus gekommen e a
10. maximaler Verlust 2 Abbildung 3 2 Fragebogen mit zugeordneten Sicherheitspunkten obere H lfte 3 2 KLASSIFIZIERUNG MITTELS KUNDENVEKTOR 27 Aulagehorizonm77WWTWTWN GG WGGGGGDGGDDIIEE zei Gh 0 atves bis einas AAAA DEE orrie OOOO OG OGG OUUU nie OGOOGO GOGGA zl BE er Veedel Erfahrungen mit Wertpapieren Wie h ufig wollen Sie unser System durchschnittlich benutzen SLLSLL Wie sch tzen Sie Ihre R sikofreudigkeit f r die geplante Anlage ein In welche Anlageformen investieren Sie derzeit schon Deren D TI Sparbuch Te ESCHER Rebeet D DDewae jo andere H Abbildung 3 3 Fragebogen mit zugeordneten Sicherheitspunkten untere H lfte 28 KAPITEL 3 KLASSIFIZIERUNG DES KUNDEN Kapitel 4 Klassifizierung von Finanzprodukten techn Analyse 4 1 Einleitung Bei der Klassifizierung von Finanzprodukten betrachten wir aufgrund der gros sen Menge unterschiedlicher Produkte nur die Aktie Desweiteren beschr nken wir uns auf die Aktien die im DAX30 vertreten sind In diesem Kapitel wird nun beschrieben wie diese drei ig Aktien in verschiedene Klassen eingeordnet werden um eine kompakte Repr sentation zu erhalten Basierend auf diesen Daten sollen dem Kunden Kaufempfehlungen gegeben werden Die zu einer Aktie geh renden Klassen sind Performer und Sicherheit In der Klasse Performer sind die Auspr gungen Outperformer Market performer und Underperfo
11. 5 62 5 12 35 3 davon w ren falsch 19 73 1 3 37 5 22 64 7 Wie zu erwarten klassifizierte das Netz fast alle Trainingsnachrichten richtig von den unsicheren w ren aber viele falsch gewesen sodass ein Grenzwert ab dem eine Nachricht als unsicher klassifiziert gilt durchaus sinnvoll ist Von den Testnachrichten hingegen wurden nur knapp ein Drittel 29 6 richtig klassifiziert Immerhin war das Netz bei diesem Test besser als der Zufall mit einem erwarteten Wert von 1 7 also ca 14 3 an richtigen Zuordnungen Hier sieht man wieder wie komplex der Themenbereich der Klassifikation von Finanznachrichten ist Um die gesamte Methode der Klassifikation mit Neuro nalen Netzen weiter zu testen sind also viele weitere Trainingsnachrichten n tig um so ann hernd das Spektrum aller m glichen Finanznachrichten abzudecken Nur so werden sinnvolle Aussagen erst m glich Anwendbarkeit Fazit Die tats chliche Anwendbarkeit der Methode ist noch nicht endg ltig gekl rt Vor allem mangelt es an geeigneten vorverarbeiteten Trainingsnachrichten um genauere Untersuchungen zuzulassen Es sprechen jedoch eine Reihe von Be gr ndungen gegen einen wirklich berragenden Erfolg dieses Ansatzes e Die Komplexit t einer Finanznachricht scheint nicht einfach in einen li nearen Vektor von Synonymgruppen komprimierbar zu sein Insbesondere wird kein Bezug auf die Semantik genommen e Der Ansatz basiert darauf dass aus vorhandenen
12. Ahmet Entscheidungsb ume wurden 3x getestet auf W rterbuch von Markus amp Jana von je 38 Nachrichten wurden 27 19 21 unbekannte Nachrichten richtig klassifiziert e Testen und Reparieren Niels Stefan Madan Schieberegler sind ein gebaut News zum Unternehmen lassen sich jetzt per Anklicken anzei gen leider noch einige irrelevante Nachrichten dabei Performance des DB Controllers wurde verbessert Nachrichten lassen sich bl ttern to do Suchen wo die 0 0 Werte herkommen Pr fen wieso GATE irrelevante Nachrichten ausgibt Bertrams Testvektor der die Aktienkurse verfolgt in Kundenbewertung einbinden Jana 216 KAPITEL 13 ANHANG e SOMS Martin Implementierung begonnen to do fertig stellen e neuronale Netze Bertram Implementierung begonnen to do fertig stel len Sonstiges Zeitplan Bis Donnerstag to dos weitermachen und an Dokus schreiben Ahmet meldet sich f r Mitte M rz ab TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 217 12 01 2006 Abwesend niemand Versp tet Ahmet 5 min Christoph 15 min Sitzungsleitung Rene Goebels Protokollf hrung Christian Friem Tagesordnung 1 Begr ung 2 Formalia Bericht neuronale Netze SOMs Berichte der anderen Kleingruppen Zeitplan Sonstiges N a A Q TOPs n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen
13. Daher wird es wohl schwer werden eine eigene Semantikanalyse zu erstellen e Testen Einige Fehler sind aufgefallen und korrigiert Weitere Fehler sind noch in der TODO Liste im CVS und sollen von allen Mitgliedern der PG behoben werden e Das zuordnen von ISIN zu den Nachrichten funktioniert nun auch Zeitplan Bis Dienstag arbeiten die Kleingruppen an ihre Projekten weiter und pr sentieren dann ihre Ergebnisse Jede Gruppe dokumentiert ihre Ergebnisse und stellt diese ins egroupware Sonstiges e Es wurde beschlossen dass die Sitzung am Donnertag den 24 11 05 ausf llt e In der n chsten Sitzung am Dienstag den 29 11 05 werden wieder 10 Euro von jedem f r den PG Schrank eingesammelt TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 203 Sitzungsprotokoll vom 29 11 2005 Abwesend Christoph Niels entschuldigt Versp tet niemand Sitzungsleitung Markus Protokollf hrung Stefan R Tagesordnung 1 Begr ung 2 Formalia 3 Ergebnisse der Kleingruppen 4 Zeitplan 5 Sonstiges 6 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Ergebnisse der Kleingruppen Gruppe Lernen Bericht von Jana Die Benutzerbewertungen der Nachrichten sollen bei der Berechnung eines Ran king mit einbezogen werden Dabei sollen zeitnahe Tendenzen und Relevanzen st
14. DeepLink extrahiert siehe Abbildung 8 2 F r jede Nachricht eines Feeds wird dann die URL der Webseite auf die die Nachricht referenziert heruntergeladen und in einen DOM Baum berf hrt Die berf hrung in einen DOM Baum setzt dabei Wohlgeformtheit der HTML Seite voraus Dies ist u U nicht gegeben deshalb wird mittels der OpenSource Bibliothek JTidy http jtidy sourceforge net der HTML Code der runtergeladenen Webseite zuvor in wohlgeformtes HTML berf hrt Im dritten Schritt werden alle unwichtigen Elemente Tags aus dem DOM 8 2 FINANZNACHRICHTEN DURCH RSS WRAPPER 113 Webseite bereinigen Se Alle lt unwichtigenTags gt entfernen Bereinigen bis auf Den Baum durchlaufen und alle brigen Tags Zweige l schen end lt table gt lt td gt lt tr gt lt p gt lt b gt lt center gt lt u gt lt div gt lt form gt lt body gt lt html gt lt a gt Abbildung 8 3 RSS DOM bereinigen Kennzeichen festlegen PostOrder Durchnummerierung um Absta nde von Titel und Nachricht zu ermitteln W F r jeden Zweig die Anzahl der Wort bereinstimmungen mit Titel und Beschreibung ermitteln eil F r jeden Zweig die Anzahl der S tze ermitteln A F r jeden Zweig die Anzahl der W rter ermitteln F r jeden Zweig die Anzahl der fetten und zentrierten W rter ermitteln Abbildung 8 4 RSS Element Merkmale berechnen Baum entfernt damit nur noch Elemente
15. Der Wert f r die gew nschte Sicherheit zwischen 0 und 100 errechnet sich aus den Angaben im Fragebogen siehe Abbildung 4 2 und wird mit der eigenen Risikoeinsch tzung des Kunden abgeglichen Verf gbarkeit Der Wert f r die gew nschte Verf gbarkeit zwischen 0 und 100 wird dem Fragebogen entnommen Anlagehorizont Rendite Der Wert f r die Rendite zwischen 0 und 100 ergibt sich durch das magische Dreieck automatisch aus denen f r Sicherheit und Verf gbarkeit 26 KAPITEL 3 KLASSIFIZIERUNG DES KUNDEN Fragebogen zur Kundenklassifizierung sowie Verteilung von Sicherheitspunkten Sicherheitspunkte Summe aller Punkte hier 1 2 Awede ss mm OCCO OOOO OGG GG GGG Tommes En ss E Mail Wiedernotae OGOL G GUA Alter aktuelles Jahr Geburtsjahr lt 30 oder gt 90 0 Alter zwischen 30 60 Alter 30 Alter zwischen 60 90 10 Alter 30 6 dee Geburtsjahr s Haushalts Nettojahreseinkommen abz glich Miete Versicherungen in 723 Wurzel Einkommen Einkommen 6000 14 43 vgl Graph unten EEE EEE GENEE d pro zus tzl Erwachsenem Kind werden vom Einkommen oben 4000 3000 abgezogen EE Notfallreserven f r i a U o 3 6 Monate Menge Ch SEET Anlagesumme lt 2500 andere Empfehlung Anlagesumme gt gt 100000 0 sonst 50000 Anlagesumme DILL SIII III III III III III Anlagesumme maximaler Verlust lt 2 0 sonst Anlagesumme
16. Einsatz kommen wird 5 5 Methoden im Detail 5 5 1 Clustering Vorstellung der Methode Der k means clustering Algorithmus geh rt zu den un berwachten Lernalgorith men Er ist einer der weit verbreitetsten Clusteringalgorithmen da er einfach zu implementieren ist daf r aber im Allgemeinen recht gute Ergebnisse liefert Sein Ziel ist es die Daten in k Bedeutungen zu unterteilen Es wird angenommen dass die Attribute der Objekte einen Vektorraum formen F r uns hei t das dass wir zun chst Dokumentenvektoren erstellen m ssen Ziel ist es nun die Intra Cluster Varianz zu minimieren oder die Funktion k EES EE i 0 jES wobei es k Cluster S i 1 2 k gibt und u ein Zentroid oder Mittel punkt der Punkte x 5 ist Der Algorithmus selbst l sst sich schnell beschreiben e Initialisierung W hle die k Clusterzentren selbst zuf llig oder heuristisch 46 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN e Zuordnung Ordne jedem Objekt den n chstgelegenen Zentoiden zu unter Angabe einer Distanzfunktion e Zentroidberechnung Berechne f r alle Cluster den neuen korrigierten Zentroiden e Wiederholung Wiederhole die ersten drei Punkte bis sich die Zuordnung nicht mehr ndert Der Algorithmus konvergiert jedoch ist die maximale Anzahl der Iteratio nen unbekannt Eine alternative Abbruchbedingung k nnte sein dass wir die maximale Anzahl der Iterationen festlegen Anwendung dieser Met
17. SPEICHERUNG DER DATEN IM SYSTEM Kapitel 10 Tests Im Folgenden sind die wichtigsten Funktionstests aufgef hrt Zu testende Funktion Neuen Benutzer anlegen registrie ren einloggen Fragebogendetails einse hen abmelden Eingabe Herr Anton Tester Hauptstrasse 1 12345 Burgstadt anton tester de 1960 Sollausgabe Der neue User Anton Tester ist angelegt man kann sich einloggen man kann die Fragebogendetails ein sehen man kann sich ausloggen Istausgabe Der neue User Anton Tester ist angelegt Kunden nummer 36 einloggen mit Usernummer und Pass wort funktioniert die korrekten Fragebogendetails werden angezeigt mit dem Abmelden Button ge langt man wieder zu Startseite Zu testende Funktion Mit falschem Passwort anmelden Eingabe Kundennummer 36 Passwort Test Sollausgabe Man kann sich nicht einloggen Istausgabe Man kann sich nicht einloggen es wird eine Fehler meldung angezeigt dass das Passwort inkorrekt ist 127 128 KAPITEL 10 TESTS Zu testende Funktion Fragebogendetails ndern Eingabe Jahreseinkommen auf 120000 ndern Anderung bernehmen Sollausgabe Jahreseinkommen ist auf 120000 ge ndert Istausgabe Jahreseinkommen ist auf 120000 ge ndert Zu testende Funktion Mein Portfolio ndern Aktie hinzuf gen Eingabe BASF Aktie und Telekom Aktie Sollausgabe BASF Aktie und Telekom Aktie werden in Mein Portfolio
18. angenommen Zwischenergebnisse der Kleingruppen e Kleingruppe Website fast fertig aktuelle Version in egroupware noch zu ndern Schieberegeler Risikofreudigkeit fehlt e Wdh Email unn tig e Passwort als neue Textbox aufnehmen e bei mem Portfolio sollen die News mit in der Tabelle zur Aktie verlinkt sein e in der Men leiste links muss mein Portfolio erg nzt werden e die Syntax zu unsere Bewertung soll bei und bleiben Zahlenwerte des Programms werden normalisiert und in diese Symbole umgewandelt 194 KAPITEL 13 ANHANG die Seiten Empfehlungen und News sind noch nicht fertig das Impressum muss noch erg nzt werden Kleingruppe DatenbankController Datenbankschema ist noch nicht ganz fertig daher auch der DBController noch nicht setzen sich mit Bertram und Christoph zusammen einige DB Verbindungen und Methoden laufen es fehlen noch Ein und Ausgabedaten an manchen Stellen ist unklar was dem System zu welchem Zeitpunkt bekannt ist Kleingruppe Fundamentaldaten Wrapper holt Daten von Onvista und schreibt sie in DB Branchendurchschnitte werden per Hand errechnet und eingef gt Kleingruppe Bewertung Portfolio ist rausgefallen Berechnung der Fragebogendaten ist implementiert die News Tendenz ist in die Bewertung einbezogen es fehlt noch die Methode f r das Herausziehen der Gesamttendenz aus DB das Format der News ist noch nicht bekannt Kleingruppe Datenbank das Verkn pfen d
19. dukten Der von uns berechnete Performer f r eine Aktie wird auf der Basis von Bran chendurchschnittswerten und Standardabweichungen Kennzahlwerte der Ak tie und Nachrichtenbewertungen ermittelt Die Branchendurchschnittswerte f r jede Kennzahl sind manuell f r jede im DAX30 vorkommende Branche bestimmt worden und in der Datenbank gespei chert Die Werte f r jede Kennzahl einer Aktie im DAX30 wurden per HTML Wrapper in die DB geschrieben In einem zweistufigen Verfahren wird auf der 4 3 BESTIMMUNG DES PERFORMERS VON FINANZPRODUKTEN 33 A Y Abbildung 4 1 Fuzzymengen f r eine Kennzahl Rot x blau fi x und gr n Tiet ersten Stufe zun chst ein Basisperformer errechnet Diesem liegen nur die Fun damentalkennzahlen zugrunde Da diese Kennzahlen nur j hrlich aktualisiert werden ist eine feink rnige Prognose erstmal nicht m glich Daher wird auf der zweiten Stufe des Verfahrens dieser Basisperformer mit den aktuellen Nachrich tenbewertungen kombiniert Somit wird z B ein Unternehmen das fundamental gesehen outperformt und innerhalb des Jahres schlechte Schlagzeilen macht eine Klassifizierung marketperformer oder sogar nur underperformer erhalten Erste Stufe Zun chst wird f r jede Kennzahl der betrachteten Aktie fest gestellt ob sie ber unter oder nah an dem Durchschnittswert liegt Daf r erstellen wir Fuzzymengen 0 falls z lt X 2 X falls Xi lt z lt Y f
20. e Dokumentation wird bis Donnerstag fertig gestellt Gruppe SOM Berichtet von Bertram e FF Netze m ssen mit relevanten Daten getestet werden e erweiterte SOMs semantische topic maps m ssen im n chsten Jahr von allen bearbeitet werden Stand der Klassifikation e SVM Art2a Konzeptlernen gescheitert e FF Netze E B ume noch zu testen e erweitertes SOMs noch zu implementieren Allgemeine noch zu erledigende Aufgaben e W rterbuch erstellen e Multilayer FF Netze testen 212 KAPITEL 13 ANHANG e Entscheidungsb ume testen e Struktur der Gesamtdokumentation wird von Christian und Rene bis mor gen rumgeschickt so dass sich die anderen Kleingruppen Gedanken zu den noch fehlenden Inhalten machen k nnen e Dokumentation der Kleingruppen zur Klassifikation e Spamfilter muss noch eingebaut werden Sonstiges Nix TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 213 Sitzungsprotokoll vom 15 12 2005 Abwesend Jana entschuldigt Versp tet niemand Sitzungsleitung Madan Protokollf hrung Bertram Tagesordnung 1 Begr ung 2 Formalia 3 Ergebnisse der Kleingruppen 4 Zeitplan 5 Sonstiges 6 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Ergebnisse der Kleingruppen e Mehmet ber SVMs die Dokumentation ist fertig und wird ins
21. hat sich mit den Support Vektor Maschinen besch ftigt Die Gruppe Lernen hat sich berlegt dass das System verfolgen k nnte f r welche Branchen sich der Kunde mehr interessiert um die Vorschl ge dement sprechend anzupassen Stefan Berlik macht den Vorschlag dass man nun auch nach L sungen su chen sollte die die Semantik von Texten bearbeiten um wenigstens einfache S tze interpretieren zu k nnen Rene und Ahmet werden sich mit der semantischen Analyse von Texten besch ftigen TOPS n chste Sitzung siehe n chste Sitzung 198 KAPITEL 13 ANHANG Sitzungsprotokoll vom 17 11 2005 Abwesend Ahmet Jana entschuldigt Versp tet niemand Sitzungsleitung Niels Protokollf hrung Martin Tagesordnung 1 Begr ung 2 Formalia Berichte der Kleingruppen VG Co Berichte ber die Tests or Sonstiges 6 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll vom 15 11 2005 wurde noch nicht best tigt Berichte der Kleingruppen Kleingruppe Konzeptlernen Nils stellt vor warum das mit dem Konzeptlernen nicht funktioniert Gr nde daf r sind e Konzepte m ssen bekannt sein e F r jedes Konzept m ssen geeignete Attribute in jedem Text vohanden sein e F r jedes Konzept m ssen positive und negative Beispiele vorhanden sein Kleingruppe ART Madan stellt ART Netze vor und begr ndet warum ART2a N
22. rker in die Berechnung einflie en als ltere Bewertungen Des weiteren wird eine benutzerabh ngige Gewichtung der Bewertungen verwendet Dazu ist ein Bonussystem entwickelt worden welches bei zutreffenden Bewertungen eines Be nutzers den neueren Bewertungen dieses Benutzers ein gr sseres Gewicht bei der Berechnung des Ranking zuweist Die Bewertungen inkompetenter Benutzer werden aufgrund der falschen Bewertungen abgeschw cht Gruppe Entscheidungsb ume Bericht von Rene und Ahmet Es wurde eine allgemeine Einf hrung gegeben Definition Algorithmen zur Er stellung von Entscheidungsb umen Repr sentation der Dokumente Im Verlauf 204 KAPITEL 13 ANHANG des Preprocessing wurden die vorhandenen Texte intelektuell ausgewertet um wichtige Attribute zu extrahieren Feature Selection Die Klassifikation erfolgt mit Hilfe von Vergleichsdokumenten vektoren Die Problematik besteht darin eine geeignete Attributkombination zu finden Die ersten Testl ufe lieferten trotz der heuristischen Vorgehensweise berraschend gute Ergebnisse Die erzeugten B ume sind zu statisch Ein neuer Ansatz besteht darin auf der Basis von Kombinationen von W rtern aus einem Finanzw rterbuch ei ne Menge von Klassifikationsfunktionen zu erzeugen und diese zu evaluieren Zu diesem Zweck sind bereits korrekt klassifizierte Nachrichten notwendig solch ei ne Trainingsmenge ist auch f r andere Kleingruppen eine Voraussetzung F r die Erzeug
23. wird 58 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN nicht zwischen Insolvenz und kene Insolvenz unterschieden weil wir Stopp W rter nicht in unserem W rterbuch haben Keine kann ja auch ganz woan ders im Text stehen und inhaltlich nichts mit Insolvenz zu tun haben Dieser Zusammenhang ist nicht erkennbar da nur bin r nach Vorkommen oder Nicht vorkommen im Text gesucht wird In den zwei folgenden Abbildungen sind die Testergebnisse aufgef hrt Vom System bewertet von uns bewertet Abweichung Nachricht Nr 0 wird vom System folgendermassen bewertet TE Nachricht Nr _1 wird vom System folgendermassen bewertet ba Nachricht Nr _2 wird vom System folgendermassen bewertet Ju Nachricht Nr _3 wird vom System folgendermassen bewertet bau Nachricht Nr _4 wird vom System folgendermassen bewertet Jee Nachricht Nr _5 wird vom System folgendermassen bewertet bau Nachricht Nr _6 wird vom System folgendermassen bewertet ba Nachricht Nr _7 wird vom System folgendermassen bewertet Ju Nachricht Nr _8 wird vom System folgendermassen bewertet Nachricht Nr _9 wird vom System folgendermassen bewertet Nachricht Nr 10 wird vom System folgendermassen bewertet ooo ko Nachricht Nr 11 wird vom System folgendermassen bewertet Nachricht Nr 12 wird vom System folgendermassen bewertet JET Nachricht Nr 13 wird vom Syste
24. 1 Begr ung 2 Formalia 3 diverse HW SW Szenarien a Entwicklungsumgebung b CVS c Tools Funktion Einordnung Methoden d Web Auftritt 4 Konzeptskizze FIPs 5 Sonstiges 6 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Die Rechnung von Nordhellen ist noch nicht bei Stefan angekom men daher wird Abrechnung verschoben ICQ Nummern bitte noch an Stefan mailen diverse HW SW Szenarien Diskussion dar ber ob nur englische oder nur deutsche Texte in das System eingespeist werden sollen noch keine Einigung KL 5 Entwicklungsumgebung Einigung auf Eclipse jeder arbeitet sich selbst ein D CVS Diskussion ob CVS oder eine andere Sourcecodeverwaltung Chri stoph arbeitet sich ein und stellt die Optionen vor 5 Tools Datenbank Einigung auf MySQL Martin macht Einf hrung Text mining Bertram sucht noch nach Alternativen zu GATE w hlt dann aus und stellt vor Tracking Datenverwaltungs Projektmanagementsystem Madan arbeitet sich ein und stellt die Optionen vor Design Einigung auf togetherJ Konzeptentwurf Einigung auf UML 150 KAPITEL 13 ANHANG 5 Web Auftritt Webseite der PG auf der sie sich vorstellt und Zugriff auf Datenbank bereitstellt wird von Rene Christian und Markus verwaltet Sp ter ist au erdem Benutzeroberfl che f r Kunden des fertigen FIPs Systems zu erstelle
25. 107 8 4 2 Konzept ur 0 A ee a ee a AREER A 107 8 1 3 Austa ben a 2 ne a ar Ann ae 108 8 2 Finanznachrichten durch RSS Wrapper 2 2 2222 aaa 108 8241 Einleitung 2 ut 2 24283 Deren 108 8 2 2 Konzept 222 2a hr ee ee aan 111 8 2 3 Ausgabe an 2 a en a nahen 114 8 3 SPAM Eilter aa en menden 115 8 31 Konzept ne aaa DIA RN 115 EEN 116 8 4 W rterbuch 88 2 2222 117 SAL Konzepte A EN et ee d 117 84 2 Ausgabe E 117 Ee Ke E EECHER 117 INHALTSVERZEICHNIS 5 8 5 1 Bearbeitungspipeline der Nachrichten 118 8 5 2 Berechnung der Bewertung einer Nachricht 118 8 5 3 Erstellen eines einfachen W rterbuchs 119 9 Speicherung der Daten im System 121 9 1 DB Schema seiu 22 ara We a a aa io 121 9 2 Datenbank Klassen 123 9 2 1 Das Paket common 2 22 2 nenn 124 9 2 2 Das Paket dbeontroller 2 222m 124 E e EE Lean 125 10 Tests 127 11 Arbeiten mit dem System 131 11 1 Das Finanz Informations Portal 2 2 2 2 nn 131 11 2 M glichkeiten f r den Benutzer und Typische Abl ufe 132 12 Endworte 145 12 41 Fazit e Basar ee A A AR en 145 122 Ausblick SEN N a a a a akuter a u 145 13 Anhang 147 13 1 Sitzungsprotokolle 2 2 Con n nn 147 13 1 1 Protokolle 1 Semester 147 13 1 2 Protokolle 2 Semester 22 2 2 2 m mn nn 188 INHALTSVERZEICHNIS Abbildungsverzeichnis 1 1 Admin Anwendungsfalldiagramm 12 1 2 KlIAnwendungsfalldiagramm
26. 2 Die Angabe der Lernrate ist parametrisiert und enth lt eine Liste von Ba sistupeln Anzahl Schritte Einflu Lernrate Aus diesen Punkten wird mittels Newton Basis eine Polynominterpolation vorgenommen so dass eine fast mo noton fallende Lernrate erzeugt wird Das Polynom f r folgende Kennzahlen ist in Abbildung 5 12 dargestellt 72 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN Lernrate D N D N S Q E Q D m 7 o D CH T T T T 0 50 100 150 200 250 300 Zeit Abbildung 5 12 Self organizing map Lernrate Anzahl Schritte Einflu p 0 1 0 0 7 1 0 7 100 0 5 200 0 4 250 0 2 300 0 1 Anwendbarkeit Fazit Ein Vergleich zwischen den Abbildungen 5 13 und 5 14 zeigt wie und wo die Nachricht mit der Nummer 9 nach 21 Trainingsschritten und nach 84 Trainings schritten klassifiziert wird Dabei ist zu erkennen wie die Nachbarschaftsneuro nen gleichm ig immer un hnlicher zum Gewinnerneuron werden der Abstand wird gr er Das bedeutet das eine Gruppierung stattfindet Es konnten aber aus folgenden Gr nden keine eindeutigen und aussage kr ftigen Gruppen gefunden werden Aussagekr ftig und eindeutig bedeuten 5 5 METHODEN IM DETAIL Abbildung 5 13 Self organizing map nach 21 Trainingsschritten Farb Reset Training 21 0 FRANKFURT Dow Jones Sehr fest tendiert der 1 ch einem uneinheitlichen Handelsverlauf an d 3
27. 2 Der im EuroSTOXX 50 notierte 1891 geg nde 73 74 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN Eingabe 9 Los Farb Reset Training 84 0 FRANKFURT Dow Jones Sehr fest tendiert der 1 Nach einem uneinheitlichen Handelsverlauf an d 2 Der im EuroSTOXX 50 notierte 1891 gegr y ndel 3 Der Infineon Konzern will nach dem geplanten B 4 Nach dem tiefen Sturz in die Verlustzone hofft E 5 Bundesgesundheitsministe rin Ulla Schmidt will 6 MONTAG 21 November 07 30 DE Mivacon 7 Bundesgesundheitsministe rin Ulla Schmidt will 8 Die Sektkorken in Wiesbaden knallen schon Da 9 Shell bietet an einigen Stationen wieder Tank 10 00 50 JPHandelsbilanz Oktober 06 00 JP Bo 11 Die Globalisierung hat die Private Equity Brancl 12 Der Deutsche Aktienindex Dax hat bis zum Nac 13 FRANKFURT Dow Jones Weiterhin mit fester 14 Nach einem freundlichen Start in die Woche ve 15 Der fr here Infineon Chef Ulrich Schumacher 16 amp quot Aktion tre sind dumm und frech Dumi 17 Die Zahl der Unternehmenszusammenbr ch 18 Es war nur eine kleine Meldung Der Elektrokorl 19 Die im Irak t ttigen deutschen Firmen werden 20 Nach einem freundlichen Start bauen die deuts 21 Der Frankfurter Aktienmarkt hat sich am Donne 22 FRANKFURT Dow Jones Weiterhin etwas Test 23 Nach einem freundlichen Start zogen die deuts 24 Nach einem verhaltenen Wochenauftakt verhai 25 Marktanalyse DAX Infineon
28. Aktie ist werden nat rlich alle von den Benutzern gemachten Einsch tzungen ber cksichtigt Da zu werden diejenigen Nachrichten genommen f r die es mindestens f nf Benut zereinsch tzungen f r ein Unternehmen gibt Nachrichten mit weniger als f nf Bewertungen werden aufgrund des mangelnden Interesses der Benutzer nicht mit in die Bewertung f r das Unternehmen aufgenommen Die Gesamttendenz er gibt sich nun folgenderma en Sollte ein Benutzer einen negativen Kundenstatus haben so haben sich seine Vorhersagen in der Vergangenheit als nicht zutref fend erwiesen und seine Bewertung flie t daher nicht mit in die Gesamttendenz ein Ansonsten wird das Produkt aus der vom Kunden angegebenen Tendenz der von ihm angegebenen Relevanz und seinem Kundenstatus gebildet Dieses wird durch die Summe aller Kundenstatus die die Nachricht bewertet haben und deren Kundenstatus positiv ist geteilt und dann mit der Anzahl multi pliziert Dadurch erh lt man die nach dem Kundenstatus und den gegebenen Relevanzen gewichtete Gesamttendenz dieser Nachricht f r das Unternehmen Das System bildet nun noch das nach den Relevanzen gewichtete Mittel al ler Gesamttendenzen der f r dieses Unternehmen dem Benutzer abgegebenen Nachrichten und erh lt dadurch die Easy IR Einsch tzung des Unternehmens aufgrund der von den Benutzern bewerteten Nachrichten 7 2 4 Anpassung des Marketperformers einer Aktie Damit das Programm zu einer endg ltigen Einsch tzung des
29. Die W rter werden einzeln also zusammenhangslos betrachtet Dadurch k nnen aus Nachrichten die von verschiedenen Unterneh mungen handeln unm glich Tendenzen f r ein einzelnes Unternehmen bestimmt werden Au erdem macht ein kleines W rtchen wie nicht doch schon einen deutlichen Bedeutungsunterschied aus Es kommt allerdings darauf an WO es im Satz steht Dies verh lt sich nat rlich nicht nur f r Adverbien so sondern auch f r Adjektive und Verben Kurz gesagt kommen wir hiermit zu keinen feinen Unterscheidungen der Se mantik der Texte Ein positives Ergebnis ist allerdings auch zu vermelden Die Klassifikation von Dokumenten aus gleichen oder hnlichen Branchen funktioniert mit dieser Me thode Es kommt nur darauf an den Dokumentenvektor einigerma en geschickt zu konstruieren 5 5 4 Entscheidungsb ume Entscheidungsb ume werden bei berwachter Klassifikation eingesetzt Dabei sollen Objekte die durch Attribut Werte Paare beschrieben sind in bestimm te vorher festgelegte Klassen einsortiert werde Ein Teil der Objektmenge wird zur Trainingsmenge aus denen der Entschei dungsbaum aufgebaut wird Die brigen Objekte werden dann mit Hilfe des 5 5 METHODEN IM DETAIL 57 Entscheidungsbaumes in die jeweiligen Klassen eingeteilt Meist werden bin re Entscheidungsb ume eingesetzt wobei bei jedem Attribut entschieden wird ob es f r das Objekt zutrifft oder nicht Entscheidungsb ume sind aufgebaut aus Knote
30. Egroupware gestellt e Ahmet ber Entscheidungsb ume Wollte testen es fehlten Testdaten Mehmet hat welche diese werden von ihm ins egroupware gestellt Bertram gibt den Hinweis dass in der DB test daten unter nachricht klassifizierte Testnachrichten abh ngig vom Kurs verlauf vorhanden sind Niels ber TODO Liste viele Fehler sind Behoben neue wurden erkannt und behoben es bleibt ein kleiner Schnitzer in der Bewertungsfunktion von Aktien und ein gro er Schnitzer beim Setzen vom Kundenstatus Bearbeitung l uft e Zus tzliche Punkt auf der TODO Liste 214 KAPITEL 13 ANHANG 1 Nur Nachrichten zu bewerteten Aktien werden angezeigt gt Methode im DBcontrol ndern auch systembewertete Nachrichten anzeigen 2 Junk Filter in Wrapper einbauen ansto en von testdatencreator doppelte leere Nachrichten killen Einzeiler l schen W rterbuch mit Synonymen evtl Topic Map Statements weiter in eigene Datei kopieren Vereinfachung beim Einf gen von Aktien O On A W Quellen f r Wrapper pr fen e Bertram ber SOMs und MLFFNN Das Neuronale Netz kann nun getestet werden Eingabe W rterbuchdatei Datei mit klassifizierten und vorverarbeiteten Nachrichten genaueres cvs Projekt NeuronalesNetz Ist aber noch nicht geschehen da noch kein sinn volles W rterbuch vorhanden Struktur des Endberichtes es wurde sich auf eine vorl ufige Struktur des Endberichtes geeinigt Sie steht im Latex Format unter Endber
31. Je h her die Kennzahl ist desto h her ist die Unterneh mensrentabilit t EBIT Die EBIT Marge ist eine operative Unternehmenskennzahl Sie berech net sich aus der Relation des EBIT zum Umsatz Sie ist als relative Kennzahl pr destiniert um die EBIT Ertragskraft verschiedener Gesellschaften miteinan der zu vergleichen EBIT Earnings before interest and taxes wird aus dem Jahres berschu vor Steuern Zinsergebnis und vor au erordentlichem Ergebnis berechnet Durch die Eliminierung dieser genannten Faktoren erh lt man eine vergleichbarere Aus sage ber die eigentliche operative Ertragskraft einer Unternehmung und zwar 32KAPITEL 4 KLASSIFIZIERUNG VON FINANZPRODUKTEN TECHN ANALYSE unabh ngig von der individuellen Kapitalstruktur Bei Verwendung des Jah res berschu es bzw der Netto Umsatzrendite schneiden n mlich Unternehmen mit einer h heren Eigenkapitalquote aufgrund geringerer Fremdkapitalkosten tendenziell besser ab EBITDA Die EBITDA Marge in ist eine operative Unternehmenskenn zahl Sie berechnet sich aus der Relation des EBITDA zum Umsatz Sie ist als relative Kennzahl pr destiniert um die EBITDA Ertragskraft verschiedener Gesellschaften miteinander zu vergleichen EBITDA earnings before interests taxes depreciation and amortization setzt sich aus dem Jahres berschuss vor Steuern dem Zinsergebnis und den Abschreibungen des Unternehmens zusammen Das EBITDA ist eine interna tional weitverbreitete und ei
32. Klassifizierung 100 Millionen Euro einsehen Abmelden Nachricht bewerten Externe Links Finanztreff ISIN der Aktie f r welche die News bewertet wird Ge OnVista r Ss Finanznachrichten Beurteilung der Relevanz dieser Nachricht f r die Aktie 0 100 100 h chst relevant f r Unternehmen 0 gar nicht relevant f r Unternehmen TA Te Beurteilung der Tendenz dieser Nachricht f r die Aktie 0 100 100 h chst positiv f r Unternehmen 0 h chst negativ f r Unternehmen Speichern Abbildung 11 10 Nachricht im Detail 142 KAPITEL 11 ARBEITEN MIT DEM SYSTEM Der Link News bewerten f hrt zu einer bersicht der aktuellsten Nachrich ten die man ebenfalls bewerten kann und zus tzlich kann man die Nachricht einem bestimmten Unternehmen zuordnen Auch hier sieht man eine bisherige durchschnittliche Userbewertung Die Detailansicht entspricht der Abbildung Nachricht im Detail mit dem kleinen Unterschied dass die M glichkeit zur Zuordnung zum Unternehmen m glich ist verf gbare NEWS Hallo Herr Mustermensch vom 2005 12 10 11 42 14 063 bis 2006 01 24 11 42 14 063 Mein Porfolio N News bewerten D s Datum Titel Bewertung Einstellungen 26801 23 12 2005 Erstes PC Virus feiert 20 Geburtstag bewerten Pers nliche Daten 00 00 00 ndern 26802 20 42 2005 CeBIT 2006 Sage zeigt neue CRM Komplettl sung bewerten Fragebogendetails eer Ge 26803 Fre Hightech Thermometer soll Br nde in Tunnel entdecken be
33. Kunden Gruppe hat mit dem UML Tool Umbrello schonmal die e Kundenschnittstelle definiert e Stefan B meinte dass man sich schon bald mal Gedanken machen k nnte was unser Programm den leisten soll also quasi ein Pflichtenheft erstellen TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 167 Sitzungsprotokoll vom 19 05 2005 Abwesend Christian entschuldigt Versp tet Ahmet 20 Min Sitzungsleitung Martin Protokollf hrung Stefan R Tagesordnung 1 Begr ung 2 Formalia 3 Endberichte 4 Vortrag von Wolfgang Hunscher 5 Sonstiges 6 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Endberichte Die Gruppe Beschaffung lieferte einen Bericht zur Bewertung der Finanzpro dukte ab Inhalt e Anwendungsfalldiagramm mit KI Robot als Aktoren e Klassendiagramm der einzelnen Finanzprodukte e Aktivit tsdiagramm eines Wrappers f r RSS Es ist eine Zusammenfassung zur Bewertung von Finanzprodukten im Ordner home pg473 pg473 Beschaffung abgelegt Bertram erw hnt die Problematik mit der Datenkonsistenzhaltung 168 KAPITEL 13 ANHANG Vortrag von Wolfgang Hunscher Leider ist Wolfgang nicht vorbereitet Daher wird der Vortrag auf die n chste Sitzung verschoben Sonstiges Ein Prototyp f r den Webauftritt der Anwendung ist erstellt
34. Marktperformanz nachdem diese Nachricht erschien herstellen Bekannt ist dass ein Multilayer Feedforward Netz jede unbekannte Funktion beliebig genau approximieren kann wenn es ausreichend Neuronen gibt Wei ter reichen daf r zwei Schichten plus eine Eingabeschicht aus da Netze mit zus tzlichen versteckten Schichten auf diesen Grundtyp mit einer Eingabe einer versteckten und einer Ausgabeschicht zur ckgef hrt werden k nnen Die Idee ist also ein derartiges Netz f r die Klassifikation der Finanznachrichten zu verwenden Um die Marktperformanz zu bekommen reicht der Aktienkursverlauf alleine nicht aus der Zusammenhang zum Gesamtmarkt muss hergestellt werden Man betrachtet also das Verh ltnis von Aktienkurs zum Gesamtmarkt oder zu ei nem aussagestarken Marktindex wie dem DAX Die Auswirkung einer Nach richt und damit die zu approximierende Funktion entspricht jetzt der Ableitung dieses Verh ltnisses zum Erscheinungszeitpunkt der Nachricht und wird im fol genden auch mit Performanz im Vergleich zum Gesamtmarkt bezeichnet Die folgenden Abbildungen stellen den Zusammenhang am Beispiel der Aktie von Infineon im Vergleich zum DAX in der Zeit von Februar bis November 2005 dar DAX 5200 510 500 490 480 460 450 440 430 am N Infineon 5 5 METHODEN IM DETAIL 77 Performanz Infineon im Verh ltnis zum DAX in pro Ta
35. Nachbar schaftsbeziehung zwischen den Knoten definiert ist angeordnet sind besteht Jeder dieser Knoten besitzt einen zuf llig initialisierten Gewichtsvektor sp ter eine Gewichtsmatrix von der Dimensionalit t des Eingaberaums W hrend des Trainingsprozesses werden die Eingabevektoren sp ter Eingabematrizen in zuf lliger Reihenfolge dem Netzwerk pr sentiert F r jeden Knoten wird die Aktivierung entsprechend einer Aktivierungsfunktion Euklidische Distanz be rechnet und jener Knoten mit der h chsten Aktivierung d h geringste Eukli dische Distanz als Gewinner ausgew hlt Im n chsten Schritt werden nun die Gewichtsvektoren des Gewinners und seiner Nachbarknoten innerhalb der Netz topologie einer monoton fallenden Lernrate folgend dahingehend ver ndert da sie dem angelegten Eingabevektor hnlicher werden Dies f hrt letztendlich da zu da benachbarte Vektoren aus dem Eingaberaum auf benachbarte Knoten abgebildet werden d h es entsteht eine topologieerhaltende Abbildung 5 5 METHODEN IM DETAIL 67 Die Idee eine SOM zu verwenden um Nachrichten zu klassifizieren soll zu dem erhoffte Ziel f hren dass hnlich Nachrichten auch topologisch in der Gitter struktur nahe bei einander sind Das Problem besteht auch bei diesem Verfahren darin eine geeignete Repr sentation einer Nachricht zu finden insbesondere ei ne Repr sentation die die Syntax und die Semantik ber cksichtigt Es werden im folgenden nur Nachrichten repr
36. Nachricht Problem RSS Feeds geben Link an der verfolgt werden muss um zu den Nachrichten zu gelangen Problem mit Anpassung der Wrap per L sungsansatz HTML Seite in Baum umwandeln und anhand der Kurzbeschreibung der Nachricht Zweig im Baum identifizieren und dahingehend abgespeichern Weiterer Ansatz Fragen ob ein Anbieter uns Nachrichten zur Verf gung stellt dann m sste man keine gro e Analyse machen Gruppe Finanzprodukte Abspeicherung von Daten e XML Dokumente implementieren DTD s sind erweiterbar Vorteil Alte Da ten werden nicht ver ndert Wenn Struktur zu un bersichtlich wird k nnten Links zu anderen XML Dateien verwendet werden e Baum e Datenbank Postgre SQL Top4 e Bewertung von Finanzprodukten Fundamentaldatenanalyse Konjunktureinflussgr en Unternehmenskenngr en 164 KAPITEL 13 ANHANG x Quellen Indikatoren x Persistenz Technische Analyse wird nur gemacht wenn noch Zeit bleibt Extraktion aus News x Quellen x Textmining Persistenz Entscheidung Empfehlungen f r Kunden dessen Profil wir kennen Regelbasis Lernen Ausgabe vorhandene Methoden Anwendung der Methoden auf unser Problem e Kunden kategorisieren abgeschlossen e Benutzeroberfl che Webauftritt Kundenfragebogen Kundenverwaltung Ausgabe Administration Information Layout Persistenz Sicherheit
37. PEKR Out 0 43 Regel 29 Wenn EKR Mittel dann PEKR Market 0 3 Regel 20 Wenn EKR Niedrig dann PEKR Under 0 43 Abbildung 4 2 Regelmenge f r Zuweisung hoch mittel niedrig Tout mar ket under mit Gewichtungen f r die Sicherheitsklasse mittel 36KAPITEL 4 KLASSIFIZIERUNG VON FINANZPRODUKTEN TECHN ANALYSE Daher wird der Aktie der Performer Marketperformer zugewiesen falls die Differenz zwischen den Zugeh rigkeitswerten von Out und Underperformer klei ner als 0 2 ist Ansonsten wird die Klasse mit dem h chsten Zugeh rigkeitswert gew hlt Zweite Stufe Der in der ersten Stufe berechnete Basisperformer wird nun mit der Gesamttendenz der relevanten Nachrichten kombiniert und es ergibt sich der endg ltige Performer der f r die Bewertungs Rankingfunktion ben tigt wird Da die automatische Bewertung von Nachrichten durch das System nicht zufriedenstellend arbeitet siehe Kapitel 5 greifen wir auf die Nachrichtenbe wertungen der Nutzer zur ck Jede Nachricht die in der Datenbank gespeichert wurde kann ein Benutzer lesen und anschliessend hinsichtlich der Relevanz und Tendenz f r eine Aktie bewerten Sollte ein Benutzer eine Nachricht f r beson ders relevant f r eine Aktie erachten so kann er auf einer Skala von 0 bis 100 einen sehr hohen Wert ausw hlen Nicht relevante Nachrichten werden mit einer 0 bewertet Die Bewertung der Tendenz erfolgt ebenfalls auf einer Skala von 0 bis 100 Sollte eine Nachricht eine
38. Sitzung wird angenommen Berichtigung zum letzten Protokoll Jana und Madan machen die Struktur der Endpr sentation Bericht neuronale Netze SOMs Bei den ML FF Netzen war das Training laut Bertram erfolgreich die Testl ufe brachten jedoch keine guten Ergebnisse Auch bei den SOMs gab es keine ver wertbaren Ausgaben Martin und Bertram werden ihre Ergebnisse dokumentie ren Berichte der anderen Kleingruppen Endpr sentation Es sollen noch folgende Tops hinzugef gt werden Preproces sing und die Schwierigkeiten dabei ca 1 Folie f r jedes Klassifizierungsver fahren incl der Probleme am Ende sollte der Ausblick noch ge ndert werden Enddokumentation Jeder schreibt seine eigenen Protokolle in Tex Rene hat daf r die Vorlage gemacht To do Kapitel 1 Rene Mehmet Christian Kapi tel 2 Rene Mehmet Christian Kapitel 3 Rene Mehmet Christian Kapitel 218 KAPITEL 13 ANHANG 6 Bertram Christoph Kapitel 9 HTML Madan Stefan W rterbuch Jana RSS Martin Testdaten Bertram Kapitel 11 Rene Mehmet Christian Kapitel 12 Rene Mehmet Christian Kapitel 13 Rene Mehmet Christian Kapitel 14 Rene Mehmet Christian Zeitplan Bis zum 19 Januar sollten die einzelnen Teile des Endberichtes m glichst fertig gestellt sein am 24 Januar Dienstag soll dann alles durchgesprochen werden Sonstiges N chste Sitzung ist am 19 01 2006 TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 21
39. Teilgruppen im Egroupware Sonstiges Rene hat 5 Euro eingesammelt f r die Auff llung des Schrankes von allen Die Sitzung am 13 06 f llt aus da die Kleingruppen noch Zeit brauchen und sonst nur Begr ssung und Formalia auf der Tagesordnung st nden TOPS n chste Sitzung siehe n chste Sitzung 176 KAPITEL 13 ANHANG Sitzungsprotokoll vom 23 06 2005 Abwesend Bertram Versp tet Jana 10 Min Sitzungsleitung Christoph H binger Protokollf hrung Ahmet Kara Tagesordnung 1 Begr ung 2 Formalia 3 Berichte 4 Pflichtenheft 5 Sonstiges 6 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Berichte Die Gruppe Extraktion aus Finanznachrichten hat sich mit dem Clustern von Finanznachrichten besch ftigt und hat ihre Ergebnisse pr sentiert Dabei sind sieie folgenderma en vorgegangen e Die Finanznachrichten wurden in XML Dateien geschrieben Mit einem Clusteralgorithmus wurde versucht die Nachrichten zu klassifizieren e Mit den W rtern die in den Nachrichten vorkommen wurde ein W rterbuch erstellt e Aus der Liste wurden mit Gate Stoppw rter rausgefiltert e F r jede Nachricht wurde ein Dokumentenvektor mit zwei Spalten erstellt wobei die Zahl an der ersten Stelle die Stelle des entsprechenden Wortes im W rterbuchdarstellt und die die Zahl an der zweiten Stelle
40. als KBV oder MU Ebenso k nnen Ausrei erperformer Under und Outperformer in teressanter sein als Marketperformer wodurch letztere nicht so stark gewichtet werden k nnen Die Gewichtung einer Regel wird dann noch unterschieden nach der Sicherheit der Aktie mittel gering mittel gering sehr gering siehe auch Abb 4 2 Zur Normierung der unterschiedlichen Gewichtungen Normierungsfaktoren Ao Am An wird f r jede Performance da f r jede Performance ja auch Regeln vorhanden sind das mittlere Gewicht bestimmt In der Tabelle wird also f r den Outperformer das Mittel ber die Gewichte von Regel 3 Regel 6 Regel 7 Regel 12 Regel 15 Regel 18 Regel 19 Regel 22 Regel 25 und Regel 28 gebildet F r die Gesamtperformance wird die Zugeh rigkeit einer Aktie wie folgt bestimmt 1 Zugeh rigkeit q s Near 5 Pa Ge I iew mit s mittel gering mittel gering sehr gering q Outperformer Marketperformer Underperformer N Anzahl Regeln pi Zugeh rigkeit zu q bzgl Kennzahl i 94 Gewicht zu q bei Sicherheitsklasse s bzgl Kennzahl i W Menge der Regeln 4 3 1 Differenzierung des Performers Um einer Aktie nun einen konkreten Performer zuzuweisen werden die Zu geh rigkeitswerte betrachtet Mit Hilfe einiger Testdaten fanden wir heraus dass bei einigen Aktien die Zugeh rigkeitswerte von Under und Outperformer sehr nah zusammenliegen Eine eindeutige Zuweisung nach U
41. anderen Systemkomponenten dienen 9 2 1 Das Paket common Die Klassen im Paket common dienen im Wesentlichen dazu die Informationen die von der Datenbank abgefragt werden in kompakter Form in Objekte ge kapselt zu den h her liegenden Komponenten des Systems zu schicken Ausser bei den Klassen Ranking und Rankingeintrag entsprechen die Klassen weitesge hend den Tabellen im Datenbankschema Ein Objekt der Klasse Rankingeintrag stellt eine Aktie innerhalb einer Empfehlung f r einen Kunden dar Die Klas se Ranking verwaltet eine verkettete Liste die alle Aktein einer Empfehlung beinhaltet Da es f r den Datenaustausch zwischen den Komponenten nicht er forderlich ist und es die Handhabung der Objekte komplizierter machen w rde wurden Assoziationen zwischen den Klassen weitesgehend vermieden Passwort Strmg Geburtsjahr int GateNewsld Strmg bom sGegebenboolean Sicherhet fbat gateCorpusId Sring kundenm int Verfussbarket fbat Rendite fbat E ISIN Strmg rankmg Wert double GateCopusld String i T i lage Miete z GateNewsld Strmg E InsetRankmesorted Ra nikingEinhagj boolean Abbildung 9 3 Klassen im Paket common 9 2 2 Das Paket dbcontroller Im Paket dbcontroller befinden sich die beiden wichtigen Klassen DBcontrol und Statements In der Klasse DBcontrol wird der Aufbau der Verbindung zur Da tenbank und der Zugriff auf die Daten realisiert Im Konstruktor dieser Klasse wird eine XML Datei geladen die aus allen notwendigen Info
42. angegeben werden so dass eine Logik nicht mehr implementiert werden muss Die Performerklasse eines Finanzproduktes wird nach den Ergebnissen in Kapitel 5 in drei Klassen eingeteilt die sich zu folgenden bestimmen e underperformer e marketperformer e outperformer In Kapitel 4 wurde bereits auch ein Schema bzw ein Algorithmus entwor fen um den Marketperformer eines Finanzproduktes speziell bei uns f r eine Aktie bestimmen zu k nnen Dieser Algorithmus gibt f r jede der drei Klassen eine Art Zugeh rigkeit zu diesen Klassen an wobei es jedoch durch die Berechnung sein kann dass die Zu geh rigkeit f r alle diese Klassen ann hernd gleich wird In so einem Fall wenn man kein eindeutiges Maximum feststellen kann und somit die Klasse eindeu tig zuordnen kann soll der Marketperformer einer Aktie zu marketperformer bestimmt werden Diese Anpassung sieht dann nur noch so aus dass man den Zugeh rigkeitswert f r underperformer und outperformer eines Finanzproduktes vergleicht Sollten diese Werte weniger als 0 2 auseinanderliegen so kann man keinen eindeutigen Schluss ziehen da man nicht sicher sagen kann in welche Klasse das Finanz produkt f llt und bestimmt somit den Marketperformer eines Finanzproduktes zu marketperformer In dem anderen Fall w hlt man die Klasse mit der h chsten Zugeh rigkeit und hat somit den Marketperformer eines Finanzproduktes klar bestimmt so dass sich nun damit weiter
43. angibt wie oft das Wort im Satz vorkommt 13 1 SITZUNGSPROTOKOLLE 177 e K Means Clusteralgorithmus mit hnlichkeitsabstand Hemmingabstand Diese Methode wurde auf ca 3000 Nachrichten ausprobiert Leider ist das Er gebnis als erfolglos zu bezeichnen da die Nachrichten die in das selbe Cluster fielen nichts miteinander zu tun haben Es wurde ber alternative L sungsvorschl ge diskutiert Es wurde ange merkt dass das Problem an dem W rterbuch liegen k nnte Es wurde vor geschlagen ein kleineres W rterbuch das von einem B rsenexperten erstellt wurde zu verwenden Des Weiteren wurde diskutiert was das Ziel des Clusterns sein soll und es wurde die Frage gestellt inwiefern die geclusterten Nachrichten behilflich bei der Entscheidung ber ein Finanzprodukt sind Es wurde unter anderem auch vorgeschlagen zuerst eine W rterliste zu erstellen und danach diese auf die Nachrichten anzuwenden Die Gruppe Entscheidung hat ihre Ergebnisse vorgestellt und eine To do Liste angegeben Die Gruppe geht bei der Erstellung eines Aktienrankings fol genderma en vor e Aus den Angaben im Fragebogenformular wird der Kundenvektor Sicher heit Verf gbarkeit Rendite bestimmt Zu allen Aktien werden die Finanzvektoren Sicherheit Verf gbarkeit Marketperformer bestimmt e Mit Fuzzy Min Operation wird Kundenvektor mit Finanzvektor kombi niert erhaltene Fl cheninhalte addiert und mit Zugeh rigkeitswerten ge wichtet Gr ter
44. aufgenommen Istausgabe BASF Aktie und Telekom Aktie sind in Mein Port folio aufgenommen Zu testende Funktion Mein Portfolio ndern Aktie entfernen Eingabe BASF Aktie Sollausgabe BASF Aktie wird aus Mem Portfolio gel scht Istausgabe BASF Aktie wird aus Mem Portfolio gel scht Zu testende Funktion Meine Klassifizierung einsehen Eingabe Sollausgabe Kundennummer Rendite Verf gbarkeit Sicherheit werden angezeigt Istausgabe Kundennummer Rendite Verf gbarkeit Sicherheit werden angezeigt Zu testende Funktion Pers nliche Daten ndern Eingabe Vorname auf Antona ndern Anderungen bernehmen Sollausgabe Vorname ist auf Antona ge ndert Istausgabe Vorname ist auf Antona ge ndert 129 Zu testende Funktion Mein Portfolio Eingabe Sollausgabe Mein Portfolio wird angeigt mit den aktuellen Ak tien dem Link zum Unternehmen und den Link zu den News zum Unternehmen Istausgabe Mein Portfolio wird angeigt mit den aktuellen Ak tien dem Link zum Unternehmen und den Link zu den News zum Unternehmen Zu testende Funktion News zum Unternehmen anzeigen Eingabe Sollausgabe Zum Unternehmen werden die Nachrichten im Zeit raum News der letzen 60 Tage anzeigen Istausgabe Zum Unternehmen werden die Nachrichten im Zeit raum News der letzen 60 Tage anzeigen Zu testende Funktion News
45. damit sich das Sys tem anpassen Top5 Das Grillen wird auf n chsten Donnerstag verschoben 14 7 05 Sonstiges Die CI Seminar Themen und Daten zur Vorbesprechung sind fertig und k nnen auf Stefans Homepage eingesehen werden Die Sitzung am Donnerstag f llt aus N chstes Treffen ist dann am Montag den 11 7 TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 183 Sitzungsprotokoll vom 11 07 2005 Abwesend niemand Versp tet Rene 15 Min Christian 7 Min Sitzungsleitung Niels Protokollf hrung Martin Tagesordnung 1 Begr ung 2 Formalia 3 Berichte der Kleingruppen 4 Sonstiges 5 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Berichte der Kleingruppen Gruppe Bewertung Implementierung soweit fertig Versuch noch Marktperformer einzubinden Interne Aufteilung der Gruppe 2 Leute besch ftigen sich mit der DB und 2 Leute besch ftigen sich mit der Anbindung an HTM bzw JSP Gruppe Extraktion Hat jetzt sehr viele L sungsans tze und mu nun daraus realisierbare ausw hlen und bewerten 184 KAPITEL 13 ANHANG Sonstiges Grillen am Donnerstag den 14 07 2005 um 17 30 bei Rene Die Sitzung am Donnerstag 14 07 2005 f llt dementsprechend aus Entory AG Vorschlag von Markus dass die Minimalziele im Pflichtenheft ein we
46. dem die Kunden auf der GUI des Systems an einer Skala von 1 100 festlegen welche Relevanz und Tendenz eine Nachricht bez glich einer Aktie aufweist Dadurch dass das Datum einer Kundenbewertung festgehalten wird k nnen bei der Erstellung von Aktien Rankings stets die aktuellsten Kundenbewertun gen herangezogen werden Das Attribut bonusgegeben wird gebraucht bei der sp teren Beurteilung dar ber ob eine Kundenbewertung auch tats chlich der Entwicklung der Aktie entsprochen hat Eine weitere zentrale Tabele im Datenbankkonzept ist die Tabelle Kunde Neben der eindeutigen kundennr mit der sich der Kunde im System einloggt beinhaltet diese Tabelle die Attribute sicherheit verfuegbarkeit und rendite Diese Werte geben die Erwartungen und das Anlageverhalten des Kunden wie der und werden aus den Informationen ermittelt die der Kunde als Antworten in den Fragebogen eingibt Das Attribut kundenstatus sagt aus inwieweit der Kunde verl ssliche Bewertungen abgegeben hat Die Bewertungen eines Kunden mit einem hohen kundenstatus werden bei der Erstellung eines Aktien Rankings 9 2 DATENBANK KLASSEN 123 Fragebogen Kunde Kundenbewer Nachricht tung iin relevanz tendenz datum bomisgezeben Kemzahl Branche Branchendurch Bewertmg Empfehhmgs Enpfehhmz Abbildung 9 2 Attribute der Datenbankrelationen st rker in Betracht gezogen Die Tabelle Fragebogen enth lt alle wichtigen Informationen die aus den Antworten mit den
47. des Anstiegs vom Wert 0 0 zum Mittelpunkt bzw 6 2 FUZZY LOGIK EINF HRUNG 93 Abbildung 6 5 Fuzzy Und Gamma Operator als Schaubild mit y 0 5 Abbildung 6 6 Fuzzy Dreieck Funktion Abstiegs vom Mittelpunkt auf den Wert 0 0 angeben Ein Beispiel dieser Funktion ist in Abb 6 6 gegeben Trapez Das Trapez besteht aus zwei Mittelpunkten m und ma und den bereits bekannten Parametern a und Zwischen m und ma betr gt der Wert der Zugeh rigkeitsfunktion 1 0 o gibt die L nge des Anstiegs vom Wert 0 0 auf 1 0 zum Punkt m an und gibt die L nge des Abstiegs von dem Punkt mz 1 0 auf 0 0 an Ein Beispiel dieser Funktion ist in Abb 6 7 gegeben 94AKAPITEL 6 ENTSCHEIDUNGSFINDUNG GRUNDLAGE TECHN ANALYSE Abbildung 6 7 Fuzzy Trapez Funktion 6 3 Adaption von Fuzzy Logik auf unser System Um Fuzzy Logik auf unser System zu adaptieren m ssen geeignete Linguisti sche Variablen LV definiert werden Eine LV ist ein sprachlicher Begriff der verschiedene Werte annehmen kann Diese Werte hei en linguistische Terme LT Es gibt zun chst zwei Unterscheidungen Linguistische Variablen LV f r den Kundenvektor und LVs f r den Finanzvektor Beide m ssen getrennt behandelt werden obwohl sie sich sehr hnlich sind wie wir gleich sehen werden 6 3 1 Kundenvektor Der Kundenvektor besteht aus drei Bereichen Sicherheit Verf gbarkeit und Rendite Mittels Fuzzy Menge
48. e Datenbank Technologie Datenmodell Testdaten Interface Persistenz e Schnittstellen zwischen den Komponenten 13 1 SITZUNGSPROTOKOLLE 165 Kundenkategorisierung Schnittstellen Bewertung der Finanzprodukte Entwicklung eines Datenmodells mit Interface Datenbank Prototy Webauftritt Gruppe Kunde 19W 2LW 29 W Entscheidung Niels Markus Madan Jana Stefan Ahmet Bertram Christian Mehmet Martin Rene Christoph Extraktion aus News Abbildung 13 3 Zeitplan Top5 Sonstiges e IRB Accounts sind freigegeben werden am Donnerstag verteilt oder k nnen vorher bei Stefan abgeholt werden e Donnerstag wird der Schrank gef llt e Rene ist am 30 5 abwesend e Kundenfragebogen wurde verteilt TOPS n chste Sitzung siehe n chste Sitzung 166 KAPITEL 13 ANHANG Sitzungsprotokoll vom 12 05 2005 Abwesend niemand Versp tet niemand Sitzungsleitung Niels Protokollf hrung Martin Tagesordnung 1 Begr ung 2 Formalia 3 Vortrag von Wolfgang 4 Sonstiges 5 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Vortrag von Wolfgang Wolfgang war leider nicht da also den Vortrag Linux Einf hrung verschoben auf die n chste Sitzung Sonstiges e IRB Accounts wurden verteilt e Der Schrank wird nach der Sitzung aufgef llt e Die
49. h chst positive Auswirkung auf eine Aktie haben so wird ein hoher Wert gew hlt Eine negative Einsch tzung ist mit einer niedrigen Zahl verbunden Neben den Tendenzen und Relevanzen spielt nat rlich auch die Glaubw rdig keit des jeweiligen Nutzers eine Rolle Ein Bonussystem soll den Bewertungen eines Nutzers eine Gewichtung geben Wenn sich die Vorhersagen eines Nutzers best tigen dann erhalten seine zuk nftigen Bewertungen ein h heres Gewicht und umgekehrt siehe Kapitel 8 Die Gesamttendenz ergibt sich aus der normierten Aggregation dieser 3 Fak toren Tendenz Relevanz und Kundenstatus f r alle Nachrichten die f r die betrachtete Aktie relevant sind Diese Gesamttendenz kann dann als Newsper former interpretiert werden Der Gesamtperformer ergibt sich also aus der Kombination von Basisperfor mer und Newsperformer wobei die Anzahl der Bewertungen f r die relevanten Nachrichten ausschlaggebend f r die Gewichtung des Newsperformers ist ma ximales Gewicht f r den Newsperformer betr gt 75 4 4 Berechnung der Sicherheit eines Finanzpro duktes Die Berechnung der Sicherheit eines Finanzproduktes ergibt sich aus den vier Kennzahlen DIV KBV EKR und PEG Diese Werte werden geeignet kombi niert um einen Sicherheitswert s 0 2 zu erhalten Die Klassen mittel mittel gering gering und sehr gering sind durch Fuzzymengen auf einem Bereich von 0 bis 2 definiert siehe Abbildung 4 3 Die Sich
50. kann Nachrichten werden zuerst st rker beachtet die Wirkung schw cht sich aber mit der Zeit ab Was dabei realistisch be deutet ist im Zweifelsfalle durch Testen verschiedener Parameter heraus zufinden e nderung der PAzuG ber Wirkungszeitraum Voraussetzungen Es werden erst einmal nur Aktien aus dem DAX betrachtet und der DAX selber als geeigneter Repr sentant der Gesamtmarktentwick lung gesehen Sei t der Zeitpunkt des Eintreffens einer Nachricht und to vor dem Eintreffen und t ta t3 mit t lt t lt t2 lt t3 Zeitpunkte nach dem Eintreffen Benutze 7 Klassen 3 2 1 0 1 2 3 von starker Underper formance ber Markt bis starker Outperformanz Einteilung in Klassen Verh ltnis vo von Aktienkurs zum DAX zum Zeitpunkt to wird be rechnet Damit ist das Verh ltnis vor dem Einfu der Nachricht be kannt Analoge Berechnung von v1 v2 v3 f r die Zeitpunkte t t2 t3 Setze Bewertung zuerst auf Null Bewertung 0 Jetzt werden die Verh ltnisse mit vo verglichen x Ist vo lt v 1 tol so ist der Kurs der Aktie st rker ge stiegen als der Gesamtmarkt die Aktie hat den Gesamtmarkt Outperformed Die Bewertung wird um eins erh ht Dabei ist tol der Toleranzwert z B tol 0 002 dann gilt die Aktie nur als Outperformer wenn sie sich um mindesten 0 2 besser als der Gesamtmarkt entwickelt 5 5 METHODEN IM DETAIL 81 Ist vo gt v 1 tol so hat d
51. lerweise nicht kurzfristig verf gbar usw Wir versuchen nun die Priorit ten des Kunden ebenfalls in diesem Dreieck einzuordnen Jeder Kunde wird gerne eine hohe Rendite haben wollen aber die Bereitschaft daf r ein Risiko einzugehen oder sich langfristig festzulegen ist unterschiedlich ausgepr gt Fragenfindung Mit Hilfe eines Fragebogens versuchen wir nun das Sicherheitsbed rfnis des Kunden zu ermitteln um ihn in das Magische Dreieck einordnen zu k nnen In die Berechnung der Sicherheitspunkte flie en folgende Aspekte ein e das Alter des Kunden 0 5 Punkte Ein Kunde unter 30 kann z B viel leicht noch eher ein Risiko eingehen einem Kunden ber 90 ist die Sicher heit der Anlage sicher auch nicht so wichtig wie einem 50j hrigen e das Nettoeinkommen des Kunden abz glich Miete und Versicherungen 0 20 Punkte Ein Million r kann eher ein Risiko bei der Geldanlage ein gehen als jemand der von dem gr ten Teil seines Geldes allt gliche Aus gaben bestreiten muss e die Dauer f r die finanzielle Notfallreserven vorhanden sind 0 20 Punk te Wer keine Reserven hat sollte kein Risiko eingehen wer Reserven f r mehrere Jahre hat kann ruhig spekulieren e die gew nschte Anlagesumme 0 20 Punkte Wer Millionen anlegen will ist wohl eher bereit ein Risiko einzugehen maximal hinzunehmender Verlust 0 20 Punkte Wer bereit ist auch gro e Verluste im Vergleich zur Anlagesumme hinzunehmen ist risiko freudi
52. lt link gt Link zur Webpr senz lt link gt lt description gt Kurzbeschreibung lt description gt lt language gt de lt language gt lt copyright gt Copyright Informationen lt copyright gt lt pubDate gt Datum der Erstellung lt pubDate gt lt image gt lt url gt URL des Bildes f r eine Darstellung des Bildes lt url gt lt title gt Titel des Bildes lt title gt lt link gt Allgemeiner Link zum Bild lt link gt lt image gt lt item gt lt title gt Titel des ersten Beitrages lt title gt lt description gt Der Text der News lt description gt lt link gt direkter Link zu weiterf hrenden Angaben der News lt link gt lt item gt lt channel gt lt rss gt Dabei gibt die Kurzbeschreibung schon eine kurze Zusammenfassung um was es in dieser Nachricht eigentlich geht Das Problem bei RSS Feeds besteht aber weiter darin dass die vollst ndige Nachricht erst ber den Link im Feed selber abrufbar ist und dieser Link halt wieder auf eine Webseite verweist wel che die Nachricht entsprechend des Webseitenlayouts der referenzierten Seite darstellt siehe Probleme mit Unstrukturierte HTML Nachrichten Nun gibt es RSS Feeds von bestimmten Anbietern hier am Beispiel Finanztreff de wo die weiterf hrenden Links auch auf die Seite von Finanztreff de verweisen Die Nachrichten also auf Seiten verweisen von denen der RSS Feed stammt Bei anderen RSS Feeds ist es allerdings so dass sie unterschiedliche RSS Feeds in einen zusammen
53. oben die Nachricht schon zeigt haben alle Nachrichten verschiedene L ngen F r die Verarbeitung eines Vektors bzw einer Matrix in der SOM ist es allerdings Vorraussetzung dass die L nge bzw Dimensionalit t des Eingabe raumes fest vorgegeben ist und nicht w hrend des Trainingsprozesses variiert Um dies zu erreichen ist ein W rterbuch aus allen relevanten Synonymgruppen erstellt worden Im folgenden gelten also folgende Vorbedingungen Zur Herlei tung eines W rterbuchs bestehend nur aus relevanten Synonymgruppen siehe das Kapitel Thesaurus 1 Nachrichten liegen als Synonymgruppenvektor vor 2 Es existiert ein W rterbuch nur aus relevanten Synonymgruppen Eine Nachricht kann durch eine Matrix NMx Nachrichtenmatrix repr sentiert werden Wii rr Win NMx EE 5 1 Uni Es Unn 68 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN SOM Matrix NMx Zufallsinitialisierung NMx der Nachricht Abbildung 5 9 Self organizing map Gewichtsmatrizen mit n Gr e des W rterbuchs und w P ilj D i j 1 lt i j lt n e P i j ist die Wahrscheinlichkeit das Synonym i vor Synonym j in einem Satz vorkommt e D i j ist der durchschnittliche Wortabstand zwischen Synonym i und Synonym j Die SOM besteht nun aus einer Gitteranordnung Abbildung 5 9 von Kno ten Neuronen die nun nicht mit einem Gewichtsvektor mit dem Trainings beispiel verbunden sind sondern mit einer Synonymgruppenmatrix Der Trainings algorit
54. sentiert die durch den RSS Wrapper aus dem Internet geladen wurden die den SPAM Filter passiert haben und denen ein Unternehmen aus dem DAX30 zugeordnet werden konnte Die Nachricht muss als Synonymgruppenvektor vorliegen Das bedeutet dass die Nachricht nur noch aus IDs von Synonymgruppen des OpenThesaurus besteht und kei ne Stoppw rter mehr enth lt Eine Synonymgruppenvektor einer Nachricht hat beispielsweise folgende Repr sentation e Nachricht Der Chipkonzern Infineon ist tiefin die Verlustzone zur ckgefallen e Synonymgruppenvektor lt NN NN VAFIN 7530 1626 Zur Herleitung dieses Repr sentanten siehe dazu die Kapitel Lemmatisie rung Stemming und Thesaurus Bei diesem Vektor geht allerdings die Semantik der Nachricht verloren Was bis jetzt erreicht worden ist ist eine Maximierung der Allgemeinheit einer Nachricht Da hnliche W rter mit gleichem Sinn in Gruppen zusammengefasst worden sind und die einzelnen W rter vorher alle auf ihre Grundform reduziert worden sind Um den Zusammenhang zwischen W rtern zu repr sentieren ist eine Er weiterung des Synonymgruppenvektors auf eine Synonymgruppenmatrix not wendig Die Elemente der Matrix enthalten Wahrscheinlichkeiten die informell bedeutet wie wahrscheinlich es ist dass ein Wort X in einem Satz auftaucht wenn vor Wort X das Wort Y im Satz vorkam Bevor dies formalisiert werden kann gilt es noch als Vorbedingung ein feststehendes W rterbuch vorauszuset zen Wie
55. umso kleiner die Winkel umso hnlicher die Vektoren Mit anderen Worten Als hnlichkeitsma wird der Cosinus benutzt Im n chsten Schritt wird dieser Wert mit dem Aufmerksamkeitsparameter ver glichen Also bezeichnet der hnlichkeitsparameter eigentlich nur den Cosinus wert ab wann wir den Eingabevektor als gen gend hnlich zu einer Klasse akzeptieren Falls uns die hnlichkeit des Eingabevektors nicht berzeugt wird eine neue 5 5 METHODEN IM DETAIL 55 Klasse erzeugt und der Vektor in die Klassenmatrix aufgenommen Andernfalls geben wir die Klasse aus und passen die Gewichte dieser Klasse nur an Hier spielt der Lernparameter eine wesentliche Rolle t no 1 mw AUDE 3 wld bezeichnet den alten w den neuen Klassenvektor 2 den Eingabe vektor Er ist schon im Preprocessing normiert worden Nachdem die Formel berechnet worden ist bildet der kontrastverst rkte normierte Vektor den neu en Klassenvektor Rauschunterdr ckung ist hier noch einmal angewendet worden weil w unter Umst nden sehr kleine Komponentenwerte beinhalten kann die aber praktisch keine Rolle spielen Anwendung dieser Methode speziell f r unser System Unser Ziel ist es die Nachrichten in drei Klassen einzuteilen Positive negative oder neutrale Bedeutung f r eine Unternehmung bzw Aktie Dazu werden die Komponenten des Dokumentenvektors selbst als Klassen gesehen So wird jeder einzelnen Komponente eines Vektors
56. worden und unter home pg473 pg473 Webentwurf verf gbar Rene Niels schl gt vor die eGroupware einzurichten Jana wird eGroupwarebeauf tragte Die Gruppe Beschaffung wird sich mit der Einsch tzung der Kennzahlen von Finanzproduken besch ftigen Es wird auf ein Bedienungsdefizit des UML Tools Umbrello hingewiesen Es soll ein Pflichtenheft erstellt werden Um sich mit dem Konzept eines Pflich tenheftes vertraut zu machen bringt Martin zur n chsten Sitzung ein solches Heft mit um dann kurz den Aufbau zu erl utern TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 169 Sitzungsprotokoll 23 05 2005 Abwesend niemand Versp tet niemand Sitzungsleitung Stefan Rosas Protokollf hrung Mehmet Sari Tagesordnung 1 Begr ung 2 Formalia 3 Bericht DB 4 Bericht Bewertung Vorstellung eines Pflichtenheftes Vortrag von Wolfgang Hunscher Sonstiges oO N 9 0 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Bericht DB e Die Datenbank l uft auf den Servern e Eine Beschreibung kann man im Ordner pg473 pg473 JBoss finden Bericht Bewertung e Die Gruppe Bewertung der Finanzprodukte hat 9 Kennzahlen ausgew hlt die bewertet werden sollen e F r die Bewertung der Aktien wird die Fuzzy Logik herangezogen e Die Ke
57. 13 1 3 User Anwendungsfalldiagramm e 15 1 4 Zeitplan f r das erste Semester 2 2 onen 17 1 5 Zeitplan f r das zweite Semester erste H lfte 19 1 6 Zeitplan f r das zweite Semester zweite H lfte 20 3 1 magisches Dreieck 2 22 2 r nennen 23 3 2 Fragebogen mit zugeordneten Sicherheitspunkten obere H lfte 26 3 3 Fragebogen mit zugeordneten Sicherheitspunkten untere H lfte 27 4 1 Fuzzymengen f r eine Kennzahl Rot Putz blau Patz und U EEN 33 4 2 Regelmenge f r Zuweisung hoch mittel niedrig out mar ket under mit Gewichtungen f r die Sicherheitsklasse mittel 35 4 3 Fuzzymengen f r die Sicherheitsklassen rot sehr gering dun kelblau gering gr n mittel gering hellblau mittel 37 4 4 Fuzzymengen f r Sicherheitsbetrachtung rot positiv blau neu tral gr n neg tiv 42 amp Warst ae a ra eu ee 38 5 1 Beispiel einer optimal trennenden Hyperebene rote Kreise po sitive Instanzen gr ne Quadrate negative Instanzen 47 5 2 Beispiel der Problemstellung Spam Filterung auf der linken Seite ist eine Not Spam Nachricht und auf der rechten Seite eine Spam Nachricht abgebildet Unten sind die Vektorrepr sentatio nenzu sehen na Zeie RE rear 49 5 3 bersicht Implementierung des ART 2a Algorithmus 51 5 4 bersicht Preprocessing des ART 2a Algorithmus 53 5 5 bersicht Klasseneinteilung 2 2
58. 222 aa 54 5 6 Entscheidungsbaum Tests mit den gelernten Beispieltexten 58 5 7 Entscheidungsbaum Tests mit den neugelernten Texten 59 5 8 Self organizing map ssaa 67 5 9 Self organizing map Gewichtsmatrizen 69 5 10 Self organizing map Programm saaa 71 7 ABBILDUNGSVERZEICHNIS 5 11 Self organizing map Nachbarschaftseinfluss 2 72 5 12 Self organizing map Lernrate 2 2 on n nn 73 5 13 Self organizing map nach 21 Trainingsschritten 74 5 14 Self organizing map nach 84 Trainingsschritten 75 6 1 Fuzzy Minimum Operation 89 6 2 Fuzzy Maximum Operation 89 6 3 Fuzzy Minimum Operator als Schaubild 2 2 2 2 2 2 92 6 4 Fuzzy Maximum Operator als Schaubild 2 2 2 2 92 6 5 _ Fuzzy Und Gamma Operator als Schaubild mit y 0 5 93 6 6 Fuzzy Dreieck Funktion 2 2 nn 93 6 7 Fuzzy Trapez Funktion 2 Con onen 94 6 3 LT Sicherheit sehr geing 96 6 9 LT Sicherheit gering 2 cn onen 96 6 10 Darstellung der LV Sicherheit mit allen LTs 97 8 1 RSS Konfigurationsdatei lesen 2 22cm nenn 111 8 2 RSS HTML Code extrahieren und DOM Baum erstellen 112 8 3 RSS DOM bereinigen 113 8 4 RSS Element Merkmale berechnen 113 8 5 RSS Regelbasis anwenden o oo 114 8 6 RSS ber Nachrichten Iterieren 114 9 1 Datenbankschema 2 122 9 2 Attribute der Datenbankrelationen 123 9 3 Klassen im Paket co
59. 48 KAPITEL 13 ANHANG Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Protokoll f hrt jeder PG Teilnehmer alternierend in alphabetischer Reihenfolge Sitzungsleiter wird jeweils der Protokollf hrer des vorigen Treffens Seminarfahrt e Schriftliche Ausarbeitungen Abstimmung ber das gemeinsame Format der Seminarausarbeitungen 1x Word 8x LaTex 2x Enthaltung damit beschlossen Ausarbeitung in LaTeX Abgabe Montag den 02 Mai 2005 e Abrechnung verschoben auf Donnerstag den 14 April 2005 PG Kasse e Abstimmung ob eine PG Kasse eingef hrt wird 5x daf r keiner dagegen 6x Enthaltung damit beschlossen Einrichtung einer PG Kasse Einmalige Einzahlung von 10 Euro e Festlegung der Kassenw rter und Verpflegungsmanager Ren Christian Mehmet Technischer Beauftragte e Vorstellung des Netzwerkbeauftragten Wolfgang Hunscher e Einf hrung in die Rechner des Rechner Pools Wolfgang Hunscher e Vergabe der Rechneraccounts e Festlegung des Technischen Beauftragten Bertram Sonstiges e Einigung auf Erstellung eines Verzeichnis mit Namen E Mail Adressen Telefon Nummern ICQ Nummern aller PG Teilnehmer TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 149 Sitzungsprotokoll vom 3 Januar 2006 Abwesend Niels entschuldigt Versp tet Ahmet 13 Min Sitzungsleitung Bertram B deker Protokollf hrung Jana Ehlers Tagesordnung
60. 9 Sitzungsprotokoll vom 19 01 2006 Abwesend Rene Versp tet niemand Sitzungsleitung Christian Friem Protokollf hrung Ahmet Kara Tagesordnung 1 Begr ung 2 Formalia 3 Enddokumentation 4 Endpr sentation 5 Sonstiges 6 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Enddokumentation Es haben noch nicht alle die Dokumentation ihrer Teilbereiche beendet Bis Don nerstag den 26 01 soll die Dokumentation jedoch komplett fertig werden Es wird vorgeschlagen dass sich alle die Gesamtdokumentation durchlesen damit Fehler berichtigt und Wiederholungen in der Dokumentation herausgestrichen werden k nnen Endpr sentation Madan stellt die aktuellen Folien f r die Endpr sentation vor Bisher sind 33 Folien erstellt die Zahl wir jedoch wahrscheinlich auf 40 steigen Die Folie zu Preprocessing muss berarbeitet werden Eine beispielhafte Nutzung des Systems soll mit einem Video in dem einige Grundfunktionalit ten ausgef hrt werden pr sentiert werden Martin schl gt vor dass man f r die Aufnahme die freie Software WINK nutzen soll 220 KAPITEL 13 ANHANG Jede Kleingruppe die sich mit einer Klassifikationsmethode besch ftigt hat soll eine Folie f r die entsprechende Methode vorbereiten und sie bis Montag an Madan oder Jana schicken In die Folie Ausblick sollen
61. Abbildung 5 1 f r ein Beispiel im 2 dimensionalen Vektor raum Das Ziel der SVM ist die Erstellung einer Hyperebene die die Mengen der positiven und negativen Beispiele optimal trennt Eine optimal trennende Hy perebene ist eine Hyperebene mit maximalem Abstand zu den am n chsten liegenden Punkten siehe Abbildung 5 1 Diese Hyperebene h wird beschrieben durch einen Gewichtsvektor w und einem Grenzwert wo h wte wo 0 und stellt eine Entscheidungsgrenze dar F r die Klassifikation gilt wenn das innere Produkt von Gewichtsvektor w und einem Punkt x aus dem Vektorraum gr sser als der Grenzwert wo ist dann bekommt dieser Punkt die positive Klasse zugewiesen ansonsten die negative Damit das Verfahren angewendet werden kann m ssen die positiven und negativen Beispielmengen linear separierbar sein In einem nicht linear separier baren Fall wird mittels einer Kernelfunktion e der n dimensionale Vektorraum in einen h herdimensionalen Vektorraum transformiert Durch eine geeignete Kernelfunktion sind die Beispielmengen in diesem neuen Vektorraum immer li near separierbar und die SVM arbeitet dann in diesem hochdimensionalen Vek torraum Die Entscheidungsgrenze im urspr nglichen Vektorraum kann dadurch beliebig komplex werden Auf den ersten Blick k nnte dieser hochdimensionale Vektorraum ein Pro blem f r die Berechnung werden Eine SVM jedoch erstellt die Hyperebene auf der Basis der Supportvektoren Beispiele die am schlech
62. Beispiel einer Anfrage Ausgabe der Synonymgruppennummer zu Gewinn SELECT word_meanings meaning_id FROM words word_meanings WHERE words id word_meanings word_id and words word Gewinn Iwww openthesaurus de Stand 24 01 2006 Die Anzahl der W rter ist in den letzen 2 Monaten rasant um ca 40 gewachsen 5 5 METHODEN IM DETAIL 45 5 4 4 Semantik Semantik oder auch Bedeutungslehre befasst sich mit dem Sinn und der Bedeu tung von Sprache beziehungsweise sprachlichen Zeichen Sie geh rt zum Teilge biet der Linguistik Im Kontext von FIPs bedeutet die semantische Analyse von Finanznachrichten eine bersetzung einzelner W rter und S tze in Aussagen so dass der inhaltli che Sinn solch einer Nachricht durch diese Aussagen erfasst werden kann Da wir weder Linguisten sind noch ber ein ausgepr gtes semantisches Wissen ber Finanznachrichten verf gen haben wir uns in dieser PG f r die Anwendung von Verfahren aus der K nstlichen Intelligenz basiert auf symbolischer Darstel lung logische Formeln und der Computational Intelligence basiert mehr auf Verarbeitung nummerischer Information nicht rein zeichenbasiert entschieden Die semantische Analyse tritt h chsten in Ans tzen auf beispielsweise beim POS Tagging der Lemmatisierung und der Anwendung eines Thesaurus Ohne Frage ist die Betrachtung der Semantik einer Finanznachricht dennoch ein spannendes Teilgebiet welches sicher bei weitergehenden Betrachtungen zum
63. Der Infineon Konzern will nach dem geplanten B 4 Nach dem tiefen Sturz in die Verlustzone hofft E 5 Bundesgesundheitsministe rin Ulla Schmidt will 6 MONTAG 21 November 07 30 DEMivacon 7 Bundesgesundheitsministe rin Ulla Schmidt will 8 Die Sektkorken in Wiesbaden knallen schon Da b Shell Hate an einigen Stationen wieder Tankai 10 00 50 JPHandelsbilanz Oktober 06 00 JP Bo 11 Die Globalisierung hat die Private Equity Brancl 12 Der Deutsche Aktienindex Dax hat bis zum Nac 13 FRANKFURT Dow Jones Weiterhin mit fester 14 Nach einem freundlichen Start in die Woche ve 115 Der fr Y here Infineon Chef Ulrich Schumacher 16 amp quot Aktion tre sind dumm und frech Dumi 17 Die Zahl der Unternehmenszusammenbr ch 18 Es war nur eine kleine Meldung Der Elektrokorl 19 Die im Irak t ttigen deutschen Firmen werden 20 Nach einem freundlichen Start bauen die deuts 21 Der Frankfurter Aktienmarkt hat sich am Donne 22 FRANKFURT Dow Jones Weiterhin etwas fesi 23 Nach einem freundlichen Start zogen die deuts 24 Nach einem verhaltenen Wochenauftakt verhai 25 Marktanalyse DAX Infineon GPC Biotech und 26 Am Montag fehlen in Frankfurt die positiven Im 27 Der Dax hat seine Gewinne ausgebaut und ist 2 28 Gute US Konjunkturdaten und eine freundliche 29 Nach einem schw ticheren Auftakt startete d 30 Noch vor seinem r Januar angesetzten el 21Nach schwachen Vorgaben der Wall Street un 3 europ ischen Aktienm trkte haben am N ll
64. Fl cheninhalt kommt an erste Stelle des Rankings e Rankings hat gr te bereinstimung mit Kundenprofil Die Todo Liste f r diese Gruppe sieht folgenderma en aus e Anpassung der Regelgewichte f r die verschiedenen Sicherheitsklassen mit tels Testdaten e Berechnen der Branchendurchschnittswerte f r die weiteren Branchen Verschmelzung von Marketperformer und Rendite FuzzyMenge kombi nieren mit Zugeh rigkeitswerten von Marketperformer Einbeziehen von News in die Entscheidung warten auf Gruppe Extrakti on Pflichtenheft Christoph wird das Pflichtenheft f r die Gruppe Extraktion bernehmen Bei der anderen Gruppe ist noch nicht entschieden wer das Pflichtenheft vorbereitet 178 KAPITEL 13 ANHANG Sonstiges Es wird beschlossen am Donnerstag den 30 6 gemeinsam zu grillen F r den Einkauf wird in der n chsten Sitzung von jedem 10 Euro eingesammelt TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 179 Sitzungsprotokoll vom 27 06 2005 Abwesend Bertram entschuldigt Versp tet niemand Sitzungsleitung Ahmet Protokollf hrung Markus Tagesordnung 1 Begr ng 2 Formalia 3 Berichte der Kleingruppen 4 Pflichtenheft 5 Grillen 6 Sonstiges 7 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das letzte Protokoll wird erst heute von Ahmet herumgeschickt Berichte der Kleingrupp
65. GPC Biotech und 26 Am Montag fehlen in Frankfurt die positiven Im 27 Der Dax hat seine Gewinne ausgebaut und ist 2 28 Gute US Konjunkturdaten und eine freundliche 29 Nach einem schw ticheren Auftakt startete d 30 Noch vor seinem r Januar angesetzten An lach schwachen Vorgaben der Wall Street un Abbildung 5 14 Self organizing map nach 84 Trainingsschritten 5 5 METHODEN IM DETAIL 75 hier dass eine Gruppe m glichst nur Nachrichten enthalten sollte die eine be stimmte wirtschaftliche Situation oder ein finanzielles Konzept wiederspiegelt welches dann bewertet werden kann Die Hauptgr nde warum dies nicht funktio niert liegen nicht daran wie die SOM trainiert ist sondern wie die Nachrichten repr sentiert sind 1 Die Nachrichten enthalten zu viele Informationen Es w re besser die Nachrichten in mehrere kleinere Informationspakete aufzuteilen 2 Es werden selten konkrekte wirtschaftliche Situationen angesprochen Viel mehr werden diese meisst umschrieben so dass der Kern der Nachricht nur durch semantische Analyse zu extrahieren ist 3 Eindeutige Informationen in Nachrichten k nnen im Zusammenhang mit anderen Nachrichten im gr eren Kontext gesehen einen komplett ande ren Sinn haben 4 H ufig spielen Zahlen und Vergleiche von Werten und Kursen in Nachrich ten eine entscheidende Rolle um die Nachricht manuell zu analysieren Alle Zahlenwerte werden bisher allerdings komplett aus dem
66. HE BOERSE AG DE0005810055 Nicht genug www exchange de News Fragebogendetails Bewertungen ndern METRO AG DE0007257503 nicht genug www metrogroup de News Mein Portfolio Bewertungen ndern nicht genug SAP AG DE0007164600 Wwww sap com News Meine Klassifizierung Bewertungen ar einsehen Empfehlung berechnen Abmelden Letzte Empfehlung anzeigen Externe Links Finanztreff OnVista Finanznachrichten Abbildung 11 8 Mein Portfolio 140 KAPITEL 11 ARBEITEN MIT DEM SYSTEM In der Mein Portfolio bersicht gibt es sowohl Links zu den Unternehmen in dem Portfolio als auch einen Link der den User zu den News bringt die speziell zu diesem Unternehmen passen Dort findet der User auch eine durchschnittliche Bewertung der News wie sie von anderen Usern bereits abegegeben worden sind Hallo Herr Mustermensch Mein Porfolio News bewerten Einstellungen Pers nliche Daten ndern Fragebogendetails ndern Mein Portfolio ndern Meine Klassifizierung einsehen Abmelden Externe Links Finanztreff OnVista Finanznachrichten Gil News zum Unternehmen News derletzen Tage anzeigen Titel durchs User Tendenz Link Xetra Sehr fest Commerzbank legen deutlich zu nicht genug Bewertungen Zur Nachricht Europas B rsen gut behauptet erwartet nicht genug Bewertungen Zur Nachricht Infineon will Speicher Mehrheit nach B rsengang vorerst behalten nicht genug Bewertungen Zur Nach Infineon reduziert Verl
67. Jahr Jede Aktie geh rt zu einer Branche Auch alle Bezeichnungen f r die Funda mentalkennzahlen werden in einer Tabelle Kennzahl abgespeichert Die Tabelle Branchendurchschnitt stellt eine Beziehung zwischen Kennzahl und Branche dar Aus ihr kann der Durchschnitt einer Fundamentalkennzahl bez glich einer Branche berechnet werden Die Tabelle Nachricht besitzt neben titel datum text autor und quelle die beiden Attribute gatenewsid und gatecorpusid Diese beiden Attribute bein halten die Identifikationswerte die einer Nachricht von Gate vergeben werden Spamwert und shavalue beschreiben inwieweit eine Nachricht sich auf Aktien bezieht oder eine Spam Nachricht darstellt 121 122 KAPITEL 9 SPEICHERUNG DER DATEN IM SYSTEM Abbildung 9 1 Datenbankschema Die Tabellen Aktie und Nachricht werden ber zwei Beziehungstabellen mit einander verbunden Bewertung und Kundenbewertung Die Tabelle Bewertung gibt an welche Nachrichten das System von sich aus welchen Aktien zugeord net hat Wenn m glich soll in dieser Tabelle auch die Entscheidung des Systems dar ber gespeichert werden inwieweit eine Nachricht relevant f r die Bewertung einer Aktie ist und welche Tendenz diese Bewertung hat Relevanz und tendenz stellen Integer Zahlen wobei eine hohe Tendenz eine positive Bewertung be deutet Bei der Beziehungstabelle Kundenbewertung handelt es sich um die von Kunden gegebenen Relevanz und Tendenzwerte Diese Daten entstehen in
68. L nge eines Trapezes ma m 9 Einheiten e Abstand zum n chsten Trapez 6 Einheiten e Alpha bzw Beta Abfallbereich 12 96KAPITEL 6 ENTSCHEIDUNGSFINDUNG GRUNDLAGE TECHN ANALYSE 1 0 0 0 9 O 15 21 2 Abbildung 6 8 LT Sicherheit sehr gering 1 0 0 0 A4 keck Li N rn Abbildung 6 9 LT Sicherheit gering Hierdurch wird der gesamte Sicherheitsbereich von 0 100 in die obigen 7 Sicherheitsklassen geteilt Jeder Sicherheitsklasse wird eine einzelne Fuzzy Men ge zugeordnet z B A Sicherheit ist gering B Sicherheit ist mittel Die zwei Grafiken 6 8 und 6 9 sollen die Bildung der LTs etwas genauer verdeutlichen Insgesamt zeigt Abb 6 10 die Darstellung der linguistischen Variablen Si cherheit mit allen untergeordneten LTs so dass die Bildung der LTs an diesem Beispiel klar verdeutlicht wird Rendite Die Fuzzy Mengen f r Rendite werden genauso wie die f r Sicherheit definiert Sollten diese in weiteren Adaptionen noch in weniger als die 7 Gruppen eingeteilt werden so kann dieses mittels den Fuzzy Mengeoperatoren durch Kombination geschehen Vorerst in unserer Implementierung gen gen die 7 Klassen 97 6 3 ADAPTION VON FUZZY LOGIK AUF UNSER SYSTEM oor 96 0 6 P 18 SL GL COU SLO LS 69 99 CH 09 Log gt 3 gt pZ A r ct AE Sen El P IS 8r Sr GE 9E eLo Tr E ZZL L Brett Le D I
69. MIT DEM SYSTEM g e Portfolio ndern Hallo Herr Mustermensch Aktien aus dem Portfolio l schen Mein Porto me Sn Name der Aktie ISIN ews bewerten C ADIDAS SALOMON AG DE0005003404 Einstellungen C DAIMLERCHRYSLER AG DE0007100000 Pers nliche Daten C DEUTSCHE BOERSE AG DE0005810055 ndern C SAP AG DE0007164600 Fragebogendetails Akis oma ndern Mein Portfolio ndern Meine Klassifizierung einsehen Abmelden Externe Links Aktien zum Portfolio hinzuf gen Finanztreff OnVista Name der Aktie ISIN Finanznachrichten mmo DE0007257503 Bl ttern Aktie hinzuf gen Abbildung 11 7 Portfolio ndern 11 2 M GLICHKEITEN F R DEN BENUTZER UND TYPISCHE ABL UFE139 ber den Link Mein Portfolio gelangt man zu einer bersicht seines aktuel len Portfolios Dort hat man die M glichkeit sich eine Empfehlung berechnen zu lassen Meine letzte Empfehlung gibt noch einmal eine bersicht ber die Empfehlung die bei der letzten Berechnung erstellt worden ist D D Mein Portfolio Hallo Herr Mustermensch i j Name der Aktie ISIN U durchs Link zum Unternehmen Sen See Mein Porfolid ser Bewertung nternehmen News bewerten ADIDAS SALOMONAG DE0005003404 Nicht genug www adidas group com News Bewertungen Einstellungen i j j nicht genug ii ES g DAIMLERCHRYSLER AG DE0007100000 Bewertungen www daimlerchrysler com decom News Pers nliche Daten ndern DEUTSC
70. News e Benutzerhandbuch e Entwicklungsdokumentation e Wartung e Zwischenbericht und Endbericht e Testergebnisse zu 7 e Modultest e Testverfahren entwerfen zum Produkttest effizient und anwenden Ergebnisse dokumentieren e Validierung Feedback Agent Zeitplan 1 und 3 parallel in alten Gruppen 2 neue Gruppen bilden Methoden testen implementieren Sonstiges N chste Sitzung ist Mitte Oktober Die Sitzung am Do 21 7 05 f llt aus TOPS n chste Sitzung siehe n chste Sitzung 188 KAPITEL 13 13 1 2 Protokolle 2 Semester Sitzungsprotokoll vom 20 10 2005 Abwesend Niels entschuldigt Versp tet niemand Sitzungsleitung Mehmet Protokollf hrung Madan Tagesordnung 1 Begr ung 2 Formalia 3 Besprechung der Modellierung Zeitplan 4 Gedanken dar ber was am 27 10 pr sentiert wird 5 Sonstiges 6 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia ANHANG Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Besprechung der Modellierung Zeitplan e Ahmet stellt von der Gruppe Entscheidung einen Gesamtsystem berblick aus Sicht seiner Gruppe vor und gibt Details ber die Komponenten DB Controller DB Schema und Web Logik preis Zu dem werden zwei Se quenzdiagramme zu den Vorg ngen LogIn und Empfehlung berechnen vorgestellt Bertram erl utert von der Gruppe Extraktion aus News deren Ar
71. PG473 Endbericht Bertram B deker Jana Ehlers Christian Friem Rene Goebels Christoph H binger Ahmet Kara Markus Matz Niels Pothmann Martin Prause Stefan Rosas Mehmet Sari Madan Sathe Betreuung Prof Dr Bernd Reusch Stefan Berlik 8 Februar 2006 Inhaltsverzeichnis 1 Einleitung 9 Lt Themadet PG 2 412 Ae Ba sc ra er 9 1 2 Pliehtenheft a2 22 22 rennen Ren 10 1 2 1 Zielbestimmung 2 222 none 10 1 2 2 Prod kteins tz 2 2 3 ae ern 11 1 2 3 Produkt bersicht 11 1 2 4 Produktfunktionen 13 1 3 Organisatorisches 16 1 3 1 Gruppentreffen 16 13 23 Tools 2225 wa A te a ee ee 16 154 Zeitplan 2 82 E Een 17 2 Erste Schritte 21 3 Klassifizierung des Kunden 23 3 L x Einleitung Hm 2 2 Aa EA a en a OAA 23 3 2 Klassifizierung mittels Kundenvektor 23 4 Klassifizierung von Finanzprodukten techn Analyse 29 dt Einleitung Sa 8 2 0 2 ne AR ha Ar 29 4 2 Fundamentale Kennzahlen 2 2 2 2 nn 30 4 3 Bestimmung des Performers von Finanzprodukten 32 4 3 1 Differenzierung des Performers e 34 4 4 Berechnung der Sicherheit eines Finanzproduktes 36 5 Bewertungsans tze f r Finanznachrichten 39 EE E 39 5 2 Finanznachrichten in Klassen under market und outperformer 39 5 3 Allgemeines Verfahren Schwierigkeiten 2 22 2 2200 40 5 4 Allgemeine Methoden 42 9 41 Stemming ee an Sa al AA erg 42 5 4 2 Lemmatisierung 43 5 483 Thesaurus hr Br 28 a amon
72. Phasen Stattdessen ist die Trainingsphase von der Klasseneinteilungsphase abh ngig was auch die Besonderheit dieser Netze ausmacht Zun chst versuchen wir einen gegebenen Eingabevektor zu klassifizieren Ge lingt uns dies geben wir einfach die Klasse aus und passen die Gewichte dem klassifizierten Vektor an Wie weit wir ihn anpassen h ngt vom Lernparameter ab dazu sp ter mehr Gelingt uns jedoch keine Klassifikation erstellen wir eine neue Klasse Die Ge wichte dieser neuen Klasse entsprechen genau den Komponenten des Eingabe vektors Eine detaillierte Beschreibung der Implementierung sieht folgenderma en aus 54 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN berechne max Skalarprodukt Skalarprodukt gt Aufmerksamkeit Ja nehme Vektor in Klassenmatrix auf passe Vektor in Klassenmatrix an Kontrastverst rkung Abbildung 5 5 bersicht Klasseneinteilung Zum ersten Schritt Das Skalarprodukt der Vektoren der Klassenmatrix mit dem Eingabevektor wird ermittelt und davon anschlie end das Maximum ge nommen Weil es sich hier immer um Einheitsvektoren handelt gilt folgende Formel Ty maxima f r alle Klassen j max v w cos f r alle Klassen j und allen Komponenten i max cos d ber allen Klassenvektoren j und dem Eingabevektor Das hei t dass wir den Cosinus der Winkel zwischen den Klassenvekto ren und dem Eingabevektor berechnen Je gr er der Cosinus
73. Prognosen bez glich des Verlaufs einer Aktie h chst spekulativ sind und niemand wirklich genau vorhersagen kann wie sich der Kurs ver ndert Schon kleinste Ger chte oder Firmeneklats sind in der Lage den Kurs drastisch zu ver ndern Von daher haben wir entschieden dass keine Aktie eine Sicherheit von mehr als mittel in Bezug auf die oberen Klassifizierungen besitzen kann und somit nehmen wir f r die Aktie nur noch die unteren vier Klassen welcher einer ge ringeren Sicherheit entsprechen Die 4 Klassen bestimmen sich zu e Sicherheit sehr gering e Sicherheit gering e Sicherheit gering mittel e Sicherheit mittel Die Fuzzy Mengen hierzu werden nun auch nicht mehr durch Trapeze ange geben sondern durch Dreiecke die wie folgt gesetzt werden e Sicherheit sehr gering m 0 a 0 8 22 6 3 ADAPTION VON FUZZY LOGIK AUF UNSER SYSTEM 99 e Sicherheit gering m 22 a 22 9 22 e Sicherheit gering mittel m 44 a 22 8 22 e Sicherheit mittel m 66 a 22 8 22 Man sieht hierbei dass durch diese Aufteilung sehr hohe Sicherheitswerte nicht mit abgedeckt werden nach 66 sinkt die Zugeh rigkeit f r mittel auch schnell ab was auch so beabsichtigt ist Marketperformer Zun chst Die zugeh rige Performerklasse eines Finanzproduktes wird NICHT in Fuzzy Logik umgesetzt sondern kann von den Ergebnissen aus Kapitel 4 schon direkt mit quasi Zugeh rigkeitswerten
74. Sonstiges Linux Einf hrung durch Wolfgang Heuscher e Proxy FBI WWW cs uni dortmund de Port 3128 e Links in Taskleiste kreieren Taskleiste Spezialknopf Nicht KDE Pro gramm und dort den Link eintragen 153 13 1 SITZUNGSPROTOKOLLE Datenschutz Fragebogen Kundenproflekgruppen Pr ferenzen Kunden Portfolio Watchlist Entscheidung Textmining wrapping Lernen N Historische Daten D f verarbeitung Neuronale Netze Training pe Guess amp verify wissen Revision j Bewertung Bewertung von Kundenentscheidungen out lt S market Performance Nr nahe under Darstellung von Wissen DB Auswahl f Webauftritt ee Information Beschaffung Strukturierung Bewertung Zeitung online m Adhoc Quellen j d Le AA Newsfaeds Finanzplattform Analystenmeldung Auswahl treffen e D Rendite Finanzprodukte D e D l Kategorie Verf gbarkeit Je Risiko Volativit t Mindmap jpg Abbildung 13 2 FIPs Mindmap 154 KAPITEL 13 ANHANG TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 155 21 04 2005 Abwesend Jana krank Versp tet Rene 5 min Stefan 10 min Ahmet 55 min Sitzungsleitung Rene Goebels Protokollf hrung Christian Friem Tagesordnung 1 Begr ung 2 Formalia 3 Festlegung m glicher Arbeitsgruppen 4 Vortrag Projektmanagement 5 Sonsti
75. Synonym gruppenvektor entfernt 5 Die Laufzeit und Ressourcennutzung ist f r das Programm nicht effektiv da f r jedes Neuron eine Matrix der Gr e des W rterbuchs zum Quadrat erstellt und trainiert werden muss 5 5 7 ML FF Netze Dieser Abschnitt beschreibt die M glichkeiten der Klassifikation von Finanz nachrichten durch mehrschichtige vorw rtsgerichtete k nstliche Neuronale Net ze Der Kurzbeschreibung folgt das grobe Konzept die Implementierung und schlie lich die Ergebnisse der verschiedenen Testl ufe Kurzbeschreibung Approximation der Ver nderung des Kursverh ltnisses einer Aktie zum DAX bei gegebenen Finanznachrichten durch das berwachte Lernverfahren eines Multi layer Feedforward Netzes Konzept Im Prinzip suchen wir eine M glichkeit eine Aktie in die Klassen Markt Out oder Underperformer einzuteilen Das einzige objektive Kriterium zu welcher dieser Klassen die Aktie letztendlich geh rt ist der Kursverlauf im Vergleich zum Marktdurchschnitt Eine Outperformanz beispielsweise kann also nur statt gefunden haben wenn sich der Kurs im Verh ltnis zum Marktdurchschnitt bes ser entwickelt hat 76 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN Gehen wir jetzt erst einmal davon aus dass wir als einzige Informationsquelle die Finanznachrichten nutzen m chten Das hei t wir m ssen eine Verbindung zwischen einer Nachricht die zu einer bestimmten Zeit herausgekommen ist und der darauf folgenden
76. Text f r das aktuelle Konzept Outperformer akzeptieren oder nicht akzeptieren soll Implementierung Das von uns verwendete Verfahren zum Training des Systems ist das Ver sionenraumverfahren welches sich anbietet da es in zwei Richtungen lernt speziellste und allgemeinste Hypothesen Die Beispiele Nachrichtentexte werden in einer Textdatei gespeichert ge trennt von einem Trennwort und mit Angabe ob das Beispiel akzeptiert werden soll oder nicht 1 oder 0 Das Lernverfahren liest nun jedes der vorliegenden Beispiele mit unserer Bewertung ein und trainiert somit seine Entscheidungsfin dung passt die speziellsten und allgemeinsten Hypothesen an Nach dem Trai ning mit den vorliegenden Beispielen ist das Konzept gelernt und wir k nnen pr fen ob das System nun weitere Beispiele Nachrichtentexte genau wie wir als Outperformer best tigen w rde oder ob die Ergebnisse des Systems unsinnig sind Anwendbarkeit Fazit Testen des Lern Systems Konzeptlernen 5 5 METHODEN IM DETAIL 63 Zun chst Was k nnte die Leistung des Konzeptlernens beeinflussen Folgende Parameter k nnten die Leistung beeintr chtigen e W rterbuchgr e zu gro zu klein e Zu wenig Trainings Beispiele zu wenig positive Beispiele zu wenig negative Beispiele System hat nicht genug Wissen um nachfolgende Beispiele vern nftig zu klassifizieren e Falsche Bewertung best tigt Outperformer positives Beispiel oder ni
77. Unternehmens ge langt werden die Einsch tzungen aus den Fundamentaldaten und aus dem Easy IR noch verschmolzen Dabei gewichtet das Programm die Easy IR Einsch tzung umso st rker je mehr Bewertungen f r Nachrichten es zu diesem Unternehmen von Kunden mit positiven Kundenstatus gibt Dabei betr gt der maximale An teil den die Easy IR Einsch tzung an der endg ltigen Einsch tzung haben kann 75 Prozent Die genaue Formel f r den Anteil den die Easy IR Einsch tzung an der letztendlichen Einsch tzung hat lautet Anteil von Easy IR min Anzahl der Bewertungen 5 2 75 in Prozent Diese Gewichtung wird nun wie folgt verwendet um heraus zu finden ob das Unternehmen ein Under Market oder Outperformer ist Gesamteinsch tzung Fundamentalzahleneinsch tzung 1 gewicht Easy IR Einsch tzungx gewicht 106KAPITEL 7 ENTSCHEIDUNGSFINDUNG ERWEITERUNG EINBEZIEHUNG VON NEWS Wenn die Gesamteinsch tzung kleiner als 0 66 ist so wird das Unterneh men als Underperformer klassifiziert ist der Wert zwischen 0 66 und 1 33 so wird das Unternehmen als Marketperformer klassifiziert ansonsten ist es ein Outperformer Kapitel 8 Beschaffung ben tigter Daten 8 1 Fundamentale Kennzahlen durch HTML Wrapper 8 1 1 Beschreibung Kennzahlen Im Kapitel ber die Klassifikation von Finanzprodukten werden die fundamen talen Kennzahlen KGV PEG DIV KCV KBV MU CM EBIT EBITDA und EKR f r das betrachtete Unternehmen
78. Verf gbarkeit auf einen festen Wert die Verf gbarkeit ist f r alle Aktien gleich kurzfristig verf gbar und berechnen anschlie end die Rendite anhand der Gesetzm igkeiten des magischen Dreiecks Aufgrund der Berechnungen des Kundenvektors welcher f r jedes Attribut eine Zahl zwischen 0 und 100 darstellt macht es keinen Sinn eine feste Grenze zu ziehen ab welcher ein Kunde einem bestimmten Bereich zugeordnet wird Es k nnte sein dass er nur einen Punkt neben der Grenze liegt die zum n chsten Bereich geh ren w rde Diese scharfe Einteilung w rde demnach keinen Sinn ergeben da ein Kunde in solchen berschneidenden F llen eher mehreren Klas sen zugeordnet werden sollte und das mit unterschiedlicher Zugeh rigkeit An diesem Punkt kommt die Fuzzy Logik ins Spiel welche eine unscharfe Lo gik darstellt und genau jenes leistet Ein Kunde kann mehreren Sicherheits Verf gbarkeits und Rendite Klassen angeh ren und das mit unterschiedlicher Zugeh rigkeit Gleiches gilt f r die Finanzprodukte Ein Finanzprodukt kann mehreren Sicherheits und Marketperformer Klassen angeh ren und das mit unterschiedlicher Zu geh rigkeit Die Verf gbarkeit allerdings ist f r ein Finanzprodukt zumindest f r unser Projekt wir betrachten nur Aktien immer gleich und kann somit durch eine scharfe Grenze oder einen scharfen Wert eingestellt werden Die Entscheidung hat nun die Aufgabe den Kunden und das Finanzprodukt mittels Fuzzy L
79. achrichten in negative positive oder neutrale Nachrichten sein die dann einen Hinweis auf die Entwicklung des Kursverlaufs geben k nnte also eine Klassifikation der Aktie in under market oder out performer erm glicht Noch einmal zusammengefasst e Lemmatisierung bzw Stemming e Normierung durch Thesaurus Erstellung des Eingabevektors f r die einzelnen Methoden Anwendung einer der unten ausgef hrten Methoden Automatische Bewertung des Ergebnisses bzw Einteilung der Aktie zu einer Klasse 42 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN 5 4 Allgemeine Methoden 5 4 1 Stemming Mit Grundform bzw Normalformreduktion bezeichnet man eine Gruppe von Verfahren mit denen morphologische Varianten eines Wortes auf den Wort stamm zur ckgef hrt werden Stemming ist dabei eine recht einfache Form der Wortnormalisierung Diese Methode zielt auf das Problem der Bearbeitung von unstrukturierten Texten durch einen Rechner der nat rlich keine morphologischen Regeln innerhalb ei ner Sprache ohne weiteres anwenden kann Das hei t er kann ein flexiertes Wort nicht einfach in seine Grundform bringen Genau dazu wird ein Stemmer ben tigt In Pai96 wird Stemming folgenderma en beschrieben Ein Stemmer sollte die und nur genau die Wortpaare zusammen fassen die sematisch quivalent sind und den gleichen Wortstamm teilen So sollte also W rter zu Wort Spiele zu Spiel etc ver ndert wer d
80. an ausgew hlte W rter zu Syn onymklassen zusammen fassen oder ihnen Antonyme zuweisen 8 4 2 Ausgabe Das fertige W rterbuch wurde als Relation mit Synonymen in der Datenbank Tabelle Woerterbuch gespeichert Hier ein Auszug aus den insgesamt 361 gestemmten Begriffen in der Datenbanktabelle gewinn mit synonym profit vereinbar b rsenaufsicht notier besch ftigt mitarbeit gesenkt konom minus verkauf erlos gesellschaft kapitalerhoh kapital steig mit Synonym zugelegt in vestition zertifikat mitglied spekulativ teilt jahresabschluss festgestellt rucklag aufsichtsrat reduziert information vorwurf schad zinszahl 8 5 Testdaten Da in der FIPs Datenbank alle m glichen Nachrichten zu allen m glichen Un ternehmen stehen die selbt nach dem sogenannten Spam Filter so nicht f r Testzwecke zu gebrauchen sind wird eine Methode gebraucht um geeignete Testnachrichten zu erhalten Diese wird in folgendem Abschnitt beschrieben F r eine bessere Kontrolle der Daten w re es gut diese von Hand einzuge ben und zu bearbeiten Da aber f r die meisten der getesteten Verfahren eine gro e Menge solche Nachrichten verf gbar sein mu und diese ein realistisches 118 KAPITEL 8 BESCHAFFUNG BEN TIGTER DATEN Bild der Nachrichtenlage widerspiegeln sollen wird auf eine automatische Vor filterung und Vorverarbeitung der Nachrichten der FIP Datenbank gesetzt Weiter werden f r berwachte Verfahren bereits klassifizierte Daten ben tigt daher is
81. and vieler bewerteter Nachrichten systema tisch herauszufiltern was die Kriterien f r die G te der Nachrichten sind Aus diesen Gr nden ergibt sich die Notwendigkeit einen an unser Problem angepassten augereiften Entscheidungsbaum Algorithmus zu verwenden Nach einer Recherche stellte sich der als Teil des Systems WEKA implementierte ID3 Entscheidungsbaum Algorithmus als geeignet heraus WEKA steht f r Waikato 5 5 METHODEN IM DETAIL 59 Vom System bewertet von uns bewertet Abweichung Nachricht Nr 21 wird vom System folgendermassen be w rtet ur a Nachricht Nr 22 wird vom System folgendermassen bewertet _joo H Nachricht Nr 23 wird vom System folgendermassen bewet ooo kb Nachricht Nr 24 wird vom System folgendermassen bbwert ooo trt o Nachricht Nr 25 wird vom System folgendermassen bew rtet ooo Nachricht Nr 26 wird vom System folgendermassen bewertet r Nachricht Nr 27 wird vom System folgendermassen bewert Jooo Nachricht Nr 28 wird vom System folgendermassen bewertet IIe o Nachricht Nr 29 wird vom System folgendermassen bewertet r Nachricht Nr 30 wird vom System folgendermassen bewertet IIe o Nachricht Nr 31 wird vom System folgendermassen bewertet r Nachricht Nr 32 wird vom System folgendermassen bewsrtst bo o Z Nachricht Nr 33 wird vom System folgendermassen bewertet Nachr
82. ass sp ter wieder allzuviel ge ndert werden muss e Dokumentationen sollen im Egroupware System im Ordner Dokumentati on gespeichert werden e Madan und Stefan sind noch mit dem Fundamentaldatenwrapper besch ftigt Seitenstruktur der Webpage steht Teilgruppe lernt noch HTML 192 KAPITEL 13 ANHANG e Corpora Speicherung in der Datenbank wurde von Christoph verbessert e Aktienempfehlungen die ber das Ranking hinausgehen bleiben weiterhin eine optionale Funktionalit t des Programms Zeitplan Jede Teilgruppe aktualisiert die Dauer und den Bearbeitungsstatus seiner Task im Egroupware System Klassendiagramm I Ahmet und Bertram erstellen ein Klassendiagramm f r FIPs welches als Dis kussionsgrundlage dient Sonstiges I PG Treffen bleiben weiterhin dienstags und donnerstags um 8 15 jedoch wird bei Nichtbedarf auch mal ein Termin ausfallen TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 193 Sitzungsprotokoll vom 3 Januar 2006 Abwesend Mehmet entschuldigt Versp tet Christian Ahmet Stefan Niels 5 Min Markus 10 Min Sitzungsleitung Rene Goebels Protokollf hrung Jana Ehlers Tagesordnung 1 Begr ung 2 Formalia Zwischenergebnisse der Kleingruppen Zeitplan Klassendiagramm Sonstiges N OS a A Go TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird
83. ationen erweitern und diese erweiterten Fuzzy Mengen dann in die Kombina tionsfunktion einsetzen Somit sind die M glichkeiten fast unbegrenzt Kombinieren von 2 Dimensionen 6 2 FUZZY LOGIK EINF HRUNG 91 Fuzzy Und gamma ist definiert zu 1 z u ualz uB y yxmin ua z uB y 5 0 7 ua x uB y f r y 0 1 Als gamma Wert wird 0 5 gew hlt dieser scheint sich am besten zu eignen nach Betrachtung der Diagramme dieser Funktion also una un 3 min uala uet e male Asia Beispiel A Sicherheit ist mittel B Verf gbarkeit ist kurzfristig x Si cherheitswert des Kunden y Verf gbarkeitswert des Kunden u ual x uB y Zugeh rigkeitswert des Kunden zu der Klasse bei der Sicherheit mittel ist und Verf gbarkeit kurzfristig Kombinieren von 3 Dimensionen Da Fuzzy Und nicht assoziativ ist kann das Assoziativgesetz nicht ein gesetzt werden und somit die Funktion f r 2 Dimensionen nicht angewendet werden F r 3 Dimensionen wird die Funktion von uns neu definiert so dass sie nun kommutativ ist Dina ugly Hetz Yrmin ualz uB y no z 1 3x 1 7 x ua z usB y uc z y 0 1 Als gamma Wert wird wiederum 0 5 gew hlt also uualz ugly Gelz 0 5xmin ua x uB y po 2 1 6 ua z uB y no 2 Beispiele Die Fuzzy Operationen k nnen auch in einer anderen Darstellungsart angezeigt werden In einem Quadrat werden auf einer Skala von 0 bis 1 0 auf zwei Ach
84. bank m glich Christoph berichtet ber den Fortschritt im Extraktionsbereich Es wurde ein vern nftiges W rterbuch erstellt kleiner handlicher Der PartOfSpeech Tagger ist integriert worden 186 KAPITEL 13 ANHANG Zeitplan Ziele zum Ende der PG 1 Dem Benutzer einen berblick ber die Nachrichten geben e vorsortiert Suchw rtern e Ranking 2 Entscheidungs Bewertungskomponente f r Finanznachrichten e vom System e durch den Benutzer Fundamentale Bewertungskomponente vom System optional andere Finanzprodukte ausser Aktie Web Interface Benutzerf hrung Dokumentation N DM ao A Q Test Aufgaben zu 1 e Information Retrieval e Kategorisierung f r die Vorsortierung Schema Cluster e Ranking bzgl Schema zu 2 e Auf Methoden zur Bewertung Kategorisierung festlegen auch negative Ergebnisse dokumentieren e Bewertungsfunktion festlegen f r die Benutzer Bewertung e Transparent machen der Methoden zu 3 e Automatische Aktualisierung der Fundamentaldaten und Durchschnitts berechnung e Fundamentaldaten in die Datenbank schreiben zu 5 e Darstellungsoptionen 13 1 SITZUNGSPROTOKOLLE 187 Brachensortiert Hinweis auf andere Finanzprodukte e Darstellung Sicherheit der Entscheidung Bewertung angeben Sicherheit des Rankings angeben e optional Firmenportrait e intuitive Benutzerf hrung e Kombination von Fundamentaldaten und Extraktion von
85. ben sich folgende m gliche Formate die bei der Extraktion von Nachrichten aus dem Internet zu beachten sind 8 2 FINANZNACHRICHTEN DURCH RSS WRAPPER 109 Format Kurzbeschreibung RSS XML Format zum Austausch von Nachrichten strukturiert XBRL XML Format zum Austausch von Gesch ftsberichten strukturiert RDF XML Format zum Austausch von Nachrichten strukutiert HTML Webseiten unstrukturiert PDF DOC PS Dokumentenformat unstrukturiert Hinsichtlich des Inhalts unterscheiden sich Nachrichten in e Unternehmensberichte e Marktberichte e Adhoc Meldungen e Analysen e Empfehlungen e Allgemeine Nachrichten aus Magazinen Online Magazinen Evaluierung der Inhalte der Nachrichten zeigt dabei folgende Probleme Unstrukturierte HTML Nachrichten Nachrichten im HTML Format liegen in einem unstrukturierten Format vor d h jede Webseite zeigt die Nachrichten anders an mal mittig in der Web seite oder von Werbebanner durchzogen oder als Block mit anderen Nachrich ten Das hei t die Trennung zwischen dem Text der Nachricht die aus einer Webseite herausgefiltert werden soll und dem Rest des Textes der Webseite wie Werbung weitere Nachrichten oder Navigationstexte ist nie eindeutig Die Strukturelemente von HTML geben dabei auch keine semantischen Hinweise F r einen Nachrichten Wrapper liegt nun die Schwierigkeit darin entweder f r m glichst viele Nachrichtenwebseiten deren Struktur wo steht jetzt die Nach richt zu ken
86. bewerten Eingabe Sollausgabe Istausgabe Zu testende Funktion Empfehlungen berechnen Eingabe Sollausgabe Es wird eine Empfehlungsseite ber die empfohlenen Aktien angezeigt auf Grundlage der Fragebogende tails und des aktuellen Portfolios Istausgabe Es wird eine Empfehlungsseite ber die empfohlenen Aktien angezeigt auf Grundlage der Fragebogende tails und des aktuellen Portfolios 130 KAPITEL 10 TESTS Kapitel 11 Arbeiten mit dem System 11 1 Das Finanz Informations Portal FIPs ist ein webbasiertes Informationsportal mit welchem sich der User Fi nanznachrichten anschauen und diese bewerten kann Er bekommt aufgrund der Bewertung aller User Empfehlungen zu allen Aktien des Dax Zudem kann der User sich speziell nur Nachrichten zu den Aktien aus seinem Portfolio anzeigen lassen bzw Nachrichten zu den f r ihn interessante Unternehmen 131 132 KAPITEL 11 ARBEITEN MIT DEM SYSTEM 11 2 M glichkeiten f r den Benutzer und Typi sche Abl ufe Zum Programm gelangt man ber die Webseite http pg473 cs uni dortmund de 8080 fips Wenn man noch keinen Useraccount besitzt kann man sich neu anmelden Dies geschieht ber den Link auf der Startseite Dann melden Sie sich hier an ber diese Seite kann sich ein bereits registrierter User auch mit seiner Kundennummer und seinem Passwort einloggen Ku Geben Sie bitte Ihre Kundennummer und Ihr Passwort ein
87. brigbleiben die potentiell auch Text enthalten k nnen siehe Abbildung 8 3 Im vierten Schritt werden f r jeden Zweig jedes Element des DOM Baumes die folgenden Kennzeichen ermittelt Die Kennzeichen werden im f nften Schritt dazu verwendet um anhand der in der Konfigurationsdatei festgelegten Regeln zu bestimmten ob in einem HTML Element die relevante oder Teile der rele vanten Nachricht steht siehe Abbildung 8 4 Im f nften Schritt wird aufgrund der folgenden Regelbasis ein Zweig Ele ment als relevant f r eine Nachricht angesehen oder auch nicht siehe Abbildung 8 5 1 Wenn mindestens der Text eines Elementes mit Min TitleEqualsPercent mit dem Titel der Nachricht aus dem RSS Feed bereinstimmt Diese Re gel sorgt daf r dass mit gro er Wahrscheinlichkeit der Anfang der Nach richt gefunden wird 2 Wenn der Text eines Elementes mindestens Min TextEquals Wort berein stimmungen mit der Beschreibung der Nachricht aus dem RSS Feed hat 3 Wenn der Text eines Elementes mindestens aus MinTextWords W rtern 114 KAPITEL 8 BESCHAFFUNG BEN TIGTER DATEN Nachricht extrahieren Aufgrund der Regelbasis Zweige als berschriften und Texte mit kennzeichnenden Nummern versehen Zweige mit kennzeichnenden Nummern extrahieren Als Nachrichten interprtieren und in die Liste eintragen Quelle und Datum mit abspeichern Abbildung 8 5 RSS Regelbasis anwenden Weitere NewsFeedURLs vorhanden
88. bute gefunden werden die dann jede Nachricht der Klasse aufweisen muss Das wird wahrschein lich nur anhand einer semantischen Analyse der Texte funktionieren Dazu haben wir bisher keine Ergebnisse 3 Problem F r jedes Konzept m ssen positive und negative Beispiele vor handen sein die wir von Hand klassifizieren Da wir nicht entscheiden k nnen welches Attribut den Ausschlag gibt ist das nicht m glich Zwischen Fazit Das Konzeptlernen eignet sich nach dieser Voranalyse kaum zur Textklassifi zierung Hauptgrund sind uns fehlende Erkenntnisse ber semantische Abh ngigkeiten in den Texten mittels denen die Attribute geeignet gruppiert werden k nnten um die volle M chtigkeit des Konzeplernens auszusch pfen Weiterhin muss f r jedes zu erlernende Konzept eine Menge an Beipielen zum Training des Lern systems von Hand bewertet werden was allerdings auch Chancen bietet dass das System die Semantik u U selbst lernen kann wenn dieses von unseren Vor gaben lernt Abstraktion Implementierungsansatz Damit das Konzeptlernen berhaupt mit der uns zugrundeliegenden Aufga benstellung der Textklassifizierung ohne explizite Semantikanalyse demnach nur mit Wissen ber Syntax und syntaktische Abh ngigkeiten einigerma en sinnvoll lauff hig gemacht werden kann m ssen die vorher genannten Eigen schaften und Eingaben des Lernverfahrens geeignet abstrahiert werden e Zun chst wird mit sehr wenige
89. chitektur von dem Zusammenspiel der Komponenten z B Wrapper DB Benut zerInterfaces Logik im Gesamtsystem Newsberechnung wird erst einmal so implementiert dass der Nutzer des Systems eine News bewerten Re levanz Tendenz soll Easy IR News Bewertung vom System schwierig aber wird versucht 13 1 SITZUNGSPROTOKOLLE 189 e Beide Gruppen stellten deren noch zu erledigenden Aufgaben vor und zeigten Ans tze von einem Zeitplan e Zeitplan wird am Montag in einem Treff der Kleingruppen fertig gestellt und am Dienstag pr sentiert Gedanken dar ber was am 27 10 pr sentiert wird e Montag wird eine Prototyp Pr sentation erstellt die dann ebenfalls am Dienstag vorgestellt wird dabei wird dann auch der berblick des Ge samtsystemes beider Gruppen zusammengestellt Sonstiges e Schrank im PG Pool wird wieder aufgef llt e Radio wird von Rene wieder mitgebracht TOPS n chste Sitzung siehe n chste Sitzung 190 KAPITEL 13 ANHANG Sitzungsprotokoll vom 27 10 2005 Abwesend Jana krank Versp tet Markus 15 min Christoph 30 min Sitzungsleitung Bertram B deker Protokollf hrung Christian Friem Tagesordnung 1 Begr ung N Formalia 3 Pr sentation 4 Vorstellung des Zeitplans mit Aufgabenverteilung 5 TOPs n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Datenba
90. cht Der Systemkern d h die Kernfunktionalit t ohne die Verwaltung der Kunden besteht im Wesentlichen aus den Anwendungsf llen der drei Akteure Admin KI und Robot s Abb 1 1 Abb 1 2 Der Administrator nimmt die wesentlichen Einstellungen am System vor der Robot ist daf r zust ndig aus verschiedenen Quellen zum einen Daten ber die Finanzprodukte und zum anderen Finanznachrichten zu holen Diese Finanz nachrichten werden dann von der KI kategorisiert und bewertet Akteur Admin Das Anwendungsfalldiagramm des Administrators zeigt die wesentlichen Kon figurationsm glichkeiten des Systemkerns Der Admin verwaltet die Finanzpro dukte und legt damit fest welche Finanzprodukte dem System bekannt sein sollen Dazu kann er neue Finanzprodukte aufnehmen oder bestehende ndern oder l schen Finanzprodukte sind hier Aktien die jeweils einem Unternehmen zugeordnet sind Eine weitere Aufgabe des Administrators ist die Konfiguration des Robots Hier werden die verschiedenen Informationsquellen f r die Finanz produkte und Nachrichten festgelegt Weiter wird das Intervall bestimmt in dem der Robot die Quellen auf neue Daten berpr fen soll Schlie lich konfigu riert der Admin noch die KI Das bedeutet er legt die Kategorien fest in welche die KI die Nachrichten sp ter einordnet und gibt einen Satz von Entscheidungs regeln vor welche die KI zur Entscheidungsfindung benutzt 12 KAPITEL 1 EINLEITUNG lachrichtenkategorien festlegen
91. cht da wir selbst die Bewertung dem System mitteilen versuchen wir Fehler soweit wie m glich zu vermeiden und aussagekr ftige Trainingsbeispiele zu finden Somit w re dieser Punkt zu vernachl ssigen Wenn trotz Variation dieser Parameter das System keine sinnigen Klassifizie rungen machen kann dann m ssen wir davon ausgehen dass das Konzeptlernen leider keine geeignete Klassifikationsmethode zum Einteilen von Nachrichten texten darstellt Probelauf 1 sehr kleines W rterbuch Trainings Parameter W rterbuchgr e 126 Anzahl Beispiele insgesamt 20 davon positive 13 davon negative 7 Test Parameter Anzahl Beispiele insgesamt davon positive positiv richtig klassifizierte davon negative negativ richtig klassifizierte Auswertung 1 Das System konnte nicht getestet werden da bereits nach dem Ler nen des 10 Beispiels der Versionenraum inkonsistent geworden ist Eine L sungsm glichkeit f r dieses Problem ist ein gr eres W rterbuch s Auszug aus Laufergebnisse 64 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN fertig mit Lernen von Beispiel 9 Versionenraum sieht nun so aus 0 speziellste Hypothese lt gt 0 allgemeinste Hypothese lt gt Ist Versionenraum konsistent true Lerne grade das BSP 10 positiv lt gt Versionenraum vorher 0 speziellste Hypothese lt gt 0 allgemeinste Hypothese lt gt fertig mit L
92. d re ie 8l SI Abbildung 6 10 Darstellung der LV Sicherheit mit allen LTs 98KAPITEL 6 ENTSCHEIDUNGSFINDUNG GRUNDLAGE TECHN ANALYSE Verf gbarkeit Die LTs f r Verf gbarkeit werden scharf angegeben da die Verf gbarkeit vom Kunden angegeben wird und somit vorerst nicht vom Programm optimiert wird Das hei t insbesondere dass der LT kurzfristig alle Werte zwischen 0 und 33 auf 1 0 setzt alle anderen auf 0 0 Der LT mittelfristig setzt alle Werte von 34 bis 66 auf 1 0 alle anderen auf 0 0 und analog der LT langfristig nur dass dieser auf dem Bereich 67 bis 100 operiert 6 3 2 Finanzvektor Der Finanzvektor besteht nicht wie der Kundenvektor aus drei sondern nur noch aus zwei Bereichen Sicherheit und Marketperformer Die Verf gbarkeit wird hierbei nicht mit in das System integriert Das liegt dar an dass wir uns vornehmlich mit Aktien aus dem DAX besch ftigen wollten und somit die Verf gbarkeit f r alle diese Aktien nicht mit in das System integriert werden muss da die Verf gbarkeit f r alle Aktien gleich ist Die folgende Grobklassifizierung wird dann auf den Vektor bertragen so dass sp ter Bereiche Fuzzy Mengen zugeordnet werden k nnen Sicherheit Die Sicherheit des Finanzproduktes wird nicht mehr durch 7 sondern nur noch durch 4 Klassen beschrieben da wir wie gesagt nur Aktien betrachten Bei Aktien ist es aber so dass keine Aktie eine hohe Sicherheit aufweisen kann da alle
93. den andere Techniken angewandt wie zum Beispiel Finite State Transducer oder in Verbindung mit POS Taggern auch Entscheidungsb ume Von der PG wurde der TreeTagger der Universit t Stuttgart IfmS benutzt Wie der Name schon sagt basiert er auf Decision Trees Der TreeTagger ar beitet mit trigrams dass hei t er beachtet die Wortarten der letzten beiden und des aktuellen Wortes Die Wortart die die h chste Wahrscheinlichkeit hat welche in einem Blatt steht wird dann dem Wort zugewiesen F r eine genaue Beschreibung siehe Schb und Scha Der POS Tagger gibt als Ausgabe die Wortarten der W rter und deren Grund formen zur ck Ein kleines Beispiel w re Wort Wortart Lemma Der ART der die TreeTagger NN TreeTagger ist VAFIN sein leicht ADJD leicht zu PTKZU zu bedienen VVINF bedienen Tabelle 5 2 Beispiele f r eine TreeTagger Ausgabe 44 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN 5 4 3 Thesaurus Nachdem nun die Nachrichten lemmatisiert sind besteht der n chste logische Schritt der Verarbeitung darin Wortgruppen oder Wortpaare die zwar syntak tisch verschieden aber semantisch zusammenh ngend sind zu finden und zu sogenannten Synonymgruppen zusammenzufassen So geh ren also zwei oder mehr W rter zu einer Synonymgruppe wenn sie in einem bestimmten Kontext die gleiche Bedeutung haben Arbeitsintensiv w re eine manuelle Zusammenfassung von h ufig vorkommen den Begriffen innerhalb der Finanz
94. den einige Lehren aus dem Test des Algorithmus gezogen 5 5 METHODEN IM DETAIL 47 e Je kleiner das W rterbuch desto geringere Varianz d h desto h here Qualit t der Cluster e Je kleiner das W rterbuch desto geringer differenziert sind die Cluster aber auch e F r differenzierte Aussagen ist Stemming nicht so gut geeignet da es zu sehr den Sinn verf lscht siehe Kapitel 6 4 1 e Im Mittel ber zuf llige Clusterinitialisierungen bringen gezielte Cluster mitten bei der Initialisierung keine wirkliche Verbesserung Gr nde f r das schlechte Abschneiden sind e Ein schlechtes W rterbuch zu wenig Wissen e Ausrei er zerst ren Cluster e Struktur der Nachrichten Beispiel Finanzinvestoren interessiert der Gewinn nach Steuern nicht Interessant ist die gute Gewinnprognose ergeben beide den gleichen Merkmalsvektor 5 5 2 SVM e Ei a P Samples EI EI with positive 2 label e Samples k e with negative label amp e Abbildung 5 1 Beispiel einer optimal trennenden Hyperebene rote Kreise positive Instanzen gr ne Quadrate negative Instanzen 48 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN Vorstellung der Methode Eine Support Vektor Maschine ist ein berwachter Lernalgorithmus der ein bin res Klassifikationsproblem l sen kann Die Daten liegen dabei in einem Vek torraummodell vor d h jedes Beispiel wird durch einen Punkt im Vektorraum repr sentiert siehe
95. deutet hier dass der Inhalt des Textes f r ein Unter nehmen eher positiv oder negativ ist Diese Einteilung soll einen Hinweis auf den Aktienverlauf geben ob n mlich das Unternehmen under markt oder outperformer ist Wir haben ein gestemmtes W rterbuch auf Grundlage der Trainingstexte erstellt und uns W rterkombinationen berlegt die wenn sie zusammen in einem Text auftauchen auf einen positiven oder negativen Text schlie en lassen Je nachdem nach wie vielen W rtern in einem Text gesucht wird erh lt man f r eine positive Argumentationskette 1 2 oder 3 bei drei oder mehreren W rtern Punkte und f r eine negative Argumentations kette 1 2 oder 3 Punkte Ketten die aus mehreren W rtern bestehen werden also st rker gewichtet Am Ende wird die Summe der Punkte aller Argumenta tionsketten gebildet Ist die Summe negativ wird der Text als Negativer Text eingeteilt ist sie positiv als Positiver Text Wenn die Summe 0 ist wird der Text als Neutraler Text eingestuft Auch dann wenn berhaupt keine Argu mentationskette auf den Text zutrifft Auch die abgewandelte Version der Entscheidungsb ume ist nicht gut ein setzbar Das liegt in erster Linie wohl daran dass unser W rterbuch nicht vollst ndig ist und wir deshalb auch nicht ausreichend viele W rterkombinationen erstellen k nnen um die Texte vern nftig zu klassifizieren Zudem wird die Semantik des Textes nicht ber cksichtigt und bspw
96. e Vorbereitung also das Preprocessing der Texte f r die verschiedenen Klassifikationsmethoden Au er dem soll gezeigt werden wie diese Methoden untereinander und mit im Kapitel 5 5 vorgestellten Verfahren zusammenarbeiten Dabei soll es hier nicht um eine detaillierte Beschreibung gehen Diese folgt im n chsten Abschnitt 6 4 Wir beginnen mit dem noch vollkommen unbearbeiteten Text der in der Da tenbank durch den RSS Wrapper siehe Kapitel 8 2 abgespeichert worden ist Da es hier um Klassifikationsmethoden geht und es darauf ankommt hnlichen Texten die gleiche Klasse zuzuweisen sollten wir zun chst die in der Nachricht vorkommenden W rter stemmen oder lemmatisieren Denn bei diesen Verfahren z hlt die Anzahl des Vorkommens bestimmter W rter egal in welcher Deklina tion oder Konjugation Das hei t dass Aktie und Aktien zwar syntaktisch verschieden sind f r uns allerdings ein und dieselbe Bedeutung darstellen weil die Grundform der beiden Substantive dieselbe ist Vereinfacht gesagt wissen 5 3 ALLGEMEINES VERFAHREN SCHWIERIGKEITEN 41 wir dass dieser Text in irgendeiner Form von Aktien handelt und dieser Schluss ist schlie lich unabh ngig von der Beugung Nachdem die wichtigen W rter das hei t die W rter die in unserem W rterbuch stehen siehe Kapitel 9 4 so bearbeitet wurden k nnen wir den Text weiter durch einen Thesaurus normieren Per Definition ist ein Thesaurus bzw Wort netz ein kontrol
97. e multipliziert Dies wird f r alle positiven Zugeh rigkeitswerte der Finanz Sicherheits Fuzzy Menge aufaddiert Formel KS A K FP ur HFP Um nun die Rendite des Kunden bzw Marketperformer der Aktie einflie en lassen zu k nnen werden die Ergebnisse der Marketperformer Analyse vorbe arbeitet um zu bestimmen zu welcher Klasse out market under die Aktie denn wirklich geh rt Dazu Wenn die Differenz zwischen Out und Under Zugeh rigkeit lt 0 2 wird die Aktie als market eingesch tzt sonst wird die Aktie zu der Klasse mit maximalem Wert zugeordnet Das Ranking das auf Sicherheitswerten beruht wird nun noch anhand des Marketperformers gewich tet um auch die Rendite mit einzubeziehen Je nach Zugeh rigkeit des FP zur Marketperformer Einteilung wird die passende Zeile der folgenden Tabelle aus gerechnet und aufaddiert sehr gering gering gering mittel mittel mittel hoch hoch sehr hoch under 1 G HK 0 6 HK 0 3 HE on 0 HKm 0 HKmyn 0 t UK 0 HE bh market 1 us 1 pr L KK m 1 ur 9 6 UK 03 ug O HA out 1 UK 1 ir 1 BR 1 Br 1 UKn 1 uk 1 UK h Diese Einteilung bedeutet dass man den Zugeh rigkeitswert entsprechend 6 4 VERSCHMELZUNG VON FP UND KUNDE 101 des Performergrades gewichtet So wird die Zugeh rigkeit der jeweiligen Rendi teklasse des Kunden einfach bernommen falls die Aktie in die out Menge f llt Bei der ma
98. em Klasseneinteilungs und Trainingsphase Ende der Epoche erreicht Ja Anzahl Trainingsepochen erreicht Ja Abbildung 5 3 bersicht Implementierung des ART 2a Algorithmus 52 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN In der einmaligen Initialisierungsphase wird die Klassenmatrix in der die erlernten Klassen als Vektoren gespeichert sind initialisiert In unserer Implementierung ist die Matrix als eine verkettete Liste von Vek toren implementiert da es berfl ssig w re Vektoren abzuspeichern die aber keine Klassen sind wie es zum Beispiel bei einer Array Repr sentation der Fall ist Anschlie end folgt das Preprocessing Diesem Schritt werden folgende Daten bergeben e Eine Eingabematrix wiederum implementiert als verkettete Liste von Vek toren die die zu erlernenden klassifizierenden Vektoren enth lt e Die Parameter die die Klassifizierung direkt beeinflussen Aufmerksamkeit 0 lt p lt 1 Schwellenwert 0 lt 0 lt m Anzahl der Komponenten Lernparameter 0 lt n amp 1 e Ein Parameter a der die gew nschte Anzahl von Epochen festlegt Der letzte Parameter legt die Anzahl der Epochen fest also die Anzahl der Durchl ufe durch die Eingabematrix Ist die Anzahl der Epochen zum Beispiel sechs wird ein Vektor innerhalb der Eingabematrix sechs mal ausgew hlt die Matrix wird insgesamt sechsmal durchlaufen Das Preprocessing l sst sich dann folgenderma en darstellen
99. en Abmelden Externe Links Finanztreff OnVista Finanznachrichten Abbildung 11 12 Klassifizierung des Users ber Fragebogendetails ndern und Pers nliche Daten ndern kann man bei Bedarf diese Daten aktualisieren Die Externen Links f hren zu bekannten Finanzseiten im Internet Abmelden beendet die aktuelle Sitzung und man ge langt wieder auf die Startseite Dort f hrt der Impressum Link zu eben diesem mit einem Gruppenbild der Teilnehmer der PG 473 144 KAPITEL 11 ARBEITEN MIT DEM SYSTEM Kapitel 12 Endworte 12 1 Fazit Welche der Ziele haben wir nun erreicht die wir uns zu Beginn der PG gesteckt haben Und bei welchen haben wir Schwierigkeiten gehabt Wir haben nach unseren berlegungen eine Architektur f r FIPs entworfen und diese weitestgehend umgesetzt Der User kann sich eine Auswahl an Nach richten zu Unternehmen aus seinem Portfolio anzeigen lassen oder aber auch zu solchen Unternehmen die f r ihn interessant sind Bei den Entscheidungskom ponente hat es viele Schwierigkeiten gegeben die insbesondere auf fehlendes Finanzwissen und schwierige und daher fehlende Einbeziehung der Semantik zur ckzuf hren sind Daher arbeitet die Entscheidungskomponente nicht voll automatisch sondern wird durch den User durch eigene Abgabe von Relevanz der Texte f r ein Unternehmen und die Tendenz dieser Nachricht unterst tzt FIPs ist ber ein Webinterface f r den Anwender nutzbar und zudem v
100. en Durch Ausf hren der Aktion Empfehlung berechnen erh lt der User gem seinen Angaben eine Liste mit Empfehlungen f r den Kauf von Wertpapieren 1 2 PLICHTENHEFT 15 Abbildung 1 3 User Anwendungsfalldiagramm 16 KAPITEL 1 EINLEITUNG 1 3 Organisatorisches 1 3 1 Gruppentreffen Die Gruppentreffen finden zwei Mal w chentlich im Raum 205 in der Otto Hahn Stra e 16 statt Im ersten Semester treffen wir uns am Montag und Donnerstag und im zweiten Semester am Dienstag und Donnerstag jeweils von 8 15 Uhr 9 45 Uhr Die Sitzungsprotokolle befinden sich im Anhang 1 3 2 Tools Folgende Tools kommen bei der Umsetzung von FIPs zum Einsatz Betriebssysteme Debian Windows 2000 XP Programmiersprache Java 2 Runtime Environment Second Edition 1 4 2 Servlet JSP Container Apache Tomcat 5 0 Datenbank PostgreSQL 7 4 7 Softwarebibliothek GATE 3 0 RSS Reader RSS Owl 1 4 ZEITPLAN 17 1 4 Zeitplan Hier ist der zeitlich geplante Ablauf des ersten Semesters zu sehen Ii e a E a A A a d ma Ce kae be a Ead ad G mi Gd en Deeg eg DE eg Ska 1 M essen mn Is epe ege kee Ise ko Er u p EL EEE u Abbildung 1 4 Zeitplan f r das erste Semester 18 KAPITEL 1 EINLEITUNG F r das zweite Semester sieht der Zeitplan wie folgt aus 1 4 ZEITPLAN 19 Now 2005 d S RK RL Ei Laufen zu bringen Bewertungskomponente Implementierung Model Implementierung Ne
101. en e Die Extraktion aus News Gruppe besch ftigt sich weiterhin mit dem Ham mingabstand e Die Entscheidungsgruppe ist dabei die Branchendurchschnitte f r jede der zehn Kennzahlen zu berechnen Pflichtenheft In das Pflichtenheft wurde nun auch der Webauftritt aufgenommen und die Gruppe meint dass sie nun mit dem Pflichtenheft fertig ist Sie ist allerdings noch offen f r konstruktive Kritik 180 KAPITEL 13 ANHANG Grillen Das Grillen findet am Donnerstag den 30 6 05 um 17 30 Uhr bei Rene statt Eine Wegbeschreibung will Rene noch rumschicken Einkaufsliste f r das Grillen Fleisch und Vegetarisches zum Grillen Bier Getr nke Prof Reusch und Stefan wollen auch jeweils was spen dieren Kohle Besteck Salate Brot Kruterbutter Ketchup Sonstiges Es wurden 10 Euro eingesammelt Die Sitzung am Donnerstag wurde auf den Donnerstag Abend verlegt F r n chsten Montag soll jede Gruppe ein Res mee ziehen und sich wenn m glich einen Zeitplan f r das weitere Vorgehen berlegen der dann in eGroupware eingetragen werden soll TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 181 Sitzungsprotokoll vom 7 4 2005 Abwesend Bertram entschuldigt und Jana entschuldigt Versp tet Stefan Berlik 10 min Sitzungsleitung Markus Matz Protokollf hrung Niels Pothmann Tagesordnung 1 Begr ung 2 Formalia 3 Berichte der Kleingruppen Pflichtenheft Grillen Sonsti
102. en Methoden herausfinden k nnen 39 40 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN e dass eine Kongruenz zwischen Nachrichten und der Entwicklung der Aktie besteht und falls es eine gibt wollen wir e die Stimmungen die bestimmte Nachrichten wiedergeben in die Klassifi kation der Aktie mit einbringen Diese Ziele bedingen eine Einteilung der Nachrichten selbst Nur wenn wir sa gen k nnten dass sich eine Nachricht positiv eine andere negativ oder m glicherweise auch neutral auswirkt k nnen R ckschl sse auf Aktienentwicklungen am Markt gezogen werden Das Stichwort Einteilung von Texten in Kategorien evoziert sofort das Stich wort Klassifikationsmethoden des Text Mining bzw Klassifikationsmetho den berhaupt Beim Arbeiten mit den Texten lautete unsere Arbeitshypothe se e Eine hnlichkeit der Anzahl respektive H ufigkeit der vorkommenden W rter impliziert eine hnlichkeit der Semantik Diese Hypothese erkl rt die gew hlten Methoden die eine breite Palette an bekannten Klassifizierungsarten abdecken Sie reicht von einer einfachen Clus teranalyse la k means bis hin ber zu ber und un berwachten Lernmethoden aus dem Bereich des maschinellen Lernens wie zum Beispiel support vector machines oder ART 2a Netze Auf jede dieser Methoden wird unten noch einmal genau eingegangen 5 3 Allgemeines Verfahren Schwierigkeiten In diesem Unterabschnitt geht es haupts chlich um di
103. en Schon an diesem Beispiel sehen wir die Schwierigkeiten die in der deut schen Sprache auftreten W hrend es im Englischen recht wenige unregelm ige W rter gibt meist l sst sich ein Verb oder Substantiv im Plural einfach durch abschneiden der Endung s in den Infinitiv bringen gibt es in der deutschen Sprache zahlreiche unregelm ige W rter Als gr tes Problem ist allerdings anzusehen dass Substantive im Deutschen nach dem Geschlecht dekliniert werden was zur Folge hat dass kein zuverl ssiger oder weitgehend fehlerfreier Stemmer f r die deutsche Sprache programmiert werden kann ohne eine lexikalische Analyse durchzuf hren J rg Caumanns hat es dennoch versucht Sein GermanStemmer der in der Such maschine Lucene siehe auch Fou eingebaut ist wurde von der PG genutzt Der Algorithmus f hrt im wesentlichen zwei Schritte durch e Ersetze einzelne Buchstaben oder Buchstabengruppen im Wort e Schneide bestimmte Suffixe ab Die genaue Arbeitsweise des Algorithmus ist dem Paper Cau zu entnehmen Hier sollen nur einige Beispiel gegeben werden 5 4 ALLGEMEINE METHODEN 43 Eingabe Ausgabe singt sing singen sing st ren st Mauer Mau Ku Ku St rsender St Tabelle 5 1 Beispiele f r die GermanStemmer Ausgaben 5 4 2 Lemmatisierung Die Lemmatisierung hat das gleiche Ziel wie das Stemming Jedem Wort eines laufenden Textes soll seine Grundform oder das Lemma zugeordnet werden Allerdings wer
104. en B also Sicherheit ist sehr gering und gering logisches und max Operator F r zwei Fuzzy Sets A und B ist der Maximum Operator definiert zu Dell max u4 x uB 2 Anschaulich A Sicherheit sehr gering B Sicherheit gering gt C Sicherheit ist in A vereinigt B also Sicherheit ist sehr gering oder gering logisches oder 90KAPITEL 6 ENTSCHEIDUNGSFINDUNG GRUNDLAGE TECHN ANALYSE und gamma Operator In diesem Unterkapitel geht es um komplexe Kombinationen von Rendite Si cherheit und Verf gbarkeit 2 3 Dimensionen Der Sinn dabei diese und gamma Funktion zu verwenden liegt darin be gr ndet dass man sp ter bei der Kombination von Kunde und Finanzprodukt Ranking feststellen m chte in welche Kundenklasse ein Kunde f llt und mit welcher Zugeh rigkeit Da ein Kunde aus einem Vektor mit 3 Komponenten besteht Sicherheitswert Verf gbarkeitswert Renditewert m ssen diese 3 Komponenten welche durch Fuzzy Logik umgesetzt werden geeignet mit einer Fuzzy Funktion aggregiert werden um die Zugeh rigkeit eines Kunden zu einem Tupel aus Sicherheit Verf gbarkeit Rendite bestimmen zu k nnen F r jedes m gliche Tupel wird dann eine Zugeh rigkeit durch die und gamma Funktion angegeben und wir k nnen bestimmen welche Tupel diejenigen mit maximaler Zugeh rigkeit sind Diese sind dann dazu geeignet den Kunden bestm glich zu repr sentieren Genereller Unterschied Die Funktione
105. en ein Kunde bei der Registrierung im System den Frage bogen ausf llt erschlie bar sind Diese Daten k nnen vom Kunden w hrend der Nutzung des Systems ver ndert werden dementsprechend ver ndert sich nat rlich auch das Kundenprofil das sich aus den Attributen sicherheit ver fuegbarkeit und rendite der Tabelle Kunde zusammensetzt Die Tabelle Portfolio stellt eine Beziehung zwischen Kunde und Aktie dar und beinhaltet f r einen Kunden Referenzen auf alle Aktien die in seinem ak tuellen Portfolio sind Die Tabellen Empfehlung und Empfehlungsposition beinhalten alle wichtigen Informationen zu einem Aktein Ranking das vom System dem Kunden darge boten wird Empfehlung z hlt alle Empfehlungen auf die f r einen Kunden gemacht wurden Dabei wird jede Empfehlung durch eine Empfehlungsnummer identifiziert und das Datum an dem die Empfehlung erstellt wurde mitgespei chert Aus der Tabelle Empfehlungspos kann dann f r jede Empfehlungsnummer entnommen werden welche Aktien in der Empfehlung enthalten sind und welche Position und welchen Rankingwert die einzelnen Aktien in der entsprechenden Empfehlung besitzen 9 2 Datenbank Klassen Die Datenbankklassen sind in zwei Pakete gegliedert common und dbcontroller Das Paket dbcontroller ist f r den Zugriff auf die Datenbank zust ndig und 124 KAPITEL 9 SPEICHERUNG DER DATEN IM SYSTEM das Paket common beinhaltet Klassen deren Objekete f r den Datenaustausch zwischen der Datenbank und den
106. en sollen im Bereich CI liegen Das Thema kann jeder selber aussuchen und es mit dem Betr uer besprechen TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 159 Sitzungsprotokoll vom 2 5 2005 Abwesend niemand Versptet niemand Sitzungsleitung Ahmet Protokollfhrung Markus Tagesordnung 1 Begrung 2 Formalia 3 Zwischenberichte der Kleingruppen 4 Grobe Zielvorgabe 5 Sonstiges 6 TOPS nchste Sitzung Begrung Die Sitzungsleitung begrt die Anwesenden Formalia Die Protokollfhrung wird festgelegt Das Protokoll vom 28 4 2005 wurde ange nommen Zwischenberichte der Kleingruppen Die Gruppe Finanzprodukte schlgt vor Informationen als Graphen zu speichern Die Gruppe Kunden berichtet dass sie sich mit der Verfeinerung des Bewer tungsschemas befasst und dabei die Einteilung der Finanzprodukte nicht in Ri sikoklassen sondern in Sicherheitsklassen braucht Die Gruppe Beschaffung gibt einen kurzen berblick ber ihre Arbeit und empfiehlt die Seite http www finanzprodukte de Grobe Zielvorgabe Martin schlgt zwei Vorgehensweisen zum Entwickeln unseres Programms vor 1 Ein gutes Modell des Systems erzeugen und dann auf dieser Basis anfangen zu programmieren 2 Button up einen Prototypen mit Grundfunktionen zu entwickeln und die sen dann nach und nach zu erweitern 160 KAPITEL 13 ANHANG Die Gruppe entscheidet sich fr den ersten Vorschlag Um einen Zeitplan aufstellen zu knnen werden d
107. er Unternehmen l uft muss noch mit DB verbunden werden Zeitplan 1 A und G wird erg nzt 1 B F ist fertig 2 A wird angepasst 2 B ist gestrichen 2 C ist fertig 3 A B wird erg nzt 4 A wird erg nzt einige Methoden 4 B und D fehlt noch 4 C kann angefangen werden wenn Website fertig ist 4 E G ist in Bearbeitung bis Donnerstag erledigen die Kleingruppen die notwendigen Erg nzungen ab Donnerstag wird das System dann zusammengebaut 13 1 SITZUNGSPROTOKOLLE 195 e parallel dazu beginnen wir uns in die Themen Klassifikationsm glichkeiten 6 B und Lernen 6 E einzuarbeiten Kleingruppen dazu SOMS neu ronale Netze Bertram Martin ART Netzte Christoph Madan Entschei dungsb ume Rene Ahmet Konzeptlernen Niels Christian Suche nach an deren Klassifikationsm glichkeiten Stefan Mehmet Lernm glichkeiten Ja na Markus Klassendiagramm Klassendiagramm und DB Tabellen wurden z T erg nzt und m ssen noch weiter erg nzt werden Die Klasse Fragebogen wird von Niels erg nzt Die Klasse Task Manager kann erst sp ter entstehen Sonstiges Keiner wei genau wof r das S in FIPs steht TOPS n chste Sitzung siehe n chste Sitzung 196 KAPITEL 13 ANHANG Sitzungsprotokoll vom 15 11 2005 Abwesend niemand Versp tet niemand Sitzungsleitung Christph H binger Protokollf hrung Ahmet Kara Tagesordnung 1 Begr ung 2 Formalia 3 Erste R ckmeldung von der Zusammenf gung der Sy
108. er das Verh ltnis ist desto g nstiger ist die Aktie bewertet KBV Der Buchwert einer Aktie entspricht dem Eigenkapital dividiert durch die Anzahl der Aktien und bezeichnet den bilanziellen Wert des Unterneh mensteils der dem Anleger in Form einer Aktie geh rt Das Kurs Buchwert Verh ltnis wird zur Beurteilung der Substanz eines Unternehmens verwendet Dazu wird der Kurs einer einzelnen Aktie in Relation zu ihrem Buchwert ge stellt Je niedriger das KBV desto preisw rdiger ist die Aktie MU Die Kennzahl Marktkapitalisierung pro Umsatz setzt die Marktkapi talisierung ins Verh ltnis zum Umsatz des Unternehmens im Gesch ftsjahr Bei der Berechnung wird die Marktkapitalisierung des vergangenen Gesch ftsjahres ins Verh ltnis zum Umsatz des letzten Gesch ftsjahres gesetzt Sie sagt aus wie hoch ein Euro Umsatz an der B rse bewertet wird Je h her diese Kennzahl ist desto h her wird das Unternehmen an der B rse bewertet Zum Beispiel sagt ein Wert von 0 50 aus da ein Euro Umsatz zur Zeit mit 50 Cents an der B rse bewertet wird Je niedriger diese Kennzahl ist desto g nstiger ist die Aktie bewertet CM Die Cash Flow Marge ist eine Kennzahl f r die operative Unternehmens rentabilit t Sie gibt an wie viel Prozent der Umsatzerl se dem Unternehmen zur Investitionsfinanzierung Schuldentilgung und Dividendenzahlung frei zur Verf gung stehen Sie ist Ma stab f r die Ertrags und Selbstfinanzierungskraft des Unternehmens
109. erden vom System bewertet und dann in die Bewertung der Aktie einfliessen Bei der automatischen Bewertung der Nachrichten durch unser Programm gibt es allerdings einige Schwierigkeiten vgl Kapitel 6 so dass wir uns f r eine an dere M glichkeit zur Bewertung der Nachrichten entschieden haben Es wurde das sogenannte Easy IR in das Programm eingebaut Dabei kann der Benutzer die Nachrichten bewerten und so entscheiden ob eine Nachricht f r das Unter nehmen erstens berhaupt relevant und zweitens ob sie positiv f r das Unter nehmen ist Diese Bewertungen werden dann in die Analyse des Unternehmens mit einbezogen so dass eine wesentlich bessere da aktuellere Einsch tzung des Unternehmens m glich ist 103 104KAPITEL 7 ENTSCHEIDUNGSFINDUNG ERWEITERUNG EINBEZIEHUNG VON NEWS 7 2 Lernen mithilfe des Basy IR Systems 7 2 1 Bewertungsabgabe eines Kunden Der Benutzer kann sich die in der Datenbank gespeicherten Nachrichten anzei gen lassen Entweder kann er sich die Nachrichten zu den Unternehmen die er in seinem Portfolio hat ansehen oder er kann in einer Liste von Nachrichten sich die entsprechenden aussuchen Sollte er sich die Nachrichten aus der Liste ansehen so kann er bei der Bewertung angeben f r welches Unternehmen er die Einsch tzung geben will ansonsten wird ihm dies durch das Programm vor gegeben Bei der Bewertung kann er sowohl die Relevanz als auch die G te der Nachricht f r das Unternehmen einstellen Dazu s
110. erheitsklasse der Aktie entspricht nun der Klasse f r die die jewei lige Fuzzyfunktion den gr ten Zugeh rigkeitswert bzgl des Sicherheitswertes 4 4 BERECHNUNG DER SICHERHEIT EINES FINANZPRODUKTES 37 0 d 1 2 Abbildung 4 3 Fuzzymengen f r die Sicherheitsklassen rot sehr gering dun kelblau gering gr n mittel gering hellblau mittel besitzt also Sicherheitsklasse Aktie argmazjesk fils mit SK mittel mittel gering gering sehr gering fi Fuzzymenge f r Sicherheitsklasse i Bestimmung des Sicherheitswertes F r jede Kennzahl erstellen wir 3 Fuz zymengen positiv negativ und neutral die angeben inwiefern sich diese Kenn zahl auf die Sicherheit auswirkt F r die Kennzahl DIV ist ein Wert ber 2 ein Hinweis auf hohe Sicherheit und ein Wert unter 1 spricht f r eine geringe Si cherheit Die einzelnen Fuzzymengen sind in Abbildung 4 4 definiert Nun wird f r jede Kennzahl die Klasse mit dem gr ten Zugeh rigkeitswert bestimmt Den Klassen sind bestimmte Werte zugeordnet So hat die Klasse positiv einen Wert von 2 neutral 1 und negativ 0 ber diese vier Kenn zahlen bestimmen wir nun die durchschnittliche Klasse bzgl dieser Werte Der Wert liegt also zwischen 0 und 2 Der Sicherheitswert ergibt sich nun durch die Multiplikation dieses Wertes mit dem Mittel der vier maximalen Zugeh rigkeits werte 38KAPITEL 4 KLASSIFIZIERUNG VON FINANZPRODUKTEN TECHN ANALYSE
111. ernen von Beispiel 10 Versionenraum sieht nun so aus 0 speziellste Hypothese lt gt Ist Versionenraum konsistent false Probelauf 2 sehr gro es W rterbuch Trainings Parameter W rterbuchgr e 13000 Anzahl Beispiele insgesamt 20 davon positive 13 davon negative 7 Test Parameter Anzahl Beispiele insgesamt davon positive positiv richtig klassifizierte davon negative negativ richtig klassifizierte Auswertung 2 Es traten immense Speicherprobleme out of memory exception bei W rterb chern mit mehr als 2500 W rtern auf was vor allem daran liegt dass nach der Implementierung eine Hypothese dann bereits auch 13000 Int Werte beinhaltet nicht anders zu l sen Wenn nun bei Anpassung des Versionenraumes auch mehrere Hypothesen an gelegt und verwaltet werden m ssen reicht der lokale Speicher nicht mehr aus um alle diese Daten aufzunehmen 5 5 METHODEN IM DETAIL 65 Probelauf 3 maximal m gliches W rterbuch Trainings Parameter W rterbuchgr e 2500 Anzahl Beispiele insgesamt 20 davon positive 13 davon negative 7 Test Parameter Anzahl Beispiele insgesamt davon positive positiv richtig klassifizierte davon negative negativ richtig klassifizierte Auswertung 3 Bei dieser W rterbuchgr e welche das maximal zu verarbeiten de Potential voll aussch pft wurde der Versionenraum auch wieder inkonsistent Auch bei Va
112. erst tzt Prinzipiell kann jedes Problem gelernt werden das sich durch einen Vektor codieren l sst Dieser Vektor wird einer Klasse zugeordnet die schon ge lernt worden ist oder es wird eine neue Klasse erstellt falls der Vektor bez glich eines hnlichkeitsma es zu verschieden von den bereits erlernten Vektoren ist Ein potentieller Vorteil der ART Netze ist dass sie das Stabilit ts Plastizit ts Dilemma l sen 5 5 METHODEN IM DETAIL 51 e Stabilit t bedeutet dass gelerntes nicht verlernt wird dass also neue Ein gabevektoren die erlernten Gewichte nicht zu stark ver ndern e Plastitiz t bedeutet dass das Netz seine Lernf higkeit beibeh lt ART Netze l sen das Dilemma weil sie in einer nicht station ren Welt leben W hrend bei anderen Netzen die Anzahl der Klassen schon vor dem Training festgelegt werden muss kann ein ART Netz beliebig viele neue Klassen hervor bringen Wir m ssen also nicht unbedingt in Trainings und Klassifikationsphase unterteilen in der nichts mehr gelernt wird Stattdessen wird wenn ein Einga bevektor nicht in eine schon vorhandene Klasse passt eine Neue erstellt Der ART 2a Algorithmus wurde verwendet da er gegen ber dem normalen ART 2 Algorithmus Geschwindigkeitsvorteile bringt dabei allerdings die Er gebnisse praktisch identisch sind wie die Entwickler zeigen konnten Es folgt eine Darstellung der Implementierung des ART 2a Algorithmus ze einmalige Initialisierungsphase in m
113. etze jetzt n her un tersucht werden un berwachtes Lernen leicht zu implementieren konvergiert 13 1 SITZUNGSPROTOKOLLE 199 schnell Chritoph erkl rt einen ART2a Algorithmus Parameterinitialisierung Initialisierung der Klassenmatrix Preprocessing Klassifizierung und Trainings phase Kleingruppe SVM Stefan stellt SVM vor berwachte Lernmethode zur L sung linear separier barer Kategorisierungsprobleme Definition von Hyperebenen Begr ndungen warum SVM gut zur Textklassifikation geeignet ist gute Generalisierung schnel le Verarbeitung von vielen Attributen Mehmet gibt Ausblicke und As tze wie auch nicht lineare Kategorisierungsprobleme mit SVM gel st werden k nnen Kleingruppe SOM Bertram definiert SOM und zeigt an einem Beispiel wie sich ein SOM organi siert Dabei gibt Stefan B Tips wie SOMs auch mit gro en Vektoren und einer festen Gitterstruktur arbeiten Bsp Klassifizierung von Audiosignalen Bertram gibt einen Ausblick zum Thema wie sich eine bewertete Nachricht zum DAX verh lt Er hat die Implementierung begonnen dass zu einer Nachricht die Ak tienkurse in drei Zeitintervallen nach 1 Tage 3 Tage und einer Woche aus dem Internet geladen werden und analysiert wird wie sich der Kurs verh lt und wie die Nachricht zur Aktie bewertet worden ist Bertram m chte die Implemen tierung bis zur n chsten Sitzung abgeschlossen haben Damit andere Gruppen schonmal mit den Ergebnissen arbeiten k nnen die Defi
114. f hren und somit die weiterf hrenden Links auf vollkommen unterschiedliche Webseiten verweisen Es gibt nun wie oben beschrieben zwei M glichkeiten f r die Implementierung des Wrappers Wrapper mit Wissen ber die Struktur jeder referenzierten Webseite oder Wrapper die anhand von Merk 8 2 FINANZNACHRICHTEN DURCH RSS WRAPPER 111 Konfiguration de Konfigurationsdatei laden lt NewsFeedsURL gt laden lt unwichteTagListe gt laden zum bereinigen der Webseite lt Regelbasis gt laden zum extrahieren der Nachrichten Abbildung 8 1 RSS Konfigurationsdatei lesen malen von Nachrichten diese aus Webseiten extrahiert ohne Wissen ber die Struktur der referenzierten Webseite F r FIPs wird die zweite M glichkeit implementiert Die Grundidee da bei ist die Kurzbeschreibung einer Nachricht im RSS Feed zu nutzen und die W rter dieser Kurzbeschreibung in der entsprechenden verlinkten Webseite zu suchen Eine Webseite kann in der Regeln als DOM Baum dargestellt wer den Da ein l ngerer zusammenh ngender Text oft innerhalb eines TD P DIV HTML Elements vorkommt kann der Wrapper den Zweig im Baum identifizie ren wo die meisten hnlichen W rter der Kurzbeschreibung vorkommen und diesen dann als Nachricht extrahieren Dieser Wrapper ist weitgehend web seitenunabh ngig Der Text wird dann bereinigt um vorhandene HTML Tags Image Links Anchor etc bold center und als Nachricht interpretiert 8 2 2 Konzept Der Funkt
115. folgende Inhalte ein Weiterentwicklung des Pre processing Neben Kaufvorschl gen soll das System auch Verkaufsvorschl ge an bieten Die Semantische Analyse der Textanalyse soll weiterentwickelt werden Sonstiges Die Sitzung am Dienstag den 24 01 f llt aus TOPS n chste Sitzung siehe n chste Sitzung Literaturverzeichnis Cau Fou IfmS Pai96 Scha Schb J rg Caumanns A fast and simple stemming algorithm for german words ftp ftp inf fu berlin de pub reports tr b 99 16 ps gz The Apache Software Foundation Lucene eine open source suchma schine HTTP lucene apache org Universit t Stuttgart Institut f r maschinelle Sprachverarbeitung Tree tagger ein sprachunabh ngiger wortart tagger HTTP www ims uni stuttgart de projekte corplex TreeTagger DecisionTreeTagger de html C D Paice Method for evaluation of stemming algorithms based on er ror counting Journal of the American Society for Information Science 47 8 pages 632 649 August 1996 Helmut Schmid Improvements in part of speech tagging with an application to german HTTP www ims uni stuttgart de ftp pub corpora tree tagger2 pdf Helmut Schmid Probabilistic part of speech tagging using decisi on trees HTTP www ims uni stuttgart de ftp pub corpora tree taggerl pdf 221
116. folgende Klassen zugeordnet e Wertpapier e Analyse Politik e B rse Dies ist nat rlich nur ein kleiner Auschnitt des Vektors der tats chlich be nutzt wurde Der originale Vektor hat 19 Komponenten Den einzelnen Komponenten werden dann durch das Preprocessing einzelne W rter zugewiesen Zum Beispiel f r die Kategorie B rse e B rse e DAX e MDAX 56 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN e Terminb rse e Wertpapiermarkt Das bedeutet dass das Wort Terminb rse oder Wertpapiermarkt die gleiche Bedeutung wie das Wort B rse hat da ihnen dieselbe Komponente zugewiesen ist Mit anderen Worten haben wir hier also nicht nur den Thesaurus benutzt sondern ihn gleich noch ein wenig erweitert indem wir dieser Komponente ja auch das Wort MDAX zugewiesen haben Aus unserer Sicht war dies sinnvoll da wir zun chst nur sehen wollten ob sich branchenbedingt sowieso schon hnliche Texte noch mit den klassischen einfachen Methoden der Textklassi fikation unterscheiden lassen Dann wollten wir einen Schritt weitergehen um zu sehen ob wir die Nachrichten tats chlich in die drei Kategorien einteilen k nnen Anwendbarkeit Fazit F r den eigentlichen Zweck ist diese Methode nicht zu gebrauchen Dies wurde schon bei der Konstruktion der Vektoren klar Denn ohne jegliche Anwendung von Semantik implementieren wir bezogen auf die Aufgabe ja nur eine recht schwierige Abz hlmethode
117. freundlichen Start bauen die deuts 21 Der Frankfurter Aktienmarkt hat sich am Donne 22 FRANKFURT Dow Jones Weiterhin etwas Test 23 Nach einem freundlichen Start zogen die deuts 24 Nach einem verhaltenen Wochenauftakt verhai 25 Marktanalyse DAX Infineon GPC Biotech und 26 Am Montag fehlen in Frankfurt die positiven Im 27 Der Dax hat seine Gewinne ausgebaut und ist 2 28 Gute US Konjunkturdaten und eine freundliche 29 Nach einem schw ticheren Auftakt startete d 30 Noch vor seinem r Januar angesetzten An lach schwachen Vorgaben der Wall Street un Abbildung 5 10 Self organizing map Programm 5 5 METHODEN IM DETAIL 71 Nachbarschaftsfunktion mit Radius 3 Abbildung 5 11 Self organizing map Nachbarschaftseinfluss an Das Gewinnerneuron f r eine zu klassifizierene Nachricht ist blau mar kiert und erh lt als Abstandskennzeichen eine 1 Der Button Train trainiert die SOM mit zwanzig zuf lligen Nachrichten aus der Nachrich tenliste Das Programm kann wie folgt parametrisiert werden e Neuronenanzahl in X und Y Richtung e Verwendetes W rterbuch e Lernrate e Nachbarschaftseinflussfunktion Die Nachbarschaftsfunktion ist als 2 dimensionale Normalverteilung reali siert mit Radius r siehe auch Abbildung 5 11 Dabei wird an den R ndern der Gitterstruktur der Nachbarschaftseinfluss abgeschnitten Randneuronen haben also keinen Einflu auf die gegen berliegenden Neuronen ze 5
118. g Zum Training benutzen wir die in einen Vektor kodierten Nachrichten als Einga be und die zu Klassen quantisierte Performanz im Vergleich zum Gesamtmarkt als Sollausgabe Damit sollte das Netz in der Lage sein hnlichkeiten in den Nachrichten sowohl syntaktischer als auch semantischer Art die zu einer glei chen Klassifizierung f hren zu lernen Die Details der Kodierung und Quanti sierung bedarf einer genaueren Untersuchung die sp ter folgt Die Wahl der Gr e des Netzes also die Anzahl der Neuronen der Eingabe der Ausgabe und der versteckten Schicht wird auch genauer untersucht Die Neuronenanzahl der Eingabeschicht entspricht immer der Gr e des Eingabe vektors die Neuronenanzahl der Ausgabeschicht sollte der Anzahl der Klassen entsprechen so dass jedes dieser Neuronen Repr sentant einer Klasse ist Dann wird einer neuen Nachricht mittels winner takes all Strategie die Klasse des am st rksten aktivierte Ausgabeneurons zugewiesen Denkbar w re aber auch die Klasseneinteilung fuzzy abzulesen d h die Zugeh rigkeit der Nachricht zu den einzelnen Klassen entspricht der normierten Ausgabe der jeweiligen Neuro nen F r die Wahl der Neuronenanzahl der versteckten Schicht bleibt zun chst nur Guess amp Verify Weitere Punkte die ber cksichtigt werden m ssen e Auswahl der Trainingsnachrichten e Vorverarbeitung der Nachrichten durch Lemmatisierung und Ersetzung von Unte
119. g 44 5AA Semantik 1 Ida aan Aalen dh ef 45 INHALTSVERZEICHNIS 5 5 Methoden im Detail 45 hl Clustering saa a 2 22 Ann nn ara A ie A 45 D2 ONM a ai r ar e ne al CE ARA 47 5 5 3 ARTD 2a nn e NN Eee 50 58 5 4 Entscheidungsb ume 57 5 5 5 Konzeptlernen 60 50 04 SOMS aan we a a E a e a E mag E A 66 5 39 10 ME EF Netze 2 aa a sau D a E a San ke 76 Entscheidungsfindung Grundlage techn Analyse 87 6 41 Einleitung 2 222 2 na ir ee EE A EE E A 87 6 2 Fuzzy Logik Einf hrung 2 2 Con onen 88 6 2 Motivation ala rear 588 engere 88 6 2 2 Operationen svs Kanne naar lesen nennt 89 6 2 3 B zzymengenmn u ana aa nenn 92 6 3 Adaption von Fuzzy Logik auf unser System 2 2 2 2 94 6 3 1 K ndenvekt r en 2 32 24 chem a wa 94 6 3 2 Finanzvektor v m cie oee yana nen 98 6 4 Verschmelzung von FP und Kunde 2 22 100 6 4 1 Grundlegende Ideen 2 2 2 2 nn nenn 100 DE Ranking 2 Hama a na en en 101 Entscheidungsfindung Erweiterung Einbeziehung von News 103 7 1 Einleitung a uee are tai ai E ia es 103 7 2 Lernen mithilfe des Basy IR Systems 104 7 2 1 Bewertungsabgabe eines Kunden 104 7 2 2 Bewertung des Kundenstatus 104 7 2 3 Berechnung der durchschnittlichen User Tendenz 105 7 2 4 Anpassung des Marketperformers einer Aktie 105 Beschaffung ben tigter Daten 107 8 1 Fundamentale Kennzahlen durch HTML Wrapper 107 8 1 1 Beschreibung Kennzahlen 2 2222
120. gen Nicht Spam Mails vorkommt f r Nicht Spam Mails analog Anwendung dieser Methode speziell f r unser System Problemstellung Die Finanznachrichten sollten mit Hilfe von SVM so klassifiziert werden dass man den Benutzern der Finanzinformationsplattform konkrete positive oder ne gative Nachrichten f r eine bestimmte Aktie zur ckgeben kann Problembehandlung F r die Klassifikation werde nichtklassifizierte Nachrichten von diversen News seiten im Internet in einer Datenbank gespeichert Von diesen Nachrichten wur den 200 manuell klassifiziert 2 Klassen positiv f r eine Aktie und ne gativ f r eine Aktie die dann als Eingabe benutzt werden Aus den klas sifizierten Texten erstellt das WordVectorTool 7 die Eingabevektoren im n dimensionalen Vektorraum wobei n der Gr sse des benutzten W rterbuches entspricht n 13000 Des weiteren sind die Features mit dem TFIDF Ma term frequency inverse document frequency gewichtet Mit Hilfe einer fertigen Implementation einer SVM SVMlight erzeugen wir unter Verwendung von verschiedenen Kernelfunktionen mehrere Klassifka tionsmodelle Shttp www ai cs uni dortmund de SOFTWARE WVTOOL index html http svmlight joachims org 50 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN Testergebnisse Die erzeugten Modelle konnten die Fehlerrate auf bestenfalls 27 senken Eine derart hohe Fehlerrate ist aber f r ein Textklassifikationsszenario inakzeptabel
121. ger geplante Anlage zum Teil aus Krediten 0 5 Punkte Wenn ja sollte man kein gro es Risiko eingehen Erfahrungen mit Wertpapieren 0 15 Punkte Wer noch unerfahren ist sollte besser sicherere Anlageformen empfohlen bekommen H ufigkeit der Systembenutzung 0 6 Punkte Ein Kunde der nur selten auf das System zugreift kann bei gro en Kursschwankungen nicht schnell reagieren und geht besser wenig Risiko ein derzeitiges Portfolio 0 9 Punkte Daran welche Finanzprodukte der Kun de schon hat l sst sich seine Risikofreudigkeit auch einsch tzen wer mit Derivaten handelt ist risikofreudiger als jemand der nur ein Sparbuch besitzt e eigene Einsch tzung der Risikofreudigkeit 0 100 Punkte 3 2 KLASSIFIZIERUNG MITTELS KUNDENVEKTOR 25 Au erdem werden im Fragebogen personenbezogene Daten zur Registrierung sowie der gew nschte Anlagehorizont abgefragt Aussehen des Fragebogens Auswertung der Angaben Die gewichtete Summe der Sicherheitspunkte sowie die gew nschte Verf gbarkeit bestimmen nun einen Ort im Magischen Dreieck f r den die m gliche Rendite errechnet wird Diese drei Werte zusammen ergeben den Kundenvektor Array aus Sicherheit Verf gbarkeit Rendite Mittels Fuzzy Logik wird der Kunde anhand dieses Vektors mit bestimmten Zu geh rigkeitswerten verschiedenen Klassen zugeordnet die durch Trapezfunktio nen der Werte Sicherheit Rendite und Verf gbarkeit dargestellt werden k nnen Sicherheit
122. ges 6 TOPs n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Haus Nordhelle hat noch keine Rechnung geschickt Es fehlen noch ICQ Nummern Bitte an Stefan mailen Festlegung m glicher Arbeitsgruppen Es wurden folgende Gruppen gebildet die sich selbstst ndig organisieren Kun den Niels Madan Jana Rene Informationsbeschaffung Bertram Martin Meh met Christian Finanzprodukte Christoph Markus Stefan Ahmet Die Gruppen sollen nach einer Woche einen Zwischenbericht ablegen dann wird die verbleibende Zeit f r die Aufgaben festgelegt Vortrag Projektmanagement Die Folien zu Niels Vortrag sind im Folienpaket der Seminarfahrt enthalten Sonstiges Die PG Kasse wird am Montag gef llt Dazu sollte jeder 10 Euro mitbringen 156 KAPITEL 13 ANHANG TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 157 Sitzungsprotokoll vom 28 04 2005 Abwesend niemand Versp tet niemand Sitzungsleitung Christoph H binger Protokollf hrung Ahmet Kara Tagesordnung 1 Begr ung 2 Formalia 3 Endberichte der Kleingruppen 4 Weiteres Vorgehen 5 Sonstiges 6 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird an genommen Die Abgabe der Sem
123. ges so u TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Top3 Die Gruppe Extraktion stellt die Ziele und Ergebnisformate vor Der Clustering Algorithmus wurde verbessert indem das W rterbuch verkleinert wurde Das neue Verfahren wurde getestet und ausgewertet Nach wie vor ist es allerdings schwierig daraus News zu extrahieren ma geblich wegen schlechtem W rterbuch Es werden nun alternative Ans tze verfolgt um ein besseres W rterbuch zu er zeugen Weiterhin wurden neuronale Netze zur Dokumentenklassifikation vorge stellt Zu einem bestimmten Kunden soll ein Ranking von Finanz News erstellt werden Die Gruppe Entscheidung stellt vor was bislang erreicht wurde und was noch erreicht werden soll Es wurde ein Prototyp implementiert mit dessen Hilfe die internen Variablen und Gewichtungen zur Entscheidungsfindung ange passt werden sollen Man erhofft sich davon die Entscheidungsfindung zwischen 182 KAPITEL 13 ANHANG Kunde und Finanzprodukt zu verbessern Als Ziele wurde insbesondere die Im plementation von News genannt f r die jetzt die notwendigen Voraussetzungen vorliegen Top4 Stefan hat sich das Pflichtenheft angesehen Was noch fehlt Der Kunde m sste einsehen k nnen warum ihm etwas empfohlen wurde aus dem System Kunde m sste dem System R ckmeldungen geben k nnen
124. gistriert Wie h ufig wollen Sie unser System durchschnittlich benutzen 5 k Dann melden Sie sich mehrmals monatlich hier an seltener Impressum Wie sch tzen Sie Ihre Risikofreudigkeit f r die geplante Anlage ein Zwischen 0 und 100 wobei 100 sehr risikobereit darstellt B In welche Anlageformen investieren Sie derzeit schon T keine Mehrfachnennung m glich F Aktien F Anleihen F Immobilien IF Devisen F Sparbuch Fonds I Derivate I Rohstoffe I andere Speichern Abbildung 11 4 Fragebogen zweiter Teil 136 KAPITEL 11 ARBEITEN MIT DEM SYSTEM Nach Bet tigung des Buttons Speichern gelangt man zur Best tigungsseite auf der man seine Kundennummer und einen Link zur Startseite erh lt SS Ke d Vielen Dank f r Ihre Anmeldung Geben Sie bitte Ihre Kundennummer Thre Kundennummer login lautet 35 und Ihr Passwort ein Sie sind momentan nicht angemeldet Anmelden Sie k nnen sich hier einloggen Geben Sie bitte Benutzername und Passwort an Sie sind noch nicht registriert Dann melden Sie sich hier an Impressum Abbildung 11 5 Anmeldebest tigung 11 2 M GLICHKEITEN F R DEN BENUTZER UND TYPISCHE ABL UFEI137 Nun kann sich der User einloggen und sein Portfolio ber den Link Men Portfolio ndern f llen Dort kann man zun chst ber den Button Bl ttern ei ne Aktie aus dem DAX suchen und dann seinem Portfolio die Aktie hinzuf gen Ebenfalls kann man dort mit dem Button Ak
125. gsleitung Ahmet Protokollf hrung Markus Tagesordnung 1 Begr ung 2 Formalia 3 Zwischenergebnisse der Kleingruppen 4 Zeitplan 5 Sonstiges 6 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das letze Protokoll wurde angenommen Zwischenergebnisse der Kleingruppen e Bertram hat eine neue DB erstellt in der es neue Eintr ge zur Bewertung von Aktien anhand ihrer Kurse gibt e SOMS Die Implementierung ist fertig und steht ist Modul im CVS verf gbar Die Dokumentation ist im egroupware zu finden e ART Netze die Implementierung ist fast fertig und wird bis Dienstag ganz fertig sein Support Vektor Maschinen Es gibt Probleme da die gleichen W rter in den beiden Klassen vorkommen k nnen die Gruppe wird sich aber noch weiter damit befassen und schauen ob und wie das Problem behoben werden kann e Lernen Benutzerstatus wird eingef hrt der angibt wie gut der Benutzer die Nachrichten in der Vergangenheit eingesch tzt hat Je besser die Vor hersagen des Kunden waren desto st rker fliesen seine neuen Einsch tzungen in die Berechnung des Rankings der Aktien mit ein 202 KAPITEL 13 ANHANG e Semantik Eine alte Theorie wurde gefunden die die Semantik mit Hilfe der Pr dikatenlogik abbildet soll Jedoch gibt es keine Umsetzung und die Theorie wurde auch nicht mehr weiter entwickelt da die Syntaxana lysen sinnvoller erschienen
126. hicht Versteckte Schicht Ausgabeschicht Anzahl Neuronen in der Eingabeschicht W rterbuchgr e 1306 Anzahl Neuronen in der versteckten Schicht 100 Anzahl Neuronen in der Ausgabeschicht Anzahl verschiedener Klassen 7 Aktivierungsfunktion der Neuronen der versteckten und der Ausgabe schicht ist die sigmoide s f rmige logistische Funktion sgd x s Ihre Ableitung ssd T T kann durch die Funktion selbst wieder ausgedr ckt werden sd r sgd x 1 sgd x was die Berechnung bei der Anpassung der Gewichte vereinfacht Ausgabefunktion ist Identit t Trainingsart Backpropagation im Batch Modus mit je 10 Trainingsbei spielen pro Etappe Die Lernrate ist monoton fallend zur Anzahl der Trainingsbsp anzBsp 0 6 0 98g anzBsp 0 1 Feature Gewichtsanpassung mit Momentum Term f r schnellere Konver genz mit a 0 5 Zum Testen werden 353 bewertete Beispielnachrichten zu DAX Unternehmen benutzt die nach den Verfahren aus Abschnitt 8 5 Testdaten erstellt wurden Von diesen Nachrichten werden 326 zum Training und 27 zum Test des Netzes verwendet Das dazu erstellte W rterbuch enth lt 1306 Synonymklassen Das Netz wurde in 5000 Trainingsetappen mit den Trainingsdaten trainiert Daf r brauchte ein Notebook mit 1 7 Ghz Centrino Prozessor und 512 MB RAM circa eine Stunde Nach je 25 Etappen wurde der mittlere quadratische Fehler 5 5 METHODEN IM DETAIL 83 Fehler zwischen Soll und Ist Ausgabe ber a
127. hmet Protokollf hrung Madan Tagesordnung 1 Begr ung 2 Formalia 3 Ergebnisse der Kleingruppen 4 Sonstiges 5 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Ergebnisse der Kleingruppen Gruppe todo s Berichtet von Niels e Interface f r Bewertungsabgaben ist fertig gestellt e User kann Bewertung zu News abgeben e weitere Punkte der ToDo Liste sind eher Sch nheitskorrekturen die aller dings nicht die Funktionalit t beeintr chtigen Martin k mmert sich um den Punkt dass nur eine Verbindung zur DB von N ten ist e Testen bis Donnerstag das Gesamtsystem Gruppe W rterbuch Berichtet von Markus e graphische Schnittstelle ist endg ltig fertiggestellt 13 1 SITZUNGSPROTOKOLLE 211 e jeder soll bis Donnerstag einige Nachrichten durchlesen und f r Aktien relevante W rter ins W rterbuch schreiben e zu dem sind Synonyme und Antonyme zu bestimmen Gruppe Spamfilter Berichtet von Madan e der bayessche Filter klassifiziert Junks mit Hilfe von Blacklists eine f r gute W rter und eine f r Schlechte W rter mit 80 richtig e das Ergebnis kann wahrscheinlich nur noch leicht verbessert werden Gruppe Entscheidungsb ume Berichtet von Ahmet e das Programm von WEKA steht im CVS und muss jetzt noch getestet werdens Gruppe SVM Berichtet von Mehmet
128. hmus ist dann wie folgt 1 Initialisiere f r alle Neuronen die Synonymgruppenmatrix mit zuf lligen Werten Setze dabei die Distanz aller Elemente der Hauptdiagonalen auf 0 und verwende nur zuf llige Distanzwerte aus dem Intervall 0 L nge der bisher l ngsten Nachricht und f r die Wahrscheinlichkeitswerte P ilj 0 1 2 berf hre eine zuf llig Nachricht hier den Synonymgruppenvektor in eine Synonymgruppenmatrix 3 F r jedes Neuron der SOM f r jedes Element der Synonymgruppenmatrix des Neurons berechne jeweils die neue Wahrscheinlichkeit und die neue Distanz nach folgenden Formeln 4 Hole n chste Nachricht und gehe zu Schritt 2 Das Ergebnis ist eine SOM mit automatisch adaptierten Synonymgruppen matrizen Die Klassifikationsphase besteht aus folgenden Schritten 5 5 METHODEN IM DETAIL 69 1 berf hre eine zuf llige Nachricht hier den Synonymgruppenvektor in eine Synonymgruppenmatrix 2 F r jedes Neuron der SOM berechne den Abstand S mit S Jha Dja Zell PNactriertlil f r i lt gt j Je kleiner S ist DNeuron i j DNachricht i j desto hnlicher sind die Matrizen F r die grafische Darstellung trage die Zahl S in das Neuron auf der SOM Karte ein 3 Der Benutzer sieht in welcher Region ein Neuron aktiviert ist Das Resultat ist dass hnliche Nachrichten auch Neuronen aktivieren die nahe bei einanderliegen im Gitter Hinter einem Neuron verbirgt sich dabei eine Synonymgruppen
129. hode speziell f r unser System Beschrieben werden hier die genutzten Parameter f r den Algorithmus F r die Distanzfunktion wurde der Hammingabstand gew hlt Die W rterbuchgr en unterschieden sich zwischen 4500 1000 und 22 W rtern die Anzahl der Vektor komponenten korrespondieren mit diesen Zahlen Einem Wort aus dem W rterbuch wurde also eine Komponente des Dokumentenvektors zugewiesen Kommt ein Wort aus dem W rterbuch im Text vor wird die entsprechende Komponente des Vektors auf eins gesetzt Kam ein Wort des W rterbuches nicht im Text vor bleibt die Komponente auf null Die Initialisierung der Zentroiden geschieht zuf llig F r die Messung der Qua lit t der Cluster wurde die Varianz benutzt Enigma Variationen werden erstellt indem der Algorithmus auch mit verschiedenen Anzahlen von initialen Zentro iden getestet wird Zu den erstellten Dokumentenvektoren ist noch zu sagen dass sowohl die W rter des W rterbuches wie selbstverst ndlich auch die in den Texten vorgekomme nen W rter gestemmt wurden Anwendbarkeit Fazit Leider waren die Ergebnisse alles andere als befriedingend Oftmals lieferte der Algorithmus nur ein einziges Cluster was berhaupt keine Aussage mehr ber die Nachrichten zul sst Im besten Fall wurden einige wenige Cluster als Er gebnis erstellt die aber wiederspr chliche Nachrichten dabei handelte es sich nicht einfach nur um einige wenige bzgl der Sematik enthielten Dennoch wur
130. hoden verwendet werden Die Kundenprofile werden anhand eines Fragebogens erstellt und sollen durch die sp tere Benutzung an die Kundenw nsche weiter angepasst werden Das Sys tem soll seine Entscheidungen verbessern und adaptive Systemver nderungen durchf hren Es sollen diverse Finanzprodukte bewertet und zur Verf gung gestellt werden allerdings wird hierbei zun chst das Augenmerk nur auf DAX Aktien gelegt Bei nderungen der Bewertung von Finanzprodukten anhand von Nachrichten sollen die Kunden welche diese Finanzprodukte in ihrem Portfolio haben per Email ber die nderungen benachrichtigt werden 1 2 PLICHTENHEFT 11 Abgrenzungskriterien In den Portfolios der Kunden sollen lediglich die einzelnen Finanzanlagen auf gef hrt werden in die der Kunde investiert nicht jedoch Anzahl und Verm gen 1 2 2 Produkteinsatz Anwendungsbereiche FIPs ist f r Finanzanleger aller Art gedacht die sich mit Hilfe des Internets ber Finanzprodukte informieren und beraten lassen m chten Es soll die Informatio nen schnell und einfach zur Verf gung stellen so dass der geneigte Anleger nicht mehr selbst nach Meldungen suchen und muss So kann der Benutzer die Ent scheidung ber Kauf und Verkauf von Finanzprodukten schneller und flexibler gestalten Anwendergruppe Jeder interessierte Anwender kann das System benutzen Die Anwender m ssen grundlegende Kenntnisse im Umgang mit einem Internet Browser besitzen 1 2 3 Produkt bersi
131. hrichten in nur zwie Klassen einteilte gut und schlecht In drei Durchl ufen mit jeweils verschiedenen Trainings und Testbeispielen wurde der Entscheidungsbaum mit den Trainingsdaten trainiert und die Testdaten auf dem Entscheidungsbaum ge testet Das Ergebnis war dass unser Entscheidungsbaum bei allen Durchl ufen knapp ber 50 Prozent der Testnachrichten richtig klassifizierte Dieses Ergebnis hat aber leider keine gro e Aussagekraft da Finanznachrich ten inhaltlich auf verschiedenste Weise aufgebaut sein k nnen und wir deswegen nicht davon ausgehen k nnen dass wir alle wichtigen W rter die entscheidend f r die Klassfikation einer Nachricht sind in unserem W rterbuch erfasst haben Hinzu kommt dass hier wie beim ersten Ansatz die Semantik und Reihenfolge des Auftretens der W rter nicht ber cksichtigt wird 60 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN Beispiel Sport Art Ort Ebene Tag Anschauen X1 Fu ball Mannschaft drau en national Samstag X2 Hockey Mannschaft drau en national Samstag X3 Bodenturnen Einzel drinnen welt Samstag X4 Handball Mannschaft drinnen national Samstag X5 Zehnkampf einzel drau en welt Sonntag Tabelle 5 3 Trainingsbeispiele f r Konzeptlernen 5 5 5 Konzeptlernen Vorstellung der Methode Ein Konzept ist eine einstellige Funktion c M 0 1 M ist hierbei die Grundmenge von Beispielen anhand derer das Konzept c gelernt werden soll Ein Konzept wird
132. ht im PG Ordner Jeder soll seinen Bereich dort eintragen Gedanken ber weiters Vorgehen sind erw nscht e Egroupware l uft jetzt auch uniextern URL http pg473 cs uni dortmund de egroupware Accounts gibt es bei Jana und Niels Wichtig Nach Benutzung das Ausloggen nicht vergessen Grobe Tasks der Kleingruppen wurde angelegt e USBSticks k nnen am Rechner 1s1poo1l9 benutzt werden Nach Befehl mount stehen die Daten unter home pg473 usbstick 172 KAPITEL 13 ANHANG TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 173 Sitzungsprotokoll vom 02 06 2005 Abwesend Martin entschuldigt Versp tet niemand Sitzungsleitung Bertram Protokollf hrung Madan Tagesordnung 1 Begr ung 2 Formalia 3 1 Vorstellung der theoretischen Realisierung der fundamentalen Aktien analyse und der praktischen Probleme 4 1 Vorstellung des Konzepts der Kleingruppen 5 1 Vortrag von Wolfgang 6 Sonstiges 7 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Protokoll vom 30 5 05 wurde angenommen theoretische Realisierung der fundamentalen Aktienanalyse Bertram stellt vor wie die Markteinsch tzung ber die Fundamentalanalyse berechnet wird und haben es an einem Bespieldatensatz ausprobiert Weist auf Problem hin dass Fundamentalanalyse nur eine Tendenz der Aktie angeben kann und Aussage mit Vorsicht zu genie en ist Kann man sich im Egroupware Ordner unte
133. icht Endbericht v0 8 tex im egroup ware Diese wird von Madan und Niels weiter bearbeitet um detailiertere Punkt des Entscheidungsprozesses zu erg nzen Zeitplan Aufgabenverteilung 0 1 2 3 4 5 6 7 Junk Christoph Madan TODO Niels SOM STM FFN Martin Bertram Entscheidungsb ume Ahmet Doku Kleingruppen alle Gesamt Dokumentation Mehment Ren Christian Jana Sonstiges nichts TOPS n chste Sitzung Die n chste Sitzung ist am Dienstag dem 2 Januar 2006 TOPs siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 215 Sitzungsprotokoll vom 3 Januar 2006 Abwesend Christian entschuldigt Versp tet Markus 15 Min Sitzungsleitung Bertram B deker Protokollf hrung Jana Ehlers Tagesordnung 1 Begr ung 2 Formalia 3 Berichte der Kleingruppen 4 Sonstiges 5 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Bericht Gestern heute konnte sich keiner im Rechnerpool oder bei egroupware einloggen Berichte der Kleingruppen e Spamfilter Madan Christoph Spamfilter ist fertig eingebunden e Endbericht Christian Mehmet Rene Jana Vorl ufige Endbericht Struktur steht to do Endbericht Struktur im CVS angelegen Chapter Ordner durch nummerieren Section Ordner nicht damit noch verschiebbar Entscheidungsb ume
134. icht Nr 34 wird vom System folgendermassen bewertet o Nachricht Nr 35 wird vom System folgendermassen bewertet o Z Nachricht Nr 36 wird vom System folgendermassen bewertet Nachricht Nr 37 wird vom System folgendermassen bewertst Nachricht Nr 38 wird vom System folgendermassen bewertet o o Nachricht Nr 39 wird vom System folgendermassen bewertet o Nachricht Nr 40 wird vom System folgendermassen bewertet Seet EEE en DEE Ee Fa KEEN Abbildung 5 7 Entscheidungsbaum Tests mit den neugelernten Texten Environment for Knowledge Analysis und wurde an der University of Waikato in Neuseeland entwickelt Um diesen Algorithmus f r unser Problem zu testen bedienten wir uns ei nem neuen W rterbuch mit 302 W rtern Wir untersuchten und bewerteten ca 200 neue Finanznachrichten Aus diesen Nachrichten suchten wir uns 68 Nach richten heraus die unserer Meinung nach klar positiv oder klar negativ waren Aus diesen Nachrichten wurden boolsche Vektoren der L nge 302 generiert Wenn ein Wort aus dem W rterbuch in einer Nachricht vorkam wurde die ent sprechende Stelle des Nachrichtenvektors auf 1 gesetzt 30 Nachrichtenvektoren wurden als Trainingsbeispiele verwendet wobei diese aus 15 positiven und 15 negativen bestanden Der Rest der Vektoren wurden als Test Beispiele verwen det Den ID3 Entscheidungsbaum passten wir so an dass er die Nac
135. ie daf r sorgen dass Artikel usw nicht in die Wortwahrscheinlichkeiten auf genommen werden Also dachten wir geben wir ihm viele Trainingsdaten ca 1000 zum Berechnen der Wahrscheinlichkeiten und 500 Testdaten anhand derer wir unsere Ergebnis verifizieren konnten Die Spamerkennung endete in dem Bereich von 40 Also bei weitem schlechter als SVMs Doch da kam uns eine Verbesserung in den Sinn die den BayesClassifier besser machen sollte Wir gaben ihm schon bestimmte Worte vor die dar auf hinwiesen dass die Nachricht Spam war bzw Relevanz aufzeigte Daf r verwendeten wir sogenannte Blacklists eine f r gute nd eine f r Schlechte Nachrichten Wenn das Programm jetzt ein Wort findet dass in einer Hamlist vorkommt ist die Nachricht relevant wohingegen ein Vor finden eines Wortes aus der Spamlist darauf hindeutet dass es sich um eine Spam Nachricht handelt Um auch m gliche Nachrichten klassifizie ren zu k nnen wo Worte aus beiden Listen vorkommen verwendet der BayesClassifier ein Wahrscheinlichkeitma dass angibt wie er die Nach richt einzuordnen hat Bei einem Wert von 0 bis 0 5 erkennt er die News als relevant an sonst bei dem Intervall gr er 0 5 bis 1 als Spam Man muss die Worte nat rlich mit Bedacht w hlen und m gliche Doppeldeutigkeiten zwischen diesen Listen ausschlie en also wenn das Wort WM vorkommt dann wird es Spam sein wobei man so ein Wort wie Entwicklung nicht generell einer besti
136. ie Aktie underperformed und die Bewertung wird um eins verringert Ist vo gt v 1 tol und vo lt v 1 tol so war die Ver nderung nur gering und die Performanz entspricht in etwa der des DAX Die Bewertung bleibt wie sie ist Analog werden va und ma mit vo verglichen Am Ende ergibt sich eine Bewertung die auch dem intuitiven Verst ndnis entspricht Hat die Aktie den DAX dreimal outperformed war die Nach richt stark positiv im umgekehrten Falle eben stark negativ Eine geeig nete Wahl f r t t2 und t3 k nnten t t 1 Handelstag t2 t 2 Handelstage t3 t 5 Handelstage sein Die Abbildung zeigt die berechnete Klasseneinteilung einer Nachricht zu Infineon f r den jeweiligen Handelstag Damit stehen die Klassen die den Nachrichten im R ckblick zugeordnet werden k nnen fest Nach beendetem Training werden auch neue Nachrichten klassifi ziert Der Erfolg des Netzes ist qualitativ me bar indem man die Prognose vom Netz sp ter mit der realen Klasse vergleicht Implementierung Es wurde ein feedforward Netz mit einer Eingabe einer versteckten und einer Ausgabeschicht implementiert Dieses Netz soll Finanznachrichten klassifizieren die in der oben beschriebenen Synonymgruppen Vektor Form kodiert sind Die Struktur ist in folgender Abbildung erkennbar 82 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN Test MLFF Netzstruktur Eingabesc
137. ie oft diese Klasse insgesammt in testnachrichten vor kommt um sp ter daraus ein einfaches W rterbuch zu erstellen Lemma der Form Typ Wort w1 Synonymgruppe s Synonymgruppe s 1 Typ Wort wn Synonymgruppe s Synonymgruppe sn Beispiel VVFIN 3459 7259 NN 12480 ADJD 6031 10527 13794 14804 4556 Schlie lich wird das Lemma zur Nachricht in testdaten gespeichert 8 5 2 Berechnung der Bewertung einer Nachricht e Holen der Aktienkurse Zu den betrachteten Aktien entspicht den Aktienzeichen der Unternehmens Suchw rter werden anhand des Aktien zeichens die B rsenkurse der letzten 200 Tage von Yahoo Finance geholt 8 5 TESTDATEN 119 Weiter werden die Kurse des DAX im gleichen Zeitraum geladen Diese Daten dienen als Grundlage zur Berechnung der Nachrichtenbewertungen e Berechnung der Nachrichten Bewertungen Anhand der Kursverh ltnisse Aktie zu DAX werden wie unter Abschnitt 5 5 7 beschrieben die Be wertungen der einzelnen Nachrichten berechnet und in der testdaten DB gespeichert 8 5 3 Erstellen eines einfachen W rterbuchs Nachdem alle Testnachrichten vorverarbeitet sind kann anhand des fipscounters abgelesen werden welche Synonymgruppen besonders oft in Nachrichtentexten vorkommen und welche nicht oder nur selten auftreten Die Idee ist nun ein einfaches W rterbuch aus Synonymklassen zu erstellen die oft aber nicht zu oft vorkommen Zu h ufig verwendetet W rter haben kei
138. ie zu machenden Arbeits vorgnge erst einmal gesammelt e Bewertung von Finanzprodukten Fundamentaldatenanalyse Konjunktureinflussgren Unternehmenskenngren x Quellen Indikatoren x Persistenz Technische Analyse wird nur gemacht wenn noch Zeit bleibt Extraktion aus News zs Quellen Ad hoc Meldungen Analysteneinschtzungen Sonstiges Text Mining Filtern von Wrtern Expertenfilter Persistenz e Entscheidung Empfehlungen fr Kunden dessen Profil wir kennen x Empfehlung von Quellen Kauf und Verkaufvorschlge machen Regelbasis Logiken x Inferenz x Revision x Persistenz Lernen Adaptive Kundenprofiloptimierung x Regelbasis optimieren Ausgabe Vorhandene Methoden Anwenden der Methoden auf unser Problem e Kunden kategorisieren 13 1 SITZUNGSPROTOKOLLE 161 e Benutzeroberflche e Webauftritt e Datenbank e Schnittstellen zwischen den Komponenten Aus Zeitgrnden konnte die Liste nicht vervollstndigt werden und jeder Teil nehmer soll sich bis zur nchsten Sitzung weitere Gedanken dazu machen Auer dem soll sich jeder eine mglichst realistische Einschtzung des Zeitaufwandes fr die einzelnen Punkte berlegen Sonstiges TOPS nchste Sitzung siehe nchste Sitzung 162 KAPITEL 13 ANHANG Sitzungsprotokoll vom 9 5 2005 Abwesend Ahmet Kara Versp tet Jana Ehlers 20 Min Sitzungsleitung Markus Matz Protokollf hrung Niels Pothmann
139. ige Rekonstruktion des Textes m glich Gro e Eingabematrix und gro e Anzahl an Gewichten bei M 100 schon 10 000 double Werte pro Matrix bei 10 000 200 7 Neuronen in den Schichten Anzahl Gewichte 10 000 200 200 7 2 001 400 double Werte L sungsans tze Entwurf eines sehr strengen W rterbuchs oder x mit der langen Rechenzeit leben T 1 TA Se f t falls Wort j im Text direkt hinter Wort i 2 mit 80 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN Quantisierung der Performanz im Vergleich zum Gesamtmarkt Da unser Neuronales Netz als Klassifizierer arbeiten soll m ssen vorher Klassen festgelegt werden in die die Finanznachrichten eingeordnet werden k nnen Wie schon beschrieben dient als Grundlage der Klasseneinteilung die Performanz der Aktie im Vergleich zum Gesamtmarkt PAzuG in einem gewissen Zeitraum nach Erscheinen der Nachricht e Wahl eines geeigneten Wirkungszeitraums einer Nachricht Geht man davon aus dass Nachrichten ausschlie lich zum Erscheinungs zeitpunkt wirken so w re die Ableitung der PAzuG ein geeignetes Ma da sie genau die St rke der nderung der PAzuG zeigt Ein weiterer Ansatz k nnte die durschnittliche nderung der PAzuG bis zum Erscheinen der n chsten Nachricht zum jeweiligen Unternehmen sein Der Praxis angemessener ist die nderung der PAzuG ber eine Zeitraum zu untersuchen der als realistischer Wirkungszeitraum der Nachricht an genommen werden
140. igen Stand der Dinge Allerdings k nnen zu einer Nachricht hnliche Nachrichten zur ckgegeben werden Dies w re f r Benutzer ein interessantes Feature hnlich zur kollaborativen Filterung beim Online Kaufhaus Ama zon Gruppe SOM Bericht von Martin Es wurde eine Aufgliederung in 2 Bereiche durchgef hrt In Bereich des un berwachten Lernens existiert eine fertige Version eines SOM Verfahrens Im Bereich des 13 1 SITZUNGSPROTOKOLLE 205 berwachten Lernens wurde die Methode der STM semantische Topic Maps vorgestellt Diese Methode sieht ein umfangreiches Preprocessing der vorhande nen Daten vor Es m ssen z B Stopw rter entfernt S tze gesplittet vereinfacht und sogenannter Spam gel scht werden Des weiteren ist eine nderung der Re pr sentation der Nachrichten n tig Die urspr nglichen Dokumentenvektoren bag of words Darstellung m ssen in Unternehmen Graph Tupel umgewan delt werden Als Graph verwendet man dabei sogenannte Topic Maps In Kom bination mit einem Finanzthesaurus werden die Abh ngigkeiten der einzelnen Attribute in den Topic Maps dargestellt F r die Anwesenden scheint dieser Ansatz die gr sste Erfolgswahrscheinlichkeit bzgl der Analyse von Texten zu besitzen Aus Zeitgr nden muss Bertram s Bericht ber multi layer Netze verschoben werden Gruppe SVM Bericht von Mehmet Die Support Vektor Maschinen ben tigen bereits klassifizierte Beispiele um ein Klassifikat
141. ilt Soll nun eine neue Empfehlung f r den Kauf von Aktien gegeben werden wird berpr ft ob die Zeitspanne zum Abgeben von Einsch tzungen bereits berschritten ist Ist dies nicht der Fall kann das System berechnen wie gut der Benutzer mit seiner Einsch tzung lag Dazu holt er sich den Kursverlauf der Aktie und den des DAX und schaut sich vier verschiedene Zeitpunkte in der N h der Erscheinungszeit der Nachricht an Daraus berechnet er die Kursent wicklung zwischen zwei benachbarten Zeitpunkten im Vergleich zum DAX Ist der Aktienkurs st rker gestiegen als der des DAX so wird dies positiv gewertet Entsprechend gilt dass eine in etwa gleiche Entwicklung des Aktienkurses mit dem des DAX als neutral und eine schw chere Entwicklung als negativ gewertet wird Je st rker nun die gegebene Einsch tzung mit der berechneten Entwick lung bereinstimmt desto gr er ist der Betrag der dem Benutzer auf seinen Kundenstatus als Bonus gutgeschrieben wird Dabei kann ein Wert zwischen 3 7 2 LERNEN MITHILFE DES EASY IR SYSTEMS 105 und 3 erreicht werden wobei eine 3 bedeutet dass der Benutzer total falsch lag und eine 3 eine v llige bereinstimmung bedeutet Dieser Bonus wird al lerdings noch mit der vom Benutzer gegebenen Relevanz geteilt durch 100 multipliziert bevor er zum vorherigen Kundenstatus addiert wird 7 2 3 Berechnung der durchschnittlichen User Tendenz Damit das System eine Einsch tzung geben kann wie gut eine
142. in die Datenbank eingetragen werden 83 SPAM Filter 8 3 1 Konzept Einleitung Da in unseren Nachrichten die vom NewsWrapper gezogen wer den viele Nachrichten enthalten sind die gar nichts ber Aktien behan deln kam die Idee auf einen Spamfilter zu implementieren der sich diese irrelevanten News schnappt So interessiert sicherlich wenig ob gerade in der Bundesliga Bayern gegen Dortmund spielt oder flix gegen flax Die Schwierigkeit liegt darin dass die Nachrichten meistens nicht ganz so ein deutig zu trennen sind wie es z B bei E Mails der Fall ist durch Filterung z B des Wortes SSex Ein h ufiger Ansatz besteht darin eine Support Vektor Maschine SVM mit Daten zu f ttern und die SVM dann selber versucht eine Hyperebene zwischen relevanten und irrelevaten Nachrichten zu finden SVM Dieser Ansatz sah in erster Linie viel versprechend aus da auch in Lite raturrecherchen SVM immer benannt werden wenn es in irgendeiner Art und Weise um Spamfilterung geht So klassifizierten wir gut 500 St ck der Nachrichten als relevant 1 bzw irrelevant 1 damit wir schon einmal einige Testdaten zur Verf gung hatten Die gaben wir dann der Gruppe SSVM ls Eingabe f r ihr Programm das auch klassifizieren k nnen sollte Ergebnis SVM Das Ergebnis war allerdings nicht zufrieden stellend da nur knapp 70 der Nachrichten richtig als Spam identifiziert wurden Es scheint dass SVM besser geeignet gewesen w ren wenn die Nachrichte
143. inarausarbeitungen wird um eine Woche ver schoben Endberichte der Kleingruppen Gruppe Informationsbeschaffung tr gt ihr Bericht vor Diese Gruppe wird sich noch mit der Informationsbeschaffung bez glich Anleihen besch ftigen Gruppe Finanzprodukte tr gt ihr Bericht vor Es werden im wesentlichen 6 Finanzprodukte vorgestellt Stefan schl gt vor den Fokus auf Aktien Opti onsscheine Anleihen und Fonds zu legen und Rohstoffe und Sparb cher aus ser Betracht zu lassen Als n chstes soll diese Gruppe sich Gedanken dar ber machen mit welcher Datenstruktur die einzelnen Finanzprodukte gespeichert werden k nnnen Gruppe Kunden tr gt ihr Bericht vor Diese Gruppe soll sich Gedanken dar ber machen inwieweit Fuzzy Logik bei der Modellierung der Kundenpr ferenzen zum Einsatz kommen kann 158 KAPITEL 13 ANHANG Weiteres Vorgehen Bis 9 Mai sollen Kleingruppen fertig werden In der n chsten Sitzung soll der PG Fahrplan f r das Semester festgelegt werden Die Minimalziele aus der PG Beschreibung werden vorgelesen Sie sollen als Diskussionsgrundlage f r den PG Fahrplan dienen Die Tools f r Projektmanagement werden zur Wahl gestellt Die Entschei dung f llt f r e groupware Sonstiges Die Rechnungen von unserer Seminarfahrt sind fertig Das Geld soll schnellstm glich an Stefan berwiesen werden Es wird entschieden dass im n chsten Semester eine Seminarphase im Rah men der PG gemacht wird Die Seminarthem
144. ionsablauf des RSS Wrappers gliedert sich in 6 Schritte Im ersten Schritt wird die Konfigurationsdatei gelesen Diese beinhaltet fol gende f r den RSS Wrapper relevanten Einstellungen siehe Abbildung 8 1 Eigenschaft Kurzbeschreibung MinTitleEqualsPercent Wieviel Prozent vom RSS Titel reichen aus um den Titel auf der Seite des Deep Links zu identifizieren MinTextEquals Wieviele W rter reichen aus um einen Text zur RSS Beschreibung zuordnen zu k nnen MinTextWords Wievele W rter muss eine Textphase haben um als Textphase interpretiert werden zu k nnen MinTextPhrases Wieviele S tze muss eine Textphase haben um als Textphase interpretiert werden zu k nnen MaxEmptyText TagsBetweenText Wieviele nicht zu ber cksichtigen Textphasen d rfen maximal zwischen identifizierten Text phasen liegen Feeds Liste von RSS Feed URLs 112 KAPITEL 8 BESCHAFFUNG BEN TIGTER DATEN Internetverbindung pr fen F r jede NewsFeedURL Mit RSS Channel verbinden und Feed runterladen F r jede Nachricht Nachricht in Liste vorhanden N chste Nachricht Titel und Beschreibung extrahieren RSS DeepLink verfolgen Website runterladen HTML Baum erstellen DOM Abbildung 8 2 RSS HTML Code extrahieren und DOM Baum erstellen Im zweiten Schritt werden f r jeden RSS Feed die Nachrichteninformatio nen wie Titel Beschreibung und URL der eigentlichen Nachricht
145. ionsmodell zu finden Dazu m sste man in unserem Fall eine Menge von Nachrichten lesen und entsprechend eines Klassenmodells klassifizieren Aus diesen Beispielen k nnen dann Dokumentvektoren erstellt werden die dann als Eingabe f r die SVMs dienen Von einer eigenen Implementierung einer SVM wurde abgeraten Implementierung kann t kisch werden Daher wird die Lernumgebung Yale Yet Another Learning Environment vom Lehrstuhl 8 verwendet die bereits mehrere SVM Implementationen beinhaltet Zeitplan Die Gruppen Entscheidungsb ume ART2a SOM und SVM sind noch mit ihren Themen besch ftigt Die Gruppen Lernen und Konzeptlernen sollen sich mit der Todo Liste ausein andersetzen Sonstiges Der Kassierer Rene hat von allen Anwesenden jeweils 10 Euro f r die Bef llung des Schrankes eingenommen ausstehend Niels Christoph Stefan B TOPS n chste Sitzung siehe n chste Sitzung 206 KAPITEL 13 ANHANG Sitzungsprotokoll vom 12 1 2005 Abwesend Christian Friem entschuldigt Versp tet niemand Sitzungsleitung Martin Prause Protokollf hrung Niels Pothmann Tagesordnung 1 Begr ung 2 Formalia Berichte der Kleingruppen Zeitplan Sonstiges O a A Q TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Top3 Bertram stellt Multilayer FF Netze vor und A
146. kennzahlen zu einzelnen Unternehmen basiert Eine Analyse des Kursverlaufs einer Aktie wurde nicht vorgenommen In Kapitel 3 und 4 haben wir uns dar ber Gedanken gemacht wie man einen einzelnen Kunden und ein einzelnes Finanzprodukt sinnig repr sentieren kann so dass diese Daten zur Weiterverarbeitung in unserem System geeignet sind Ziel ist es nun in der Entscheidung aufgrund technischer Fundamentaldaten dem Kunden welcher sich durch einen spezifischen Kundenvektor charakterisie ren l sst gute Finanzprodukte zu empfehlen Die G te eines Finanzproduktes f r einen bestimmten Kunden ist nicht nur durch die vorausberechnete Rendite zu bestimmen Finanzprodukte mit h herer Rendite haben zumeist auch eine geringere Sicherheit so dass f r einen Kun den somit auch das Risiko steigt das eingesetzte Kapital zu verlieren bzw zu minimieren Ziel muss es demnach sein einem Kunden das f r sein Anlageprofil passen de Finanzprodukt in unserem Projekt konzentrieren wir uns auf Aktien zu empfehlen und die Aktien die wir betrachten DAX30 in einem Ranking dar zustellen Das Anlageprofil des Kunden entnehmen wir dem Kundenvektor Sicherheits 87 88KAPITEL 6 ENTSCHEIDUNGSFINDUNG GRUNDLAGE TECHN ANALYSE Verf gbarkeits Rendite Wunsch des Kunden aus Kapitel 3 und die Einsch tzung des Finanzproduktes Sicherheit Verf gbarkeit Marketperformer entnehmen wir dem berechneten Sicherheitswert aus Kapitel 4 setzen die
147. liertes Vokabular dessen Begriffe durch Relationen miteinander verbunden sind Wir benutzen den Thesaurus als ein Netz von Synonymen um W rter auf ihr Grundsynonym zu reduzieren analog zum Stemming oder der Lemmatisierung Wenn wir also zum Beispiel Ankauf durch Kauf ersetzen machen wir deutlich dass es uns nicht auf die Syntax sondern auf die Seman tik des Wortes ankommt Wir definieren Ankauf praktisch als quivalent zu Kauf so wie wir zwischen Aktie und Aktien keine Unterschiede machen Nachdem wir die f r uns wichtigen Worte aus dem Text gefiltert und normiert haben k nnen wir einen Eingabevektor f r die verschiedenen in Kapitel 5 5 beschriebenen Verfahren erstellen Dieser Vektor besteht aus einer festgelegten Anzahl von Komponenten deren Bedeutung man unterschiedlich w hlen kann In einem Fall k nnten es zum Beispiel einzelne W rter sein in einem ande ren Fall wiederum ganze Klassen Im letzteren Fall k nnte man zum Beispiel Aktie und Optionsschein einer Komponente zuweisen deren Bedeutung der Klasse Wertpapier entspricht Au erdem muss entschieden werden aus wel chem Wertebereich die Werte der Komponenten stammen Auf dies alles wird in der detaillierten Sicht auf die Methoden eingegangen werden Der Aufbereitung der Texte zu Vektoren folgt die Anwendung der einzelnen Verfahren wie sie in Kapitel 6 5 beschrieben sind Ergebnis soll eine Einteilung der N
148. lle Trainings und ber alle Test daten berechnet Der Verlauf dieser beiden Fehler ist in folgender Abbildung dargestellt Fehlerverlauf beim Training 1000 2000 3000 20 s000 Anzahl Trainingsdurchl ufe Wie man sieht lernt das Netz die Trainingsdaten relativ schnell Ab 3000 Etap pen etwa ist der Fehler in einem annehmbaren Bereich F r die Testdaten sinkt der Fehler aber im gleichem Zeitraum kaum Das liegt daran dass die Testda ten zu verschieden zu den Trainingsdaten sind Die neuen Eingabemuster passen nicht zu den gelernten Dass gelernte Nachrichten nur eine geringe Aussage f r neue Nachrichten haben sieht man auch an folgendem Test Es wurden f r alle Trainings und Testbeispiele auf dem fertig trainierten Netz das jeweilige Gewinnerneuron und dessen Ausgabewert berechnet War die Aus gabe gt 0 6 so wurde die Klassifikation als sicher angenommen und berechnet ob das Netz richtig oder falsch lag Lag die Ausgabe unter 0 6 wurde die Nach richt als unsicher klassifiziert und berechnet ob das Netz trotzdem richtig oder falsch gelegen h tte Das Ergebnis zeigt folgende Tabelle 84 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN gesamt Anzahl Tests 326 27 353 richtig klassifiziert 299 91 7 8 29 6 307 87 0 falsch klassifiziert 1 0 3 11 40 7 12 3 4 als unsicher klassifiziert 26 8 0 8 29 6 34 9 6 davon w ren richtig 7 26 9
149. ls zweiter Ansatz wird jetzt ein bayesscher Filter benutzt dieser muss jetzt mit den Nachrichten trainiert werden Gruppe Entscheidungsb ume Ahmet berichtet e existiert schon eine Implementierung von Entscheidungsb umen in WE KA diese soll in die Implementierung der Gruppe Entscheidungsb ume integriert werden e die Dokumentation zu Entscheidungsb umen ist schon fertig gestellt Gruppe Support Vektor Maschinen Stefan berichtet e es wurden knapp 200 Nachrichten klassifiziert per Hand e es gibt eine Fehlerrate von knapp 27 Prozent die nicht reduziert werden kann e die Idee die Textklassifikation mit SVM s zu l sen wird verworfen es soll eine Dokumentation ber das Vorgehen mit SVM s geschrieben werden Gruppe SOM Bertram berichtet e es wurde schon bereits das meiste implementiert e es wurden auch schon mehrere Tests durchgef hrt e es wurde herausgefunden dass die Zeit f r das Trainieren der neuronalen Netze akzeptabel ist e dieser Ansatz wird weiter verfolgt bis n chste Woche sollen die Kleingruppen an ihren Aufgaben weiterarbeiten Sonstiges Am n chsten Montag ist der Besuch des Weihnachtsmarktes geplant F r alle die Interesse haben Treffen ist am Montag um 18 30 an der Reinoldikirche an der Pylone TOPS n chste Sitzung siehe n chste Sitzung 210 KAPITEL 13 ANHANG Sitzungsprotokoll vom 13 12 2005 Abwesend Jana entschuldigt Versp tet Christian 10 min Sitzungsleitung Me
150. m folgendermassen bewertet bk Nachricht Nr 14 wird vom System folgendermassen bewertet ooo ba Nachricht Nr 15 wird vom System folgendermassen bewertet Nachricht Nr 16 wird vom System folgendermassen bewertet Nachricht Nr 17 wird vom System folgendermassen bewertet ooo ko Nachricht Nr 18 wird vom System folgendermassen bewertet E Nachricht Nr 19 wird vom System folgendermassen bewertet bau Nachricht Nr 20 wird vom System folgendermassen bewertet bis hier her waren es erlemte Bsp LL Y Y Abbildung 5 6 Entscheidungsbaum Tests mit den gelernten Beispieltexten Zweiter Ansatz Der erste Ansatz hat zwei Schwachstellen die wir in einem neuen Ansatz zu verbessern verucht haben Zum einen wurden im ersten Ansatz die Vorteile der Entscheidungsbaum Theorie nicht vollst ndig ausgenutzt Das lag daran dass wir selber manuell festgelegten bei welcher Wortkombination eine Nachricht als gut oder als schlecht zu klassifizieren ist Dies hat zum einen den Nachteil dass f r die Klassifikation der Nachrichten nur eine begrenzte Anzahl von Kriteri en festgelegt werden konnten Zum anderen k nnen Nachrichten positiv oder negativ sein aus Gr nden die wir bersehen haben Die zweite wichtige Schwachstelle des ersten Ansatzes ist dass er keine Lern komponente besitzt Anstatt also die Kriterien f r die G te einer Nachricht selber festzulegen ist es kl ger anh
151. matrix Falls ein Neuron oft Zentrum von pr sentierten Nachrichten ist bedeutet dies dass die Synonymgruppenmatrix dieses Neurons aussagekr ftig ist Mit der Kenntnis des Anwenders was die pr sentierten Nach richten bedeuten Wertsteigerung Verlust Verkauf Insolvenz ist es so m glich Wahrscheinlichkeitsverteilungen von Synonymgruppen des W rterbuchs eindeu tig einer semantischen Aussage zuzuordnen Anwendung dieser Methode speziell f r unser System Die SOM wurde als externes Tool also als eigene Java Anwendung entwickelt da im FIPs Ablauf sp ter nur das Ergebnis aussagekr ftige Nachrichtenmatrizen verwendet wird Die Einbettung der SOM in das FIPs Konzept ist wie folgt 1 Zu einem bestimmten Zeitpunkt t f r alle bisher gegebenen Nachrichten ein W rterbuch erstellen Nachrichten in NMx kodieren und die SOM mit den Nachrichten trainieren 2 Manuell Gruppen aus der SOM identifizieren eine aussagekr ftige Ge wichtsmatrix der Gruppe als dessen Repr sentant w hlen und mit einer Bewertung versehen 3 F r jede neue Nachricht nach dem Zeitpunkt t diese mit allen Gruppen repr sentanten vergleichen und mit der Bewertung versehen zu dessen Gruppe die Nachricht am hnlichsten ist Das Programm Abbildung 5 10 besteht aus einer graphischen Oberfl che die in drei Regionen unterteilt ist 1 Links ist die Gitterstruktur der Neuronen dargestellt Jedes Neuron ist als Kreis repr sentiert Der Abstand ist als Zahlenwe
152. mit Hilfe von positiven und negativen Beispielen trainiert d h der Lernvorgang erfolgt durch explizite Angabe von Beispielen die akzeptiert oder nicht akzeptiert werden sollen F r positive Bei spiele soll gelten c X f r negative c X Zur besseren Veranschaulichung soll zun chst dieses Beispiel aus der DVEW Vorlesung dienen Beispiel Zu erlernendes Konzept Sportsendungen die Paul schaut Die Beispiele der Grundmenge M werden als Tupel von Attributen in der Beispielsprache formuliert Hier Sport Art Ort Ebene Tag Menge an Trainingsbeispielen Die Konzeptsprache unterscheidet sich von der Beispielsprache inso fern als dass hier noch die Sonderzeichen und erlaubt sind e kennzeichnet dass jeder Attributwert f r dieses Attribut erlaubt ist e kennzeichnet dass kein Attributwert f r dieses Attribut er laubt ist Eines der Zielkonzepte das anhand dieser Grunmenge gelernt werden soll ist Mannschaft national Samstag 5 5 METHODEN IM DETAIL 61 Anwendung dieser Methode speziell f r unser System Die Probleme die sich hierbei f r unsere Nachrichtenklassifikation ergeben sind folgende Man ben tigt also f r jede Klasse ein Konzept welches bestimmt ob eine Nachricht zu der Klasse geh rt oder nicht 1 Problem Das Konzept f r jede Klasse muss bekannt sein Das ist bei uns bisher nicht der Fall 2 Problem F r jedes Konzept m ssen geeignete Attri
153. mmon saaa 124 TL Login Sreem 2 2 2232 aaa ar ar Br innen 132 11 2 Pers nliche Daten ie e idre aat a nme nennen 133 11 3 Fragebogen erster Teil E 134 11 4 Fragebogen zweiter Teil 2 2 nn 135 11 5 Anmeldebest tigung 136 11 6 Aktienk talog a an er re ee 137 11 7 Portfolio ndern na 2 2 eeoa on 138 11 8 Me P rtfohe Mr a N a AN 139 11 9 News bersicht 2 2 2 2 oo Ener nenn 140 11 10Nachricht im Detail 2 Comm n nn 141 11 11Nachrichten bewerten berblick 2 2 2 2 200 142 11 12Klassifizierung des User 143 13 1 FIPs Grobkonzept 150 13 23 PIPS Mindmap sre e rar ALS an rei 153 13 3 Zeitplan Hr ae ee ne Fa 165 Kapitel 1 Einleitung 1 1 Thema der PG Mit privaten und beruflichen Ver nderungen ndern sich auch die finanziel len Rahmendaten im Leben eines jeden Anlegers Die Bedeutung einer auf die jeweiligen Bed rfnisse des Anlegers ausgerichtete Investmentstrategie hat sich gerade im Hinblick auf den demographischen Wandel drastisch ver ndert Be rufseinsteiger haben z B im Hinblick auf Sicherheit Flexibilit t oder Liqui dit t andere Bed rfnisse als Personen im Ruhestand Das Internet kann dem Anleger dabei heutzutage vielf ltige Informationen aus der Finanzwelt in un terschiedlicher Qualit t Quantit t Aussagekraft und Zeitlichkeit liefern Hier zu z hlen u a Bloomberg News Emittentenmitteilungen Zeitungsmeldungen Aktienkursinformationen oder Einsch tzungen durch Wirt
154. mmten Liste zuordnen kann Beide Listen k nnen vom User verwaltet und modifiziert werden so dass es auch m glich ist be stimmte Bereiche komplett auszublenden 8 3 2 Ausgabe Dieses Vorgehen f hrte dazu dass der BayesClassifier zu 80 Junks richtig erkennt was schon eine deutliche Verbesserung zu dem eigentlichen BayesClas 8 4 W RTERBUCH 117 sifier und SVMs ist Ein weiteres Ziel vom SpamfFilter war es doppelte und leere Nachrichten aus der Datenbank zu entfernen bzw gar nicht erst in der Datenbank abzulegen Daf r verwendeten wir einen Algorithmus md5 der einen Message Digit f r jede Nachricht erzeugt so dass komplett syntaktisch hnliche Nachrichten mit berpr fung auf Identit t mit dem Wert gefunden und nicht gespeichert werden 8 4 W rterbuch 8 4 1 Konzept Um eine bessere Kategorisierung der Nachrichten zu erreichen als ber blo es Clustering nach der H ufigkeit aller W rter ist es n tig relevante W rter zu bestimmen die als Bestimmungsgrundlage f r CI oder KI Verfahren dienen Da so ein Finanzw rterbuch noch nicht vorhanden war haben wir selbst ein W rterbuch erstellt Das W rterbuch wurde mittels einer graphischen Ober fl che erstellt Dort wurden Finanznachrichten aus der Datenbank dargestellt Die PG Teilnehmer markierten W rter die sie als relevant f r die Einsch tzung der Nachricht empfanden diese wurden auf ihre Stammform reduziert und im W rterbuch gespeichert Au erdem konnte m
155. n Entscheidung dar ber was und wer wird verscho ben Konzeptskizze FIPs grobe Idee des Systems Was in der Blackbox in der Mitte zu passieren hat YVerarbe itung der Auswahl der N Ber cksichtigun Pr ferenzen Ler noch unk la Abbildung 13 1 FIPs Grobkonzept ist noch unklar Bis zur n chsten Sitzung am 18 4 05 sollte sich jeder dazu Gedanken machen und eine mindmap erstellen Sonstiges Schl ssel f r den Pool werden verteilt Martin gibt eine Einf hrung in TeX LaTeX Ahmed wird die TeX Vorlage f r die schriftlichen Ausarbeitungen rummailen 13 1 SITZUNGSPROTOKOLLE TOPS n chste Sitzung siehe n chste Sitzung 151 152 KAPITEL 13 ANHANG Sitzungsprotokoll vom 18 April 2005 Abwesend niemand Versp tet Christian 10 Min Markus 10 Min Sitzungsleitung Jana Protokollf hrung Rene Tagesordnung 1 Begr ung 2 Formalia 3 Vorstellung Diskussion und Fusion der verschiedenen mindmaps 4 Sonstiges 5 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird an genommen Noch immer nichts Neues ber die Rechnung Erinnerung ICQ Nummern an Stefan mailen Die Vortr ge die in der letzten Sitzung beschlossen wurden werden am n chsten Montag 25 04 gehalten Vorstellung Diskussion und Fusion der verschiedenen mindmaps siehe Grafik FIPs Mindmap
156. n Ent scheidungsregeln Weiter ist die Aufgabe der KI die Finanzprodukte hinsichtlich Chancen und Risiken zu bewerten wobei sie auf fundamentale Bewertungskrite rien und auf die extrahierten Daten aus den textuellen Nachrichten zur ckgreift Die Bewertung der Finanzprodukte beinhaltet hier die Bewertung der Aktien 1 2 PLICHTENHEFT 13 a Nachrichten EN Anleihe wech A 24 eg 7 eme bewerten e bewerten KT _ lt lt extend gt D Seege d Nachrichten bewerten LEE a E Konfiguration lesen A f zextend gt gt er ul r 8 Er lt lt include gt gt Serien sd Nachricht u Wrapper starten gt Daten extrahieren Ss ____ lt lt include gt gt Rohe ww d d VG ODO N ee K f Sa Er Finanzprodukt holen amp extand gt gt S Ae lt lt include gt gt 7 ee F j Sa Sa Bee gt l K Se F A We Ergebnisse abspeichern I Ze En K we gt zj Z achrichtenVWrapper sta e gt k lt extena gt dE GH lt sextend gt gt IR lt lt expa gt gt E i 7 lt Swxtend gt gt r RSS ara ni starten A HTML Wrapper starten AnleihenWra KE ie ee Abbildung 1 2 KI Anwendungsfalldiagramm 1 2 4 Produktfunktionen Akteur User Anwendungsf lle Neuen User anlegen Durch diese Funktion kann ein neuer User Account erstellt werden Wenn der User auf den Link Neuer User klickt gelangt er in das Fens ter in dem er seine pers
157. n Kennzahlen zur fundamen talen Bewertung von Aktien beschrieben Sie lauten KGV PEG DIV KCV KBV MU CM EBIT EBITDA und EKR KGV Das Kurs Gewinn Verh ltnis stellt den Gewinn eines Unternehmens mit der aktuellen B rsenbewertung in Verh ltnis Diese Rentabilit tskennziffer ist eines der g ngigsten Instrumente zur Beurteilung von Aktien Dazu wird das KGV einer Aktie mit dem Durchschnitts KGV des gesamten Marktes oder Bran che verglichen Ist das KGV der Aktie geringer als das Durchschnitts KGV so deutet dies auf eine preiswerte Aktie hin Allgemein kann man sagen dass ein niedriger das KGV auf eine g nstige Bewertung der Aktie hinweist PEG Die Kennzahl Price Earning to Growth Ratio setzt das KGV eines Gesch ftsjahres in Relation zum erwarteten Gewinnwachstum im kommenden Gesch ftsjahr Diese Kennzahl wird vor allem bei Wachstumswerten zur Be wertung eingesetzt insbesondere f r Unternehmen die wertsteigernde Wachs tumschancen besitzen Wachstum hat einen positiven Einflu auf den Unterneh menswert e PEG Ratio lt 1 Unterbewertung da KGV geringer als die Wachstumsrate e PEG Ratio gt 1 berbewertung e PEG Ratio 1 faire Bewertung Allerdings muss das PEG eines Unternehmens sinnvollerweise mit dem Bran chendurchschnitt verglichen werden Wenn eine bestimmte Aktie eine PEG Ratio von 1 1 aufweist und die PEG Ratio des Branchendurchschnitts 1 4 be tr gt dann kann man nicht in isolierter Betrachtung des Unter
158. n Konzept Klassen begonnen da alle Bei spiele f r jedes Konzept von Hand bewertet werden m ssen und wir au erdem prinzipiell gar nicht wissen welche sinnige Klasseneinteilungen bestehen k nnten Eines ist aber klar Die Konzepte Nachricht best tigt Outperformer Nachricht best tigt Marketperformer 62 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN Nachricht best tigt Underperformer sind essentiell f r unsere Bewertung und somit seien diese Konzepte die Grundlage einer ersten Implementierung Im Folgenden wird sich zun chst auf das Konzept des Outperformers konzentriert in der Hoffnung wenigs tens Nachrichten klassifizieren zu k nnen die ein Unternehmen als Out performer best tigen w rden Die anderen Konzepte werden dann analog trainiert mit ggf anderen Beispielen und anderen Bewertungen e Es wird anhand von syntaktischen Abh ngigkeiten gelernt Semantiker kenntnisse liegen nicht vor W rterbuch wird ben tigt e Die Attribute der Beispielsprache sind nun nicht mehr mehrwertig son dern bin r Jedes Attribut steht f r ein Wort Jeder Attributwert ist entweder 0 oder 1 Wort kommt im Text vor 1 oder nicht 0 Zur weiteren Verbesserung wird ein Stemming des W rterbuches betrieben Jeder vorliegende Nachrichten Text kann nun zu einem Beispiel als Eingabe konvertiert werden wenn er von uns manuell bewertet wurde das Lernverfahren also wei ob es den
159. n Problembe reich f llt ein gutes W rterbuch zu erstellen e Synonymgruppen Vektor Ansatz Dieser Ansatz baut auf dem naiven Ansatz auf ben tigt jedoch eine Reihe an vorverarbeitenden Schritten Der Eingabevektor f r das Netz ist wieder ein 0 1 Vektor der L nge M jedoch diesmal ber einem W rterbuch aus Synonymgruppen So ein W rterbuch enth lt M Zahlenwerte wobei jede dieser Zahlen f r eine Synonymgruppe steht Zwei oder mehr W rter sind Synonyme wenn sie in einem bestimmten Kontext die gleiche Bedeutung haben Die Syn onymgruppe 319 besteht z B aus Ausbeute Einnahmen Erl s Ertrag Gewinn Profit Rendite berschuss Um zu dieser Darstellung zu kommen m ssen die Finanznachrichten ei nige preprocessing Schritte durchlaufen F r eine genauere Beschreibung siehe Allgemeine Methoden 1 Stemming Lemmatisierung W rter werden auf ihre Stammform zur ckgef hrt 2 Stoppwort Bereinigung Text wird um sogenannte Stoppw rter W rter die sehr h ufig in Texten vorkommen bereinigt 3 Synonymgruppen finden Zu jedem verbleibenden Wort des Textes wird die Synoymgruppe herausgefunden Probleme Dieses Vorgehen nimmt keinerlei Bezug auf die Position der W rter im Text und auf den Kontext Die Rekonstruktion der Nachricht die dann aus einer Menge von Synonymgruppen besteht deutet nur noch teilweise auf den Inhalt hin es kann aber kein Bezug zwischen Pr dikaten und Objekten 5Synonymgruppe entsprich
160. n inhaltlich st rker getrennt w ren Dies war nat rlich keinesfalls ein Grund den Kopf in den Sand zu stecken so dass wir nach weiteren M glichkeiten gesucht haben BayesClassifier Nach weiterer Recherchearbeit stie en wir auf ein OpenSour ce Projekt namens BayesClassifier das auch im Netz angepriesen wurde und unter www sourceforge net frei verf gbar ist Es benutzt wie der Na me schon sagt Bayessche Wahrscheinlichkeiten um eine neue Nachricht zu klassifizieren Das Programm funktioniert grob folgenderma en Als Input erh lt es eine Menge von Daten die schon vorklassifiziert sind Mit Hilfe von Bayes werden dann Wahrscheinlichkeiten f r W rter berechnet die 116 KAPITEL 8 BESCHAFFUNG BEN TIGTER DATEN ausschlaggebend daf r sind dass diese Nachricht gejunkt bzw relevant ist Das gute und einfache ist dass man dem Programm kein W rterbuch zur Verf gung stellen muss sondern es f r sich ein eigenes W rterbuch mit niedrigen Wahrscheinlichkeiten f r Spamw rter und hohen Wahrschein lichkeiten f r Nicht Spam W rter erstellt Die Formel f r die Wahrschein lichkeitsberechnung einer neuen Nachricht sieht wie folgt aus Prob words spam x Prob spam Formel vom BayesClassifier Prob spam words Problworde Diese Wahrscheinlichkeiten wendet das Programm auf neue Nachrichten an und versucht dann anhand der Wortwahrscheinlichkeiten richtig zu kategorisieren Zu dem ben tigt man nat rlich noch Stoppwortlisten d
161. n k nnen die feinen Bereiche des Kunden bzw Fi nanzvektors dann gr beren Beschreibungen siehe unten zugeordnet werden und zwar mit gewissen Toleranzen so dass nicht immer nur ein starrer Bereich vorgegeben ist sondern dar ber hinaus auch andere Bereiche in einer ermittel ten Ordnung zugeordnet werden k nnen Die folgende Grobklassifizierung Abstimmung mit der Finanzprodukte Gruppe wird dann auf den Vektor bertragen so dass sp ter Bereiche Fuzzy Mengen zugeordnet werden k nnen e Sicherheit sehr hoch hoch hoch mittel 6 3 ADAPTION VON FUZZY LOGIK AUF UNSER SYSTEM 95 mittel mittel gering gering sehr gering e Verf gbarkeit kurzfristig Monate mittel Jahre langfristig Jahre e Rendite wird nicht vom Kunden angegeben wer will keine hohe Rendite sondern vom System anhand Verf gbarkeit und Sicherheit berechnet sehr hoch hoch hoch mittel mittel mittel gering gering sehr gering Die linguistischen Variablen sind hierbei Sicherheit Verf gbarkeit und Ren dite Die linguistischen Terme sind am Beispiel f r die LV Verf gbarkeit kurzfris tig mittel und langfristig Nun haben wir die LVs definiert Was nun noch fehlt ist die genaue Festle gung der LTs Sicherheit F r die LV Sicherheit gibt es nach unserer Grobklassifizierung 7 LTs Folgende Pr missen sollen f r die Aufstellung der LTs gegeben sein e Die Mengen werden als Trapeze angegeben e
162. n sind nicht mehr in einer Dimension sondern in zwei Dimensionen z B Sicherheits und Verf gbarkeits Funktionen k nnen unterschiedliche Werte enthalten genauer Sicherheitswert vom Kunden ist 21 und Verf gbarkeitswert ist 54 Die eingesetzten Funktionen HSicherheit hoch und Huer fuegbarkeit mittelfristig verarbeiten nicht den gleichen Wert denn in Sicherheit hoch wird der Sicher heitswert und in der anderen der Verf gbarkeitswert eingetragen Somit entsteht ein 2 dimensionales Feld an Werten Tupeln denen dann jeweils Fuzzy Werte zwischen 0 und 1 0 durch die Fuzzy Funktionen zugeordnet werden Das geht am besten mit Fuzzy Und gamma da nach Betrachtung des Schaubildes der Funktion sich diese als geeignet f r unsere Klassifizierung herausgestellt hat Durch diese Kombinationen k nnen die drei Dimensionen des Kundenvek tors Sicherheit Verf gbarkeit und Rendite untereinander zusammengefasst werden so dass Klassen entstehen die den Kunden kategorisieren k nnen z B welchen Zugeh rigkeitswert hat der Kunde zu der Klasse bei der Sicherheit hoch Verf gbarkeit kurzfristig und Rendite mittel ist Diese Werte k nnten dann absteigend sortiert werden so dass f r den Kunden mehrere Klassen mit unterschiedlicher Zugeh rigkeit entstehen k nnen wodurch auch die zu empfeh lenden Aktien abh ngen Wenn man diese Klassen noch erweitern m chte dann k nnte man z B die Sicherheitsklassen vorher noch durch elementare Kombi n
163. n und gerichteten Kanten Die Wurzel und die inneren Knoten repr sentieren Attribute und die Kanten Attri butbelegungen Die Bl tter repr sentieren die Klassen in welche die Objekte einsortiert werden Diese Objekte werden am Ende eines vollst ndigen Pfades klassifiziert An jedem inneren Knoten wird die Kante gew hlt bei der die Attri butbelegung der Kante mit der des Objektes bereinstimmt Um einen Entschei dungsbaum m glichst klein zu halten um die Objekte recht effektiv einzuteilen ist die Wahl des Attributes welches als n chstes betrachtet wird von gro er Wichtigkeit Es wird immer das Attribut gew hlt welches den gr ten Infor mationsgehalt besitzt Das ist dasjenige das die meisten Objekte klassifiziert Erster Ansatz Das Hauptproblem bei der Anwendung dieser Methode f r unser System be steht darin dass wir keine vern nftigen Attribute finden nach denen die Texte einzuteilen sind Deshalb haben wir diese Methode ein wenig abgewandelt Aus einem Entscheidungsbaum liest man im Endeffekt eine Argumentationskette in der folgenden Form ab IF Attributwert 1 des Objektes Attributwert 1 der Kanten UND UND Attributwert n des Objektes Attributwert n der Kanten THEN Objekt geh rt in Klasse m Wir haben nun als Attribute ein zelne W rter verwendet und daraus Argumentationsketten aufgebaut die dann in die Klassen Positiver Text bzw Negativer Text eingeteilt werden Posi tiver Negativer Text be
164. nachrichten zu Synonymgruppen Unser An satz ist einen Thesaurus zu verwenden der bereits zu vielen W rtern Synonyme zur Verf gung stellt und diesen gegebenenfalls nach unseren Bed rfnissen zu er weitern Die PG hat sich entschieden den freien offenen deutschen Thesaurus Open The saurus zu verwenden Er enth lt zur Zeit 35 273 W rter in 14 375 Synonym gruppen Ein Beispiel f r eine Synonymgruppe w re die Gruppe 319 bestehend aus Ausbeute Einnahmen Erl s Ertrag Gewinn Profit Rendite berschuss OpenThesaurus ist offen in dem Sinne dass es registrierten Benutzern m glich ist aktiv am aktuellen Wortschatz mitzuarbeiten Neue W rter k nnen erstellt oder bestehende bearbeitet werden Bei den einzelnen Bedeutungen lassen sich dann z B unpassende W rter l schen oder neue hinzuf gen Der Zugriff auf den Thesaurus die Abfrage von Synonymen ist auch f r nicht registrierte Benutzer ber ein Webinterface m glich weiter kann ein tagesaktueller SQL Dump der Datenbank heruntergeladen werden Anhand eines solchen Dumps wurde der OpenThesaurus auch in unsere Datenbank unter thesaurus bertragen Die wichtigsten Tabellen der Datenbank sind folgende e words hier kann f r jedes Wort in Spalte word die interne ID id nach geschlagen werden e word_meanings hier kann nun mithilfe der word_id eines Wortes die der id aus words entspricht die zugeh rige Synonymgruppe meaning_id des Wortes gefunden werden
165. narvortr ge und die Ausarbeitungen der einzelnen Vortr ge In unseren ersten Projektgruppentreffen nach der vorbereitenden Seminarphase beginnen wir uns die Ziele unserer PG zu defnieren einen Zeitplan aufzustel len was wir bis zum Semesterende und abschliessend zum PG Ende fertigstellen wollen Aus erden wird besprochen welche Tools eingesetzt werden sollen 21 22 KAPITEL 2 ERSTE SCHRITTE Kapitel 3 Klassifizierung des Kunden 3 1 Einleitung Um den Kunden Finanz Empfehlungen zu geben die auf ihre pers nlichen Prio rit ten zugeschnitten sind ist es n tig die Kunden zu klassifizieren Daf r m ssen Daten erhoben und ausgewertet werden 3 2 Klassifizierung mittels Kundenvektor Da man nicht von vorneherein typische Kunden Kategorien kennt und auch noch keine Menge typischer Kunden vorgegeben hat die man zu Clustern zu sammenfassen k nnte wird eine m glichst feine Einteilung vorgenommen die dann mittels Fuzzy Schnitten den passenden Finanzprodukten zugeordnet wer den k nnen Rentabilit t Sicherheit Liquidit t Abbildung 3 1 magisches Dreieck Das Magische Dreieck der Finanzwelt besagt dass jedes Finanzprodukt sich 23 24 KAPITEL 3 KLASSIFIZIERUNG DES KUNDEN im Spannungsfeld zwischen Verf gbarkeit Sicherheit und Rendite befindet Ein Produkt was m glichst sicher und st ndig verf gbar ist bringt normalerweise keine hohe Rendite ein Produkt was relativ sicher und rentabel ist ist norma
166. nd berechnet und der Datenbank zugef gt 8 1 3 Ausgabe Es erfolgt keine f r den Benutzer sichtbare Ausgabe da die Werte nur syste mintern zur Bewertung verwendet werden Nach der Ausf hrung des Wrappers stehen dann die Fundamentalkennzahlen die Branche und die ISIN aller Aktien im DAX30 zugriffsbereit in der Datenbank zur Verf gung 8 2 Finanznachrichten durch RSS Wrapper 8 2 1 Einleitung Der RSS Wrapper ist eine Implementierung um Nachrichten aus dem Internet in die FIPs Datenbank zu bertragen Das Konzept und der Hintergrund des RSS Wrappers wird im folgenden erl utert Die Problemstellung Nachrichten zu bewerten bzw zu klassifizieren beruht entschieden darauf welche Nachrichten zugrunde gelegt werden Da FIPs zur Zeit nur das Finanzprodukt Aktie ber cksichtigt sind nur Nach richten ber Unternehmen interessant die an der B rse verzeichnet und ber das Internet verf gbar sind Die f r uns interessanten Nachrichten unterschei den sich in der Struktur der Nachricht und dem Inhalt Nachrichten aus dem Internet liegen in folgenden Formaten vor e Newsletter e Feeds e Webseiten e Newsgroups e Ticker e Weblogs e Dokumentdateien PDF DOC PS Um die Komplexit t der Nachrichtenquellen zu verringern werden im folgen den Newsgroups Ticker und Weblogs nicht mehr beachtet da diese auch nicht den prim ren Weg darstellen ber den offizielle Nachrichten von Unternehmen die ffentlichkeit erreichen Daraus erge
167. nder oder Out performer ist demnach nur schlecht m glich falls diese Werte gr er sind als der Zugeh rigkeitswert zu Marketperformer 4 3 BESTIMMUNG DES PERFORMERS VON FINANZPRODUKTEN 35 Regel Gewichtung Regel 1 Wenn KGV Hoch dann PKGV Under 0 9 Regel2 Wenn KGV Mittel dann PKGV Market 0 5 Regel3 Wenn KGV Niedrig dann PKGV Out 0 9 Regel4 Wenn PEG Hoch dann PPEG Under 0 7 Regel5 Wenn PEG Mittel dann PPEG Market 0 6 Regel6 Wenn PEG Niedrig dann PPEG Out 0 7 Regel Wenn DIV Hoch dann PDIV Out 0 8 Regel8 Wenn DIV Mittel dann PDIV Market 0 6 Regel9 Wenn DIV Niedrig dann PDIV Under 0 3 Regel 10 Wenn KCV Hoch dann PKCV Under 0 71 Regel 11 Wenn KCV Mittel dann PKCV Market 0 36 Regel 12 Wenn KCV Niedrig dann PKCV Out 0 71 Regel 13 Wenn KBV Hoch dann PKBV Under 0 34 Regel 14 Wenn KBV Mittel dann PKBV Market 0 3 Regel 15 Wenn KBV Niedrig dann PKBV Out 0 34 Regel 16 Wenn MU Hoch dann PMU Under 0 4 Regel 17 Wenn MU Mittel dann PMU Market 0 32 Regel 183 Wenn MU Niedrig dann PMU Out 0 4 Regel 19 Wenn CM Hoch dann PCM Out 0 8 Regel 20 Wenn CM Mittel dann PCM Market 0 63 Regel 21 Wenn CM Niedrig dann PCM Under 0 8 Regel 22 Wenn EBIT Hoch dann PEBIT Out 0 5 Regel 23 Wenn EBIT Mittel dann PEBIT Market 0 5 Regel 24 Wenn EBIT Niedrig dann PEBIT Under 0 5 Regel 25 Wenn EBITDA Hoch dann PEBITDA Out 0 5 Regel 26 Wenn EBITDA Mittel dann PEBITDA Market 0 5 Regel 27 Wenn EBITDA Niedrig dann PEBITDA Under 0 5 Regel 23 Wenn EKR Hoch dann
168. ne der aussagekr ftigsten Erfolgskennzahlen um die operative Ertragskraft einer Gesellschaft zu beurteilen Da international betrachtet die Gesellschaften unter unterschiedlichen Gesetzgebungen bilan zieren erm glicht die Kennzahl EBITDA aufbauend auf dem EBIT aussage kr ftigere Vergleiche der operativen Ertragskraft als man durch den ausgewie senen Jahres berschu erh lt Beispielsweise weisen investitionsfreudige Unter nehmen hohe ergebnismindernde Abschreibungen und damit einen geringeren Jahres berschu als weniger investitionsfreudige Unternehmen auf Somit hat das EBITDA einen gewissen Bereinigungscharakter EKR Die Eigenkapitalrendite in entspricht der Kapitalrentabilit t eines Unternehmens Sie errechnet sich aus dem Jahres berschu dividiert durch das eingesetzte Eigenkapital Sie gibt die Verzinsung des Eigenkapitals an und ist deswegen vor allem aus Sicht der Aktion re wichtig Im Vergleich zu anderen Unternehmen einer Branche gilt grunds tzlich Je h her die Eigenkapitalrendite desto positiver f llt eine Bewertung f r das Unternehmen aus Allerdings mu eine relativ geringe Eigenkapitalrendite f r sich nicht unbedingt negativ inter pretiert werden falls z B die Gesellschaft diese in den letzten Gesch ftsjahren sukzessive erh hen konnte der Trend also positiv ist Dann l t sich hieraus interpretieren da das Managment die Ertragssituation in den Griff bekommt 4 3 Bestimmung des Performers von Finanzpro
169. ne gro e Aussagekraft zu seltene W rter sind eben wegen der geringen berdeckung ungeeignet Es wird also ein einfaches W rterbuch aller Synonym gruppen erstellt f r die gilt min lt fipscouter lt max Die Wahl von min und max ist dabei abh ngig von der Anzahl betrachteter Nachrichten und der gew nschten Gr e Strenge des W rterbuchs 120 KAPITEL 8 BESCHAFFUNG BEN TIGTER DATEN Kapitel 9 Speicherung der Daten im System Die Datenbank bildet unterste Schicht des FIPs Systems Zur Persistenz der Daten wird das Postgre SQL Datenbanksystem verwendet Die Daten werden in einer relationalen Datenbankstruktur gespeichert Der Zugriff von Java aus auf die Datenbank erfolgt mittels SQL Anweisungen ber die JDBC Schnittstelle die seit Version 1 4 Bestandteil der Java 2 Plattform ist 9 1 DPB Schema Die beiden folgenden Abbildungen zeigen das Konzept auf dem die Daten bank arbeitet Dabei bildet das erste Diagramm nur die Relationen und deren Beziehungen zueinander ab Das zweite Bild f hrt die Attribute der einzelnen Relationen auf Im Zentrum des Datenbankkonzepts befindet sich die Tabelle Aktie Eine Aktie wird identifiziert durch ihre ISIN Zus tzlich werden der Name des Unter nehmens zu dem die Aktie geh rt und der Link zu der Homepage des Unterneh mens abgespeichert Des Weiteren werden alle Fundamentalkennzahlen wie peg kbv kgv die zu der Aktie geh ren abgespeichert Diese Daten sind die Werte aus dem letzten
170. nehmens von einer berbewertung ausgehen DIV Die Dividendenrendite in ist eine Kennzahl zur Bewertung und zum direkten Vergleich von Aktien Die Kennzahl setzt die vom Unternehmen gezahl te Dividende mit dem Kurs der Aktien ins Verh ltnis Dabei k nnen die Berech nungen sowohl auf der Basis der momentan gezahlten Dividende als auch auf Basis von erwarteten k nftigen Dividenden erfolgen Allgemein kann man sa gen dass je h her die Dividendenrendite ist umso h her ist auch die Dividende die der Anleger bekommt Allerdings kann das Kapital der Gewinnaussch ttung vom Unternehmen nicht f r wachstumssteigernde Ma nahmen eingesetzt wer den 4 2 FUNDAMENTALE KENNZAHLEN EN KCV Der Kurs Cash Flow ist der Quotient aus dem Aktienkurs und Cash Flow je Aktie Aktienkurs Cashflow Der Cashflow auch Umsatz berschu Fi nanz berschu ist der Nettozugang an liquiden Mitteln aus der Umsatzt tigkeit und sonstigen laufenden Aktivit ten w hrend einer Periode Der Cashflow an sich ist schon eine sehr g ngige und aussagestarke Kennzahl Nach der Definition des Cashflow ist das KCV nun eine liquidit tsorientierte Kennzahl Sie wird zur Bewertung der Entwicklung der Ertragskraft einer Un ternehmung in der Zukunft sowie zum Vergleich verschiedener Unternehmungen miteinander verwendet Falls das KGV einer Aktiengesellschaft aufgrund von Verlusten der Aktiengesellschaft nicht errechnet werden kann dann wird das KCV angewendet Je niedrig
171. nen und entsprechend zu extrahieren oder anhand von Merkmalen die einen Nachrichtentext auszeichnen automatisch ohne Wissen ber die zu grunde liegende Webseite den Inhalt zu extrahieren Unternehmensberichte Unternehmensberichte f r Unternehmenskenndaten sind fast ausschlie lich im PDF Format in einem erz hlenden Text vorhanden Das bedeutet die f r uns wichtigen Kenngr en sind daraus eigentlich nicht automatisch berechenbar da sich in solchen Berichten bunte Charts und Tortendiagramme mit um den hei en Brei geschriebenen Text abwechseln Der eigentlich erhoffte Stan dard XBRL ist im Internet z Z jedenfalls noch nicht so verbreitet f r die ffentlichkeit zug nglich Wahrscheinlich wird dieser Standard berwiegend in tern oder auf nicht ffentlichen Kommunikationswegen genutzt Unternehmen 110 KAPITEL 8 BESCHAFFUNG BEN TIGTER DATEN Finanzamt Die Deutsche B rse stellt zwar einige Berichte zur Verf gung diese umfassen allerdings zu wenige und f r uns uninteressante Unternehmen Daraus resultiert dass hier der Schwerpunkt auf strukturierte Nachrichten gesetzt wird Als strukturierte Nachrichten bieten sich die RSS Feeds an RSS Feeds liegen in einem standardisierten Format vor und eignen sich f r die ma schinelle Weiterverarbeitung da sie auf dem XML Format basieren lt xml version 1 0 encoding iso 8359 1 7 gt lt rss version gt lt channel gt lt title gt Titel des News Feeds lt title gt
172. nig besser ausgearbeitet werden sollten Anregungen von Stefan Vielleicht zu Beginn des neuen Semesters eine Zusammenfassung f r die Entory AG machen was wir bis jetzt haben Ziele am Montag den 18 07 2005 Zusammentragen was wir noch tun m ssen Zeitplan erstellen f r das n chste Semester Kassensturz Rene macht KEINEN Kassensturz zum Ende des Semesters Betram bezahlt noch 10 Euro f r das Grillen Stefan R hatte noch Schwierigkeiten das SDK f r J2EE zu instalieren Wolfang TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 185 Sitzungsprotokoll vom 18 07 2005 Abwesend niemand Versp tet niemand Sitzungsleitung Martin Protokollf hrung Stefan R Tagesordnung 1 Begr ung 2 Formalia 3 Berichte 4 Zeitplan 5 Sonstiges 6 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Berichte Niels berichtet ber die Einarbeitung in die Datenbank Es wurden dabei Ta bellen angelegt und SQL Befehle ausprobiert Schwierigkeiten gab es bei der Erstellung einer neuen Datenbank da die ben tigten Benutzerrechte nicht vor handen waren Madan berichtet ber die Einarbeitung in Webtechnologien JavaServerPages HTML Eine erste Version der Webpr senz ist bereits erstellt worden Entwurf Realisierbarkeit Des weiteren ist eine Anbindung an die Daten
173. nition der Schnittstelle wie folgt interface testvektor int nr String titel String text Timestamp datum int bewertung String aktie Dabei ist die Auspr gung der Bewertung e 0 keine e 1 200 KAPITEL 13 ANHANG e 7 Kleingruppe Lernen Gibt noch keine vorstellbaren Ergebnisse Kleingruppe Semantik Gibt noch keine vorstellbaren Ergebnisse Berichte ber die Tests Nils berichtet dass die Tests noch schwierig sind da die Daten sehr miteinan der verkn pft und die Ergebnisse schwer nachzuvollziehen sind Die Funktiona lit ten der Webseite m ssen noch getestet werden Madan macht den Vorschlag Erstellt eine todo Datei im CVS in der alle noch zu erledigenden Implementierungs Verbesserungsaufgaben stehen Jeder soll diese Datei ansehen und Aufgaben davon erledigen und kurz kennzeichnen was er gemacht hat oder ob eine Aufgabe gerade in Bearbeitung ist Sonstiges Entory Markus m chte gerne die zuletzt ge nderten Dokumente sehen Die sind aber schwierig im egroupware zu finden Deshalb wird jetzt ein change log im egroupware eingef hrt dass zu pflegen ist und in dem alle nderungen oder Neuerungen von Dokumenten aufgef hrt sind Der Zeitplan soll bis am Dienstag aktualisiert werden TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 201 Sitzungsprotokoll vom 22 11 2005 Abwesend Stefan B entschuldigt Versp tet Christian Stefan R Jana 5 min Sitzun
174. nk und Tomcat sind eingerichtet eine Passwort nderung wurde nicht beschlossen Pr sentation Ahmet Martin und Ren haben einen Probedurchlauf f r den Vortrag gemacht Alle waren mit dem Ergebnis zufrieden Vorstellung des Zeitplans mit Aufgabenverteilung Die Aufgabenverteilung wurde besprochen Die Zuordnung ist auf dem Zettel Zwischenziele um das System zum Laufen zu bringen zu sehen Als Zeitraum wurde zun chst eine Woche bis zum 3 Nov 05 veranschlagt TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 191 Sitzungsprotokoll vom 3 November 2005 Abwesend Jana entschuldigt Versp tet keiner Sitzungsleitung Christian Protokollf hrung Rene Tagesordnung 1 Begr ung 2 Formalia 3 Kurzer berblick der Kleingruppen Zwischenergebnisse 4 Zeitplan 5 Klassendiagramm 6 Sonstiges 7 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll vom 27 10 05 wird ange nommen mit der nderung dass Task 4b von Martin und Ahmet anstelle von Bertram und Ahmet bearbeitet wird Kurzer berblick der Kleingruppen Zwischenergebnisse e Bertram stell den DB Controller vor Genaueres ist in der Pr sentation nachzulesen die sich im Egroupware System befindet e Die Kleingruppen sollen sich berlegen welche Daten sie von der DB ben tigen damit die Funktionalit ten programmiert werden k nnen ohne d
175. nlichen Daten z B Vorname Name eingeben muss Zudem muss er auch noch unsere AGB anerkennen Durch Bet tigen des But tons Weiter ffnet sich ein neues Fenster in dem er einen Fragebogen zu seiner Einsch tzung der eigenen finanziellen Situation ausf llen soll Dabei m ssen Fragen wie Wie hoch ist ihr Nettojahreseinkommen beantwortet werden Mit einem erneuten Klick auf den Button Weiter gelangt der Benutzer zu einem Fenster in dem er aus einer Liste von Finanzprodukten oder durch Angabe der WKN sein Portfolio zusammenstellen kann Einen Klick auf den Weiter Button best tigt die Eingaben in dem Fenster und f hrt zur Best tigung ihrer Anmel dung Sobald man auf OK geklickt hat gelangt man in das Willkommen Fenster in dem man sich mit dem zugeschickten Zugangsdaten einloggen kann Ab dem Fenster Pers nliche Daten bis zum Fenster Portfoliodetails besteht die M glichkeit in das jeweils vorherige Fenster durch Bet tigen des Buttons Zur ck zu gelangen 14 KAPITEL 1 EINLEITUNG Einloggen Nach Eingabe des Login und des dazu geh renden Passworts f hrt das Bet tigen des Button Login in das Fenster Overview Dort wird sein Portfolio mit Links zu den jeweiligen Firmen der Wertpapiere angezeigt Im Navigationsmen auf der linken Seite kann man folgende Aktionen ausf hren 1 pers nliche Daten bearbeiten 2 Portfolio ndern 3 Fragebogen bearbeiten 4 Links zu Informationsquell
176. nnzahlen werden Fuzzy Mengen zugeordnet und durch eine Regel basis wird die Bewertung festgelegt 170 KAPITEL 13 ANHANG Vorstellung eines Pflichtenheftes e Vorstellung eines Pflichten und Lastenheftes durch Martin e Die Unterlagen die von Martin vorgestellt wurden befinden sich im ge meinsamen Ordner unter Pflichtenheft e Alle Kleingruppen sollen sich schon Mal Gedanken ber Pflichtenhefte f r die jeweiligen Gruppen machen Vortrag von Wolfgang Hunscher E Group Ware wurde installiert und wird im Laufe der Woche zum Laufen gebracht Sonstiges e Kurzer Bericht der Kundengruppe e Gruppe Kunde stellt die ersten Layout Beispiele vor e Die Gruppen fangen mit der Bearbeitung der 2 gro en Theoriebl cke Ex traktion aus News und Entscheidung an TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 171 Sitzungsprotokoll vom 30 05 2006 Abwesend Rene Versp tet Ahmet 5 min Christian Madan Stefan 30 min Sitzungsleitung Mehmet Protokollf hrung Bertram Tagesordnung 1 Begr ung 2 Formalia 3 Vortrag von Wolfgang 4 Sonstiges 5 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Vortrag von Wolfgang Wolfgang war leider nicht da also wurde der Vortrag auf die n chste Sitzung verschoben Sonstiges e Das Pflichtenheft wurde angefangen ste
177. ns tze zur Umsetzung in Be zug auf das Problem der Nachrichtenklassifizierung insbesondere den Aspekt der Codierung und Darstellung der Nachrichten Texte Es wurde ber diverse Ans tze der Codierung und Durchf hrung diskutiert Wenn sich herausstellen sollte dass man die Nachrichten nicht nach dem Performer klassifizieren kann wird erhofft wenigstens die Relevanz einer Nachricht bestimmen zu k nnen Es kam allgemein das Bestreben auf m glichst bald eine Festlegung f r das weitere Vorgehen der Klassifizierung von News zu realisieren Folgende Konzepte stehen uns daf r zur Auswahl e SVM Mehmet Stefan e ART Za zur ckgestellt e Entscheidungsb ume Ahmet Rene Vertiefung besseres Pre processing 13 1 SITZUNGSPROTOKOLLE 207 e Konzeptlernen f llt raus da nicht m chtig genug e ML Feed Forward Bertram Vertiefung e SOM Martin Vertiefung besseres Preproc weitere Aufgaben e sutes W rterbuch bestimmen Jana Markus e Spam Filter Madan Christoph e Testen Niels Christian Top4 Dienstag f llt die Sitzung aus N chsten Donnerstag sollten erste Ergebnisse der Kleingruppen feststehen Top5 Wer noch Pfandflaschen aus dem Pool hat soll sie bitte wieder abgeben Die Rechner im Pool haben kein funktionierendes Openoffice mehr bzw ein Rechner fehlt Bertram sagt Wolfgang bescheid oder l st das Problem selbst Anmerkung f r n chsten Donnerstag Es kam die Idee auf mit der PG
178. ogik bestimmten Klassen zuzuordnen welche aus Tupeln von Sicherheit Verf gbarkeit und Rendite bestehen und diese Klassen danach sinnig zu verschmelzen so dass aus der bereinstimmung zwischen den Klassen des Kunden und denen des Finanzproduktes ein Rankingwert berechnet werden kann Ausgehend von dieser Berechnung kann einem Kunden so nun zu jedem Finanzprodukt die bereinstimmung zu seinem Anlageprofil berechnet werden und das ist die eigentliche Entscheidung 6 2 Fuzzy Logik Einf hrung 6 2 1 Motivation Die Fuzzy Logik grenzt sich von der klassischen Logik insofern ab als dass sie unscharfes Schlie en erlaubt und explizit mit den Mechanismen des unscharfen Schlie ens rechnet Mittels Fuzzy Mengen k nnen die feinen Bereiche des Kunden bzw Fi nanzvektors dann gr beren Beschreibungen zugeordnet werden und zwar mit gewissen Toleranzen so dass nicht immer nur ein starrer Bereich vorgegeben ist sondern dar ber hinaus auch andere Bereiche in einer ermittelten Ordnung 6 2 FUZZY LOGIK EINF HRUNG 89 Abbildung 6 2 Fuzzy Maximum Operation zugeordnet werden k nnen 6 2 2 Operationen Mithilfe der T und S Normen und der Max bzw Min Operatoren fassen wir Fuzzy Mengen zusammen min Operator F r zwei Fuzzy Sets A und B ist der Minimum Operator definiert zu Dell mintuale uel Anschaulich A Sicherheit sehr gering B Sicherheit gering gt C Sicherheit ist in A geschnitt
179. on den Administratoren einstell und wartbar Der Anwender kann sich einen Userac count anlegen und Angaben ber seine finanzielle Lage und seine Vorstellung ber die geplante Finanzanlage machen die FIPs in seine Empfehlungsberech nung einbezieht Die Erfassung dieser Daten erfolgt ber einen Fragebogen Die Aktie als einziges Finanzprodukt wird dem User sowohl aufgrund der Funda mentalkennziffern der Unternehmen als auch durch die Bewertung der News durch die Nutzer empfohlen Die Muss und ein Gro teil der Wunschkriterien sind erf llt worden 12 2 Ausblick Da die Bewertungskomponente nicht vollst ndig automatisch arbeitet ist hier auf jeden Fall noch Raum f r Erweiterungen Besonders Verfahren welche die Semantik von Texten analysieren k nnen vielleicht zu verbesserten Ergebnissen f hren Die graphische Gestaltung des Web Interfaces kann ebenso verbessert werden wie auch die Bedienbarkeit der einzelnen Funktionen 145 146 KAPITEL 12 ENDWORTE Kapitel 13 Anhang 13 1 Sitzungsprotokolle 13 1 1 Protokolle 1 Semester Sitzungsprotokoll vom 11 04 2005 Abwesend Nils entschuldigt Versp tet Christoph 30 min Markus 20 min Sitzungsleitung Stefan Berlik Protokollf hrung Bertram Tagesordnung 1 2 3 Begr ung Formalia Seminarfahrt Fragen Anregungen Schriftliche Ausarbeitungen Abrechnung s PG Kasse Technischer Beauftragte Sonstiges TOPS n chste Sitzung 147 1
180. r BewertungAktien anschaun Konzept der Kleingruppen e Extraktion aus News Gruppe hat ein 7 Schritte System aufgestellt wie man an Informationen aus RSS Feeds kommt und damit die Texte bewer ten kann Die Schritte 1 3 hat die Gruppe so weit fertig bearbeitet Haben eine Email rumgeschickt mit Informationen zu den einzelnen Schritten 174 KAPITEL 13 ANHANG e Die Gruppe Entscheidung f hrt vor wie man aus den Eingaben Kun denvektor und Finanzvektor mit Hilfe der Fuzzy Logik zu einem Ranking kommt in dem die Wertpapiere f r den Kunden nach dem h chsten Wert sortiert werden Mehr dazu steht im Egroupware Ordner Entscheidung Vortrag von Wolfgang Vortrag von Wolfgang ist ausgefallen Wird aufs n chste Mal verschoben Sonstiges e Stefan erinnert daran dass das Pflichtenheft weiter bearbeitet und in egroupware der Zeitplan fertiggestellt werden soll TOPS n chste Sitzung siehe n chste Sitzung 13 1 SITZUNGSPROTOKOLLE 175 Sitzungsprotokoll vom 9 Juni 2005 Abwesend Jana Versp tet Christoph 20 Min Sitzungsleitung Christian Protokollf hrung Rene Tagesordnung 1 Begr ung 2 Formalia 3 Zwischenberichte der Kleingruppen 4 Sonstiges 5 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Zwischenberichte der Kleingruppen Siehe Pr sentationsfolien der beiden
181. rechnen l sst 100KAPITEL 6 ENTSCHEIDUNGSFINDUNG GRUNDLAGE TECHN ANALYSE 6 4 Verschmelzung von FP und Kunde 6 4 1 Grundlegende Ideen Da wir jetzt die einzelnen Fuzzy Mengen f r den Kunden und den Aktien be stimmt haben k nnen wir uns anschicken den Kunden mit jeder Aktie zu ver schmelzen und mit den Zugeh rigkeitswerten zu den Fuzzy Mengen vom Kun den und von der Aktie zu verkn pfen Die Hauptidee besteht darin den Schnitt der Fuzzy Menge f r Sicherheit von dem Kunden mit jeder Fuzzy Menge f r Sicherheit der Aktie zu berechnen und den Performer der Aktie in dem Zu geh rigkeitswert der Rendite des Kunden mit einflie en zu lassen Konkret sieht das f r den Sicherheitswert so aus Wenn das Finanzprodukt einen positiven Zugeh rigkeitswert zu einer Sicherheits Fuzzy Menge hat was maximal bei zweien der Fall sein kann wird diese Menge mit der Sicherheits menge des Kunden die nach rechts erweitert wird mit Hilfe der Min Operation geschnitten Die Sicherheitsmenge kann deswegen getrost erweitert werden da ein Kunde sicherlich nichts dagegegen haben wird wenn es auch noch m gliche Aktien gibt die eine noch h here Sicherheitseinsch tzung besitzen da es f r den Kunden auf jeden Fall laut seiner Einstellung auch ok w re Von den entstehen den Schnittmengen wird der Fl cheninhalt ausgerechnet Der resultierende Wert wird mit dem Zugeh rigkeitswert zu der Finanz Sicherheits Fuzzy Menge und der Kunden Sicherheit Fuzzy Meng
182. rianten zwischen 126 und 2500 W rtern wurde unser Versionenraum bereits nach sehr wenigen Beispielen inkonsistent Da es nun nicht daran liegen kann dass wir zu viele Beispiele ver wendet haben im Gegenteil es m ssten erheblich mehr Beispiele zur Betrachtung herangezogen werden um vern nftige Ergebnisse berhaupt erzielen zu k nnen l sst sich nun feststellen dass das Konzeptlernen nicht geeignet f r die Klassifikation von Finanznach richten anhand syntaktischer Gesichtspunkte ist FAZIT Das Konzeptlernen ist nicht ausdrucksstark genug um Finanznachrichten klassifizieren zu k nnen Schon nach dem Lernen von wenigen Beispielen tritt eine Inkonsistenz des Versionenraums auf Die Beispiele lassen sich also nicht ausreichend differenzieren so dass der Algorithmus nach kurzer Zeit bei ge gebener Ausgangslage nicht mehr zwischen positiven und negativen Beispielen unterscheiden kann Das kann zum einen wie oben angedeutet an der Anzahl verschiedener Attribute sprich Anzahl der W rter oder aber an der Aus drucksst rke der Attribute liegen 66 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN Ausgabeneurenen Eingangsvektor Abbildung 5 8 Self organizing map 5 5 6 SOMs Vorstellung der Methode Die SOM self organizing map Abbildung 5 8 ist ein spezielles neuronales Netz mit einem un berwachten Lernverfahren Die SOM ist eine Karte die aus ei ner Reihe von Knoten welche in einer Gitterstruktur durch die eine
183. rizont des Investors zu kennen um ihm personalisiert Investitionsvorschl ge unterbreiten zu k nnen 1 2 Plichtenheft 1 2 1 Zielbestimmung FIPs ist ein web basiertes Finanz Informations Portal welches dem Benutzer anhand seiner pers nlichen Daten Kauf und Verkaufsvorschl ge von Finanz produkten unterbreiten soll Des Weiteren sollen Nachrichten zu ausgew hlten Finanzprodukten zur Verf gung gestellt werden Diese sollen mit Hilfe von Textmining Methoden aus diversen Quellen aus dem Internet extrahiert werden und in die Bewertung der Finanz produkte einflie en Musskriterien Die Architektur der Finanz Research Infothek mit Fokussierung auf Expertenfil ter und Entscheidungskomponenten soll entworfen werden Des Weiteren sollen Teile von FIPs implementiert und dokumentiert werden FIPs soll in Betrieb genommen getestet und bewertet werden Wunschkriterien Das gesamte System soll im Internet verf gbar sein Der Benutzer soll ein pers nliches Profil anlegen und verwalten k nnen auf dessen Grundlage die Kauf und Verkaufsentscheidungen getroffen werden Das System speichert die Kundendaten und Informationen zu Finanzprodukten in einer Datenbank Nachrichten zu speziellen Finanzprodukten sollen mit Hilfe passender Verarbei tungsmethoden Wrapper extrahiert und in die Bewertung der Finanzprodukte einflie en Um die zu den Kundenprofilen passenden Finanzprodukte den Kunden zu emp fehlen sollen geeignete Entscheidungsmet
184. rket Klasse sollte man den Wert nur dann ndern wenn der Bereich der Rendite Fuzzymenge in mittel hoch oder h her f llt Wenn die Aktie eher ein Underperformer ist ist sie nur dann interessant wenn der Kunde eine eher geringere Rendite anstrebt 6 4 2 Ranking Auf den resultierenden Rankingwert gelangt man nun wenn man den Sicher heitsendwert mit dem Wert der bei der Verschmelzung vom Performer und Renditewert herauskommt multipliziert Da man f r den DAX30 also 30 ver schiedene Rankingeintr ge erh lt ist es komfortabel eine absteigende Ranking liste auszugeben bei der der gr te Wert auch an erster Stelle steht usw 102KAPITEL 6 ENTSCHEIDUNGSFINDUNG GRUNDLAGE TECHN ANALYSE Kapitel 7 Entscheidungsfindung Erweiterung Einbeziehung von News 7 1 Einleitung Unser Programm ber cksichtigt bisher nur die Fundamentaldaten der Unter nehmen und gibt auf deren Grundlage Empfehlungen zum Kauf der Aktien ab Diese Fundamentaldaten werden allerdings nur einmal im Jahr von den Un ternehmen ver ffentlicht so dass unser Programm auch folgerichtig nur einmal im Jahr den Status einer Aktie ver ndern w rde Dies ist nat rlich nur be dingt geeignet um eine Empfehlung zum Kauf einer Aktie machen zu k nnen da das Programm dadurch viel zu statisch ist und nicht auf aktuelle Ereignis se und Meldungen reagieren kann Deshalb wurde das Programm erweitert so dass es sich die Finanzmeldungen aus dem Internet holen kann Diese w
185. rmationen besteht die zum Aufbau einer Datenbankverbindung notwendig sind Die Methode in itDBConnection baut eine Datenbankverbindung auf und speichert sie in dem Attribut private java sql Connection db Die Methoden dieser Klasse die dem 9 3 ZUGRIFF 125 Abruf oder der Manipulation von Daten dienen arbeiten dann auf dieser Daten bankverbindung Die Klasse Statements beinhaltet alle SQL Anweisungen die von der Klasse DBcontrol genutzt werden Diese Anweisungen sind in der Klasse Statements in Form von statischen Attributen vom Typ String aufgelistet Eine solche Tren nung verbessert den berblick und die Wartung des Systems 9 3 Zugriff Die JDBC Schnittstelle von Java erm glicht uns den Zugriff auf unsere Postgre SQL Datenbank Mit dieser Schnittstelle ist es m glich durch SQL Anweisungen die in den Java Code gestreut sind Daten aus der Datenbank zu holen und zu manipulieren Es werden im Wesentlichen die unten beispielhaft aufgef hrten Schritte vollzogen e Laden des Treibers Class forName org postgresql Driver e Aufbau der Verbindung Connection con String url jdbe postgresql pg473 cs uni dortmund de FIP con DriverManager getConnection url 29473 99473 e Erzeugen einer Anfrage String query SELECT name FROM Kunde WHERE kundennr 123 Statement stmt con createStatement ResultSet rs stmt executeQuery query Freigeben der Ressourcen stmt close rs close con close 126 KAPITEL 9
186. rmer enthalten Sie gibt an wie eine Aktie am Markt positioniert ist Die Auspr gung Outperformer beispielsweise deutet auf eine gute Position der Aktie am Markt hin und verspricht somit eine po sitive Entwicklung bzgl des Aktienkurses Dementsprechend sind Marketper former diejenigen Unternehmen deren Kurse sich weder positiv noch negativ entwickeln Underperformer weisen schlechtere Zahlen als der Branchen oder Marktdurchschnitt vor Die Klasse Sicherheit gibt an wie hoch das Risiko eines Geld Verlustes bzgl der betrachteten Aktie ist Sie ist unterteilt in die vier Klassen mit tel gering mittel gering und sehr gering Aufgrund des spekulativen Charakters von Aktien sind nur solche Werte bzgl ihrer Sicherheit m glich Die Einsch tzung sehr gering deutet dabei auf einen stark schwankenden Kurs hin bei dem eventuell ein hoher Verlust entstehen k nnte Die beste Einsch tzung ist bei einer Aktie mittel und garantiert eine geringe Wahrscheinlichkeit eines Verlustes 29 30KAPITEL 4 KLASSIFIZIERUNG VON FINANZPRODUKTEN TECHN ANALYSE Anders als bei der Klassifizierung des Kunden bei der drei Klassen eine Rolle spielen werden bei der Aktie nur zwei Klassen berechnet Da nur ein Finanzprodukt behandelt wird ist die Frage der Verf gbarkeit irrelevant da sie f r alle Aktien gleich ist 4 2 Fundamentale Kennzahlen Im Folgenden werden die 10 unternehmensbezogene
187. rnehmensnamen durch Platzhalter e Geeignete Repr sentantion der Nachrichten e Wieviele Trainingsnachrichten werden mindestens ben tigt Kodierung der Finanznachrichten als Vektor Da unser Neuronales Netz mit gewichteten Verbindungen zwischen Neuronen arbeitet muss eine geeignete Repr sentation einer Nachricht durch einen nume rischen Vektor oder eine Matrix gefunden werden e naiver Ansatz Ein einfacher Ansatz ist ein W rterbuch der L nge M zu verwenden und eine Nachricht durch einen einfachen 0 1 Vektor der L nge M anzugeben 78 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN Jeder Stelle im Vektor ist ein Wort zugewiesen wobei eine 1 bedeutet dass dieses Wort im Text vorkommt und eine 0 dass es nicht vorkommt Probleme Da Vergleiche von W rtern rein zeichenbasiert ablaufen werden z B steigt und steigen als verschiedene W rter erkannt Das ist aus zwei Gr nden nicht sinnvoll Einmal wird das W rterbuch dadurch unverh ltnism ig gro zum anderen sollten sinngleiche S tze wie Die Gewinne steigen wei ter und Der Gewinn steigt weiter zu dem gleichen Vektor f hren Ein weiteres Problem ist dass den W rtern die nur eine geringe oder gar keine Relevanz f r die Aussage des Textes haben bei der Eingabe zun chst das gleiche Gewicht zukommt wie den wirklich wichtigen W rtern des Textes Es sollte auch zur Vermeidung eines gro en W rterbuchs eine Vorauswahl relevanter W rter geben was aber eher in de
188. rt in das jeweilige Neuron eingetragen 2 Rechts ist eine Liste aller Nachrichten nummeriert angezeigt 3 In der oberen Leiste kann die Nachrichtennummer in das Eingabefeld ein gegeben werden Der Button Los zeigt die Aktivierung der Neuronen bez glich der Nachricht mit der im Eingabefeld eingegebenen Nachricht 70 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN Eingabe 9 Los Farb Reset Training 84 0 FRANKFURT Dow Jones Sehr fest tendiert der 1 Nach einem uneinheitlichen Handelsverlauf an d 2 Der im EuroSTOXX 50 notierte 1891 gegr y ndel 3 Der Infineon Konzern will nach dem geplanten B 4 Nach dem tiefen Sturz in die Verlustzone hofft E 5 Bundesgesundheitsministe rin Ulla Schmidt will 6 MONTAG 21 November 07 30 DE Mivacon 7 Bundesgesundheitsministe rin Ulla Schmidt will 8 Die Sektkorken in Wiesbaden knallen schon Da 9 Shell bietet an einigen Stationen wieder Tank 10 00 50 JPHandelsbilanz Oktober 06 00 JP Bo 11 Die Globalisierung hat die Private Equity Brancl 12 Der Deutsche Aktienindex Dax hat bis zum Nac 13 FRANKFURT Dow Jones Weiterhin mit fester 14 Nach einem freundlichen Start in die Woche ve 15 Der fr here Infineon Chef Ulrich Schumacher 16 amp quot Aktion tre sind dumm und frech Dumi 17 Die Zahl der Unternehmenszusammenbr ch 18 Es war nur eine kleine Meldung Der Elektrokorl 19 Die im Irak t ttigen deutschen Firmen werden 20 Nach einem
189. schaftsanalysten Der Aspekt der gezielten und personalisierten Informationssammlung und Konsoli dierung nimmt f r den Anleger einen immer wichtiger werdenden Stellenwert ein Zwar gibt es viele Suchmaschinen die das Auffinden von Finanzinforma tionen erleichtern jedoch liefern Anfragen der Anleger h ufig L sungslisten mit vielen Treffern deren Qualit t sehr unterschiedlich sein kann Finanzinforma tionsplattformen wie Bluebull bieten dem Investor die M glichkeit verschie denste Bed rfnisse in einer Portall sung abzubilden Man findet dort neben aktuellen Marktinformationen auch Analyse und Berechnungstools Emissions kalender sowie Top Flop Listen Die vielf ltig online verf gbare Produktaus wahl mit einer gro en Produktvielfalt z B Aktien Fonds Derivate erschwert es dem Investor dabei allerdings die f r seine individuelle Investitionsentschei dung z B Kauf einer bestimmten DAX Aktie ben tigten Informationen zu sammenzustellen Auch der Aspekt der Empfehlung oder Einsch tzung als Un terst tzungskomponente bei einer Finanzentscheidung ist durch diese Art von Plattformen nicht gew hrleistet In Banken kann der Kunde einen Berater um Empfehlungen bitten aber wo ist im Internet ein Berater der auf die individu ellen W nsche der Kunden eingehen kann Es ist notwendig die Vorstellungen oder Pr ferenzen wie z B risikoscheuer oder wachstumsorientierter Anleger 9 10 KAPITEL 1 EINLEITUNG mit mittlerem Anlageho
190. sen Werte abgetragen f r die Fuzzy Sets A und B In der Mitte wird zu jeweils einem Wert aus A und B der Funktionswert der jeweiligen Fuzzy Funktion abgetra gen Der Funktionswert wird anhand einer Skala in Graustufen abgetragen die rechts im jeweiligen Bild zu sehen ist Die Grafiken sollen verdeutlichen wie sich die Werte der entstandenen Funk tion berechnen Besonders intensiv haben wir uns mit der Und Gamma Funktion besch ftigt deren Schaubild uns als geeignet f r die Kombination erschienen ist Die folgenden Bilder sind folgendem Buch entnommen 92KAPITEL 6 ENTSCHEIDUNGSFINDUNG GRUNDLAGE TECHN ANALYSE Abbildung 6 3 Fuzzy Minimum Operator als Schaubild Abbildung 6 4 Fuzzy Maximum Operator als Schaubild Fuzzy Logik Grundlagen Anwendungen Hard und Software Thomas Tilli 2 unver Aufl M nchen Franzis 1992 6 2 3 Fuzzymengen Fuzzy Mengen oder Fuzzy Sets sind wie oben beschrieben Abbildungen die jedem Element x X einen Zugeh rigkeitsgrad u x 0 1 zuordnen Es gibt ansonsten keine weitere Vorschrift wie diese Fuzzy Mengen auszuse hen haben Dennoch gibt es einige Grund Funktionen mit denen sich diese Zu geh rigkeitsfunktion angeben l sst Diese Funktionen seien im Folgenden kurz vorgestellt Dreieck Das Dreieck besteht aus einem Mittelpunkt m bei dem der Zugeh rigkeitswert maximal wird Zudem ben tigt dieses Verfahren noch zwei Parameter o und welche jeweils die L nge
191. stemkomponenten 4 Klassifizierungsmethoden 5 Sonstiges 6 TOPS n chste Sitzung Begr ung Die Sitzungsleitung begr t die Anwesenden Formalia Die Protokollf hrung wird festgelegt Das Protokoll der letzen Sitzung wird angenommen Erste R ckmeldung von der Zusammenf gung der Systemkomponen ten Martin hat die bis dahin fertig gestellten Komponenten zusammengef gt Be stimmte Funktionalit ten wie Berechnung und Ausgabe eines Rankings funk tionieren Einige Funktionalit ten die mit Gate gel st werden sollen fehlen Au erdem gibt es noch M ngel bei der Berechnung des Kundenprofils ber den Fragebogen Die aktuelle Version des Systems liegt im CVS Als weiteres stehen die Tests an Stefan Berlik schl gt vor dass die Tests systematisch und dokumentiert ge macht werden sollen damit die gew nschten Funktionalit ten garantiert werden und die Dokumentation direkt in die Enddokumentation eingebunden werden kann Niels und Christian werden die Tests durchf hren und dokumentieren 13 1 SITZUNGSPROTOKOLLE 197 Klassifizierungsmethoden Stefan berichtet dass die Firma Entory der Kleingruppe die die beste L sung f r das Problem der Extraktion aus News findet mit einem kleinen Preis aus zeichnen will Die Gruppe die sich mit Konzeptlernen besch ftigt hat stellt fest dass diese Methode doch nicht geeignet zu sein scheint f r unser Problem Die Gruppe die sich mit anderen Lernmethoden auseinandersetzt hat
192. t auch eine automatische Klassifikationsmethode gesucht 8 5 1 Bearbeitungspipeline der Nachrichten e Filterung der FIP Datenbank Es werden alle Nachrichtentexte der FIP DB gew hlt in denen ein oder mehrere Unternehmens Suchw rtern vorkommen Diese Suchw rter werden vorher festgelegt und jedem Wort das zugeh rige Aktienzeichen zugeordnet Bsp basf BAS DE b a s f BAS DE e Speichern der Nachrichtentexte Gefundene Nachrichtentexte werden nun mit dem zugeh rigen Aktienzeichen in der Datenbank tesdaten gespei chert Kommen in einer Nachricht verschiedene Unternehmen vor so wird die Nachricht jeweils nur dem ersten Unternehmen zugeordnet Dies soll verhindern dass Nachrichtentexte fter als einmal in der DB vorkommen was zum Beispiel bei der Trennung in eine unabh ngige Trainings und Testliste von Beispielnachrichten zu Problemen f hren w rde e Preprocessing der einzelnen Nachrichten 1 Lemmatisierung Der Nachrichtentext wird mit Hilfe des Tree Tag gers siehe 5 4 2 lemmatisiert 2 Stoppw rter entfernen Dananch wird der lemmatisierte Text mit Hilfe einer Stoppwortliste um Stoppw rter bereinigt Dieser Schritt kann nicht dem TreeTagger vorausgehen da dieser f r das POS Tagging auch Stoppw rter benutzt 3 Synonymgruppen finden Zu jedem Wort wird nun mit Hilfe des OpenThesaurus die Synonymgruppe bestimmt Dabei wird f r je de gefundene Synonymgruppe ihr fipscounter um eins erh ht Damit wird gez hlt w
193. t meaning_id aus dem Open Thesaurus f r weiter Informationen siehe www openthesaurus de 5 5 METHODEN IM DETAIL 79 hergestellt werden Trotzdem besteht die Hoffnung dass Kernaussagen erkannt werden e Ber cksichtigung des Kontextes Eine Repr sentation die den Kontext ber cksichtigt ist die Folgende sinnvolles W rterbuch von Synonymgruppen der Gr e M aber nicht zu gro max 100 Gruppen 2 dimensionales Array der Gr e MxM X 0 sonst LA rr IMM W rterbuch der Form 4254 Zeile 1 steht f r Synonymgruppe nicht 6235 Zeile 2 steht f r Synonymgruppe Vorjahr 12345 Zeile 3 steht f r Synonymgruppe Quartalszahlen 6235 Zeile 4 steht f r Synonymgruppe Gewinn 3577 Zeile 5 steht f r Synonymgruppe Verlust 7836 Zeile 6 steht f r Synonymgruppe steigen 8355 Zeile 7 steht f r Synonymgruppe fallen Die Gr e des W rterbuches entspricht der Zeilenanzahl In jeder Zeile steht die Nummer einer Synonymgruppe Beispiel Gewinn sei in der Synonymgruppe in Zeile 4 fallen in Zeile 7 Der Gewinn f llt hat dann in der Matrix die Stelle x4 7 1 Vorteil Erh lt die Syntax teilweise da Nachbarschaften von W rter gespei chert werden Falls kein Wort im Text doppelt vorkommt ist eine Re konstruktion des Textes aus den Synonymgruppen im W rterbuch m glich Nachteile Bei mehrfachem Vorkommen der gleichen Synonymgruppe ist keine eindeut
194. tellt er den f r die Relevanz vorgesehenen Schieberegeler auf einen Wert zwischen 0 f r nicht relevant und 100 f r absolut relevant Mit dem zweiten Regeler kann er angeben wie gut die Nachricht seiner Meinung nach f r das Unternehmen ist Hier kann er ebenfalls die Werte zwischen 0 sehr schlecht f r das Unternehmen und 100 sehr gut f r das Unternehmen angegeben Sollte die Nachricht lter als 28 Tage sein so wird diese Einsch tzung nicht mehr gespeichert da die Nachricht bereits zu alt ist und die weitere Kursentwicklung nicht mehr beeinflussen wird 7 2 2 Bewertung des Kundenstatus Da allerdings anzunehmen ist dass sich nicht alle Benutzer gleich gut in der Fi nanzwelt auskennen und deshalb auch die Nachrichten nicht gleich gut einsch tzen k nnen wurde eine weitere Komponente in das Programm eingef gt Dies ist der sogenannte Kundenstatus der angibt wie gut oder schlecht der Benutzer in der Vergangenheit die Nachrichten eingesch tzt hat und daher auch in der Zukunft besser oder schlechter geeignet ist Vorherzusagen zu treffen Dieser vom Kunden nicht einsehbare Status ergibt sich folgenderma en Der Kunde gibt f r die Nachricht im Bezug auf ein bestimmtes Unternehmen seine Bewertung f r Relevanz und Tendenz ab F r seine Bewertung der Nachricht steht ihm nur eine gewisse Zeitspanne zur Verf gung so dass er nicht abwarten kann wie die Aktie auf diese Meldung reagiert und dann erst seine Einsch tzung dem Sys tem mitte
195. testen zu klassifizieren sind und nicht ausgehend von allen Beispielen Das Verh ltnis ee ist meistens sehr gering sodass der hochdimensionale Vektorraum keine Proble me bereitet Beispiel eines geeigneten Szenarios f r SVMs E Mail Klassifikation in Spam und Nicht Spam Vorgehen hierbei hnlich wie bei unserem Problem e E Mails bestehen aus W rtern e Umwandlung von E Mails in Vektoren e Bestimmung von typischen W rtern f r Spam und f r Nicht Spam e Reihenfolge der W rter wird ignoriert 5 5 METHODEN IM DETAIL 49 ehr geehrter Herr M ller elcher Mann tr unt nicht avon einfach mal Sex mit nbei erhalten Sie Ihre emmungslosen Frauen echnung vom 28 11 2004 Ihre zu haben ohne dabei echnung ist im PDF Format irgendwelche KR 7 N E M ller anbei erhalten Ihre Rechnung Sex hemmungsiosen tr umt Frauen 1 1 1 2 2 0 0 D 0 0 0 0 D 0 1 1 1 1 Abbildung 5 2 Beispiel der Problemstellung Spam Filterung auf der lin ken Seite ist eine Not Spam Nachricht und auf der rechten Seite eine Spam Nachricht abgebildet Unten sind die Vektorrepr sentationen zu sehen Der Unterschied zwischen unserem Problem und dem Problem der Spam Filterung ist der das bei der Spamfilterung der Inhalt von Spam und Nicht Spam unterschiedlich ist siehe Abbildung 5 2 Hierbei konzentriert man sich einfach nur auf die Regel dass ein Wort beson ders aussagekr ftig ist wenn es in vielen Spam Mails und weni
196. tien entfernen eine Aktie aus sei nem Portfolio herausl schen ey A er El zur Verf gung stehende Aktien Hallo Herr M stermensch Name der Aktie ISIN bernehmen Mein Porfolio ALLIANZ AG E DE0008404005 bernehmen S u News bewerten ALTANA AG DE0007600801 bernehmen BASF AG DE0005151005 bernehmen Einstellungen BAYER AG DE0005752000 bernehmen Pers nliche Daten BAYERISCHE HYPO UND VEREINSBANK AG DE0008022005 bernehmen Fragebogendetails BMW GROUP AG DE0005190003 bernehmen ndern COMMERZBANK AG DE0008032004 bernehmen Mein Portfolio CONTINENTAL AG DE0005439004 bernehmen ndern DEUTSCHE BANK AG DE0005140008 bernehmen E Meine Klassifizierung DEUTSCHE LUFTHANSA AG DE0008232125 bernehmen Feet DEUTSCHE POST AG DE0005552004 bernehmen DEUTSCHE TELEKOM AG DE0005557508 bernehmen Externe Links E ON AG DE0007614406 bernehmen Finanztreff FRESENIUS MEDICAL CARE AG DE0005785802 bernehmen OnVista HENKEL KGAA DE0006048432 bernehmen Finanznachrichten INFINEON TECHNOLOGIES AG DE0006231004 bernehmen LINDE AG DE0006483001 bernehmen MAN AG DE0005937007 MUENCHENER RUECKVERSICHERUNGS GESELLSCHAFT AG DE0008430026 RWE AG DE0007037129 bernehmen SCHERING AG DE0007172009 bernehmen SIEMENS AG DE0007236101 bernehmen THYSSENKRUPP AG DE0007500001 l hernehmen Abbildung 11 6 Aktienkatalog 138 KAPITEL 11 ARBEITEN
197. trainierten Nachrichten Aussagen ber neue Nachrichten geschlossen werden sollen Ein Schwach punkt hierbei ist dass die berechnete Aussage bei einer zu un hnlichen neuen Nachricht wertlos ist da die beim Training erstellten Funktionen f r die Berechnungen auf eine andere Situation abzielen Es kann aber nicht erkannt werden wann eine Nachricht zu un hnlich ist e Eine Erweiterung des Ansatzes mit einer Eingabematrix die den Kontext der W rter ber cksichtigt wie oben beschrieben w rde das Problem der Un hnlichkeit der Nachrichten nur vergr ern Au erdem erreicht man durch die quadratische Gr e bzgl des W rterbuches schnell die Perfor mancegrenze 5 5 METHODEN IM DETAIL 85 e Finanznachrichten m ssen meistens im Kontext des Marktes und den Er wartungen der Anleger gesehen werden Sogar W rter wie Rekordgewinn sind nicht zwingend positiv falls dennoch die hohen Erwartungen der Anleger damit entt uscht werden besonders in schnell wachsenden Bran chen g ltig e Da die Einsch tzung von Finanzprodukten im Wesentlichen auf Zahlen und Fakten beruht und wir bestenfalls die Fakten erfassen k nnen ist der Erfolg zweifelhaft 86 KAPITEL 5 BEWERTUNGSANS TZE F R FINANZNACHRICHTEN Kapitel 6 Entscheidungsfindung Grundlage techn Analyse 6 1 Einleitung In der Projektgruppe haben wir uns daf r entschieden f r die Finanzproduk te eine technische Analyse zu realisieren welche auf Fundamental
198. ule 4 T Ze rm falls Y lt s z lt Zi 0 sonst 1 falls z lt X Dal 1 zle Xi fals X lt s sY 0 sonst 0 falls z lt Y Stau eY alb Yeraz sonst mit i K KGV PEG DIV KCV KBV MU CM EBIT EBITDA EKR Die Mengen fi x entsprechen dem Durchschnittswert Die Mengen Putz bzw f x stehen jeweils f r niedrigere bzw h here Werte als der Durchschnitt 34KAPITEL 4 KLASSIFIZIERUNG VON FINANZPRODUKTEN TECHN ANALYSE In Abbildung 4 1 wird dies f r eine Kennzahl i dargestellt Der Wert der Kennzahl der betrachteten Aktie kann dann eingesetzt werden um die Zu geh rigkeit zu hoch mittel und niedrig zu erhalten Abh ngig von der Kennzahl ist nun ein berdurchschnittlicher Wert ein Hin weis auf einen Outperformer oder Underperformer Beispielsweise ist f r die Kennzahl KGV ein berdurchschnittlicher Wert ein Indiz f r einen Underper former und ein unterdurchschnittlicher Wert spricht f r einen Outperformer Die einzelnen Regeln k nnen der Tabelle in Abbildung 4 2 entnommen wer den Durch die Zugeh rigkeitswerte und die Regeln erhalten wir 3 10 Per formancewerte von jeder Kennzahl 3 Performer Um nun aus den einzelnen Kennzahlen eine Gesamtperformance f r diese Aktie zu erhalten m ssen die einzelnen Performanzen zusammengef hrt werden Jetzt ist es allerdings so dass die einzelnen Kennzahlen nicht uniform mit in die Gesamtperformance einfliessen Zum Beispiel bestimmt das KGV mehr die Performance
199. ung der Funktionen wurde ein Algorithmus vorgestellt Von den An wesenden wird die hohe Komplexit t dieses Ansatzes angemerkt Gruppe Konzeptlernen Bericht von Christian In der Einf hrung wurden die Begriffe Konzept Konzeptlernen und Ver sionenraum erl utert Konzeptlernen ist ein berwachtes Lernverfahren ben tigt also positive und negative Beispiele Die theoretischen berlegungen ber die Nicht Anwendbarkeit des Verfahrens f hrten zu dem Versuch eines prakti schen Tests F r der Implementation des Versionenraumlernverfahrens wurden Tests mit unterschiedlich grossen W rterb chern durchgef hrt Die Ergebnisse sind nie derschmetternd Bei zu kleinen W rterb chern verlor der Versionenraum seine Konsistenz Zu grosse W rterb cher stie en an die Grenzen der Java Virtual Machine out of memory Es konnte kein korrektes Konzept gefunden werden womit der Bereich des Konzeptlernens f r die Problemstellung der PG ausge schlossen werden kann Gruppe ART2a Netze Bericht von Madan Der Algorithmus f r das un berwachte Lernen wurde implementiert Um die Effizienz zu steigern muss noch ein spezielles Preprocessing durchgef hrt wer den Dieses besteht darin gewisse Teilmengen eines Finanzw rterbuches durch Oberbegriffe zusammenzufassen Gewinn Verlust R ckgang Unterneh mensentwicklung Die M glichkeit der Klassifikation ist nicht vorhanden jedenfalls nicht beim derzeit
200. ust im Schlussquartal nicht genug Bewertungen Zur Nachricht Xetra Fester DAX auf neuem Jahreshoch nicht genug Bewertungen Zur Nachricht Xetra Fester DAX auf neuem Jahreshoch nicht genug Bewertungen Zur Nachricht Xetra DAX etwas fester Zinsen verderben die Laune nicht genug Bewertungen Zur Nachricht Abbildung 11 9 News bersicht 11 2 M GLICHKEITEN F R DEN BENUTZER UND TYPISCHE ABL UFEI141 Per Link Zur Nachricht gelangt der User zu einer Seite auf der er bewerten kann inwiefern der Text tats chlich relevant f r das Unternehmen ist und ob der Text sich eher positiv negativ oder neutral auf das Unternehmen auswirkt Nachricht im Detail ansehen Hallo Herr Mustermensch Titel Infineon schlittert weiter in die Krise geg Quelle ews business 0 39023142 39140362 00 htm Mein Porfolio KR E R E SEAE Datum D News bewerten Autor null D Der Chiphersteller Infineon hat seine Verluste im ersten Quartal des laufenden Gesch ftsjahres das am 31 Dezember zu Ende an gegangen ist fast verdoppelt Bei einem Umsatz von 1 7 F Milliarden Euro bel uft sich das Ergebnis vor Steuern und Zinsen Fragebogendetails Text EBIT auf ein Minus von 122 Millionen Euro Grund f r das ndern schlechte Abschneiden sei der starke Preisverfall in der Mein Portfolio Speicherchipsparte teilt das Unternehmen mit Der Nettoverlust ndern liegt mit 183 Millionen Euro deutlich ber dem des Vorjahres von Meine
201. verwendet Dort finden sich auch die Kennzahlbeschreibungen Um diese Daten zu erhalten wird die Internetseite www onvista de abgefragt Sie stehen auf mehreren Seiten verteilt der ffent lichkeit zur Verf gung Des weiteren sind die ISIN Nummer und die zugeh rige Branche von Interesse Ein einfaches Programm schreibt diese Daten dann in die Datenbank 8 1 2 Konzept Der Fundamentaldatenwrapper macht sich die statische Natur der Webseite zunutze So stehen die gesuchten Daten immer an der selben Stelle im HTML Quellcode Der Wrapper merkt sich lediglich die Buchstabenkombination auf die das gesuchte Datum folgt also insgesamt 12 Zeichenfolgen f r einen Daten satz So steht beispielsweise die ISIN Nummer immer hinter der Zeichenfolge ISIN und wird nach hinten durch das Zeichen lt begrenzt Dabei muss die verwendete Zeichenfolge aber keine semantische Bedeutung besitzen So steht der Name der Aktie hinter der nichtssagenden Zeichenfolge OnVista F r jede Aktie existiert eine solche Webseite Die URLs zu diesen Seiten unterscheiden sich nur durch die OnVista interne Identifikationsnummer Diese Nummern haben wir manuell extrahiert und in eine Liste zur automatischen Abarbeitung eingef gt Die extrahierten Datens tze werden anschliessend mit Hilfe eines einfachen SQL Befehls in die Datenbank eingetragen 107 108 KAPITEL 8 BESCHAFFUNG BEN TIGTER DATEN Die durchschnittlichen Werte f r jede Kennzahl wurden per Ha
202. werten ein Portfolio SE geg 26804 e Chef der japanischen Internetfirma Livedoor nach Skandal verhaftet bewerten eine Klassifizierung ER rees 26805 Freie Wikipedia de ist wieder online bewerten 26806 23 12 2005 Ebay Abzocke ber Porto und Verpackungsgeb hr bewert Externe Links 00 00 00 ay Abzocke ber Porto und Verpackungsgeb hren ewerten ee 26807 reide T Online Chef mit viertem Quartal sehr zufrieden bewerten Finanzmachrichten 26808 23 12 2005 O2 verbucht kr ftigen Kundenzuwachs bewerten 26809 jaa 122008 Infineon schlittert weiter in die Krise bewerten 00 00 26810 Fre Lexar SD und CF Karten werden schneller bewerten 26811 de wiMax Forum zertifiziert erste Produkte bewerten hanan 23 12 2005 s r mo moer mn Abbildung 11 11 Nachrichten bewerten berblick 11 2 M GLICHKEITEN F R DEN BENUTZER UND TYPISCHE ABL UFE143 Meine Klassifizierung einsehen gibt eine bersicht ber die aktuelle Klas sifizierung des Users in die Klassen Sicherheit Rendite und Verf gbarkeit BT Sy y Einsehen unserer Einsch tzung von Ihrem Anlageprofil Hallo Herr Mustermensch Ihre Kundennummer login lautet 35 Mein Porfolio SS e a News bewerten Ihre Klassifikationsdaten lauten wie folgt Einstellungen Sicherheit 19 Pers nliche Daten ndern Verf gbarkeit 42 Fragebogendetails ndern Rendite 70 Mein Portfolio ndern Meine Klassifizierung einseh
203. ws Unternehmen Link Abbildung 1 5 Zeitplan f r das zweite Semester erste H lfte Design 20 KAPITEL 1 EINLEITUNG I ee EEIODDIZEEZIEONDOEE Armeen m a o nn DEER a O DEER SS Gees IB DECH DEE DESEN e DEE eg implementieren DE En ppm o o DEE DER Abbildung 1 6 Zeitplan f r das zweite Semester zweite H lfte Kapitel 2 Erste Schritte Beim ersten offiziellen Treffen unserer Projektgruppe werden die Themen f r die Seminarphase verteilt Diese Seminarphase findet vom 6 bis 8 April 2005 im Haus Nordhelle in Meinerzhagen statt Dort treffen wir auch zum ersten Mal auf unsere Partner der Entory AG die uns ihr Unternehmen und die geforderten Leistungen an die Projektgruppe vor stellen Die Seminarphase dient in erste Linie dazu sich in die Thematik einzuarbeiten aber auch sich untereinander kennenzulernen Die Themengebiete umfassen eine Einf hrung ins Finanz und Informationsma nagement sowie in Java J2EE und mit Java verbunden Tools und Software bibliotheken Ein weiterer Bereich umfasst die Grundlagen Zielsetzungen und Andwendungsgebiete des Text Minings und bereits vorhandene Werkzeuge f r die Problematik Weitere Vortr ge behandeln Graphenbasierte Systeme Gebie te der Entscheidungstheorie und Pr ferenzen und Wissen Der abschlie ende Vortrag gibt einen Einblick in das Projektmanagement Im Extra Anhang Seminarausareitungen befindet sich eine bersicht ber die Semi
Download Pdf Manuals
Related Search
Related Contents
2 ES Manual del usuario 21 FR Manuel d`utilisation 31 IT Manuale ひかり電話対応VoIPアダプタ N906iL収容 設定マニュアル LEC-SD01N10シリーズ取扱説明書 [PDF形式] G.PULSE 12 FUNCTION HEART RATE MONITOR WITH NEW 取扱説明書 - 日立の家電品 Models 5700 - 30 and 5700 - 80 Laser Diode Drivers Start Up Guide Triplex MP4 SDVR 3DLABS WILDCAT REALIZM MANUALE UTENTE Este acuerdo (el “Acuerdo”) estipula los términos y Manual de Informação e Lazer Copyright © All rights reserved.
Failed to retrieve file