Home
White Paper: Katastrophenschutz-Konzepte in BS2000/OSD
Contents
1. SRDF EscoN FC Abb 4 1 Synchrone enge KS Konfiguration White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 29 45 Von den zwei Hosts wird bei einer einseitigen KS Konfiguration 2 3 einer als Produktiv und einer als Standby Host dienen bzw es liegt eine symmetrische KS Konfiguration vor und beide Hosts spielen die Rollen von Produktiv und Standby Host gleichzeitig Die Konfiguration ist angebracht f r Rechenzentren mit zwei separaten mindestens durch eine Brandschutzmauer getrennten R umen die jeweils ber eine eigene Stromversorgung verf gen oder besser noch f r zwei RZs in unterschiedlichen Geb uden die als Produktions bzw Standby RZ dienen k nnen Die Geb ude sind blicherweise nicht weit voneinander entfernt und wenn kein ffentlicher Grund dazwischen liegt spricht man blicherweise von einer Campus L sung Falls die rtlichen Gegebenheiten zwischen den beiden Standorten jedoch die direkte Verlegung von Glasfaser kabeln verhindern muss man auf einen Netzanbieter ausweichen und evtl lose oder sogar asynchrone Konfigurationen siehe 4 4 in Betracht ziehen Eine Begrenzung der r umlichen Entfernung zwischen den RZs kann sich durch die Nutzung der Kreuzverbindungen ergeben Will man bei Systemausf llen auch die Anwendungen auf dem Standby Host mit Zugriff auf die Platten der Work Symmetrix laufen lassen dann muss ber cksichtigt werden dass die Performance des E
2. Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 19 45 F Robustheit des Verfahrens Zur bersicht eine Beurteilungs Matrix der Konfigurations Varianten nach den oben genannten sieben Aspekten Dabei bedeuten die Eintr ge einen vergleichenden Bewertungsrang 1 am besten 3 am wenigsten gut Die einzelnen Aspekte haben unterschiedlichen Stellenwert Synchr SRDF _Asynchr SRDF _Bandtransport _ A Datenaktualit t B Ausfallzeit E Datenschutz F Robustheit Tab 3 1 Beurteilungsmatrix f r die Konfigurations Varianten Es liegt auf der Hand dass die Variante 1 funktional hervorragend Hotstandby und wegen der durchgehend gleichzeitigen Aktualit t der Daten in beiden Standorten die bei den zwei anderen Varianten mitnichten gegeben ist deutlich am besten zu bewerten ist Erl uterung zu den Bewertungen 1 Datenaktualit t Beim synchronen SRDF sind die Daten im Ausweich RZ jederzeit auf dem gleichen Stand wie im Produktions RZ F r den K Fall gibt es zwei Abstufungen mit oder ohne Domino Modus 2 8 2 Mit Domino Modus sind die Daten in jedem denkbaren K Fall 100 ig aktuell daf r wird eine Abschw chung der Hochverf gbarkeit in Kauf genommen Ohne Domino Modus sind Rolling Disaster K F lle denkbar bei denen die Daten im Ausweich RZ zwar immer konsistent aber u U nicht ganz aktuell sind z B wenn die SRDF Links zun chst ausfallen und der K Fall erst zu einem sp teren Zeitpunkt
3. BM definiert Konsistenz Gruppen als Gruppen von Datens tzen von XRC Dateien deren bertragung auf die Target Units der entfernten ESS Systeme garantiert in der Original Reihenfolge der Anwendungen stattfindet Die Einhaltung der Reihenfolge der Schreib IOs ist von fundamentaler Bedeutung f r abh ngige lOs auf verschiedene devices Standard Beispiel wie oben Datenbank Anwendung Transaktion und Logging 2 12 HIPLEX MSCF HIPLEX Highly Integrated System Complex beschrieben in 4 ist das Konzept von Fujitsu zur Realisierung eines Verf gbarkeits und Leistungsverbundes von mehreren BS2000 OSD Business Servern Das Softwareprodukt HIPLEX MSCF MSCF Multiple System Control Facility stellt die f r einen Leistungs und Verf gbarkeitsverbund auch MSCF Verbund genannt erforderliche Infrastruktur sowie Basisfunktionen f r verteilte Anwendungen bereit Grundlegend in einem MSCF Verbund ist die Kommunikation der beteiligten Rechner auf der Basis von BCAM Transportverbindungen Zwischen den Rechnern werden Auftr ge zur Ausf hrung von Funktionen und Kontrollnachrichten zur berwachung des Verbunds ausgetauscht Im MSCF Verbund ist der Shared Pubset Verbund der wichtigste Verbundtyp Zus tzlich zur Kommunikationsverbindung haben bei diesem Verbundtyp alle Rechner des Verbunds Zugriff auf gemeinsame Platten das Shared Pubset Mittels zweier unabh ngiger Datenwege also mithilfe der gemeinsamen Platten einerseits und Kommunikationspfaden ander
4. Eine solche Verteilung stellt i d R keine Konsistenzgruppe dar weil die beiden Subsysteme Symmetrix und Caching SW nicht die daf r erforderliche intime Kommunikation pflegen m Ebenso k nnen Daten einer Anwendung in einem Symmetrix System und einem GS Volume s 2 10 verteilt sein Eine solche Verteilung stellt i d R keine Konsistenzgruppe dar weil die beiden Subsysteme Symmetrix und die GSVOL SW ebensowenig miteinander kommunizieren Bei EMC Symmetrix und IBM ESS bezieht sich die Consistency Group ebenfalls auf Umgebungen bei denen eine Spiegelung von Daten SRDF XRC zum Zwecke der Datenverf gbarkeit in einem Standby RZ auch in einem Katastrophenfall eingesetzt wird m EMC definiert Konsistenz Gruppen als Gruppen von SRDF Devices deren Zusammenfassung der kontrollierten Daten Integrit t und Daten Konsistenz einer ber mehrere SRDF Units verteilten Datenbank dient Die SRDF Source Units einer Konsistenz Gruppe k nnen dabei ber mehrere Symmetrix Systeme verteilt sein Realisiert ist eine Konsistenz Gruppe dadurch dass bei Auftreten eines nicht behebbaren Fehlers f r eine IO auf ein Source Target Paar der Konsistenz Gruppe z B keine Kommunikation mit der Target Unit m glich ein Konsistenzprotokoll daf r sorgt dass f r alle Folge IOs auf Devices der Konsistenz Gruppe die SRDF Spiegelung ausgesetzt wird Damit wird verhindert dass der entfernte Datenbestand auf den Target Units der Konsistenzgruppe inkonsistent wird m
5. nehmen 4 4 2 Besonderheiten bei Failover und Failback Beim Failover werden wie auch in Kapitel 5 Punkt 5 beschrieben die SRDF Target Units freigeschaltet Hierbei stellt man fest ob noch Schreibauftr ge f r Target Units offen sind invalid tracks oder nicht Falls ja was beim Produktivbetrieb anzunehmen ist dann muss zun chst die BCV Spiegelung f r die Target Units beendet werden Im n chsten Schritt werden zun chst die inkonsistenten Target Units mit Hilfe der zum vorherigen Konsistenzzeitpunkt gesicherten BCVs rekonstruiert Erst danach geht es wie in Kapitel 5 beschrieben weiter Diese Zusatzschritte k nnen auch beim Einsatz von HIPLEX AF in Prozedurform implementiert und von der Switch Unit gestartet werden White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 36 45 Der Failover kann bei dieser Konfiguration beschleunigt werden indem mit den BCVs die den letzten konsistenten Sicherungsstand enthalten weitergearbeitet wird und die Target Units vorl ufig gar nicht zum Einsatz kommen Daf r werden die BCVs zugeschaltet und dann die Datenpubsets am Standby Host importiert Damit bleiben jedoch die Target Units sowie die zuletzt zugeschalteten BCVs ungenutzt Zu gegebenem Zeitpunkt sp testens jedoch vor dem Failback muss daher der Betrieb unterbrochen und auf die Target Units umgeschaltet werden die zuvor mit den Daten der aktuellen BCVs abgeglichen worden sind 4 5 Kombinierte KS Konfigurat
6. tigt wie z B CISCO 4908G L3 Nutzung von DNS Eine andere M glichkeit ist das Arbeiten mit DNS Dynamic Name Server Wenn die Nutzer ihre Anwendung bzw den Host ber DNS Namen adressieren m ssen im K Fall die Eintr ge im DNS Server des Anwender Netzes die IP Adressen der Zielsysteme ge ndert und n tigenfalls ein Zonentransfer ausgef hrt werden Die f r den K Fall ben tigten Adressen bzw Subnetze m ssen vorher festgelegt werden Somit ndert sich auf Ebene der Netzadressierung nichts Wenn jedoch viele DNS Zonen beteiligt sind kann dieses Vorgehen auch un bersichtlich werden Das Verfahren stellt nur dann eine L sung dar wenn alle umzuschaltenden Anwendungen DNS nutzen Die Umschaltung durch nderung der Eintr ge der IP Adressen der Zielsysteme im DNS Server des Anwender Netzes wird nicht im Rahmen von automatischen Umschaltungen durch HIPLEX AF angeboten 3 3 2 Firewalls Falls zwei RZs in die KS Konfiguration einbezogen sind werden die Hosts sich auch hinter unterschiedlichen Firewallsystemen befinden Die Security Policies m ssen zwischen beiden betroffenen RZs abgeglichen werden Falls z B bestimmte Dienste im LAN Segment des Standby Host gesperrt sind die die Anwender des Produktivsystems am Work Host ben tigen wird man diese Restriktionen aufheben oder anders gestalten m ssen Wird mit Access Control Listen ACLs gearbeitet m ssen diese erweitert werden Da es f r die Konfiguration von Firewalls beliebig v
7. 1 Die Anwendungen und die zugeh rigen SW Ressourcen am Standby Host werden per HIPLEX AF Kommando beendet Hiermit werden z B auch die Datenpubsets exportiert und ggf virtuelle Hosts deaktiviert 2 Die Target Units in der Standby Symmetrix werden wieder f r den SRDF Betrieb vorbereitet und damit deaktiviert Dies kann per HIPLEX AF Failback Prozedur ausgef hrt werden falls die Symmetrix neu eingerichtet wurde wird dies der EMC Techniker tun 3 Falls die Symmetrix Systeme am Work RZ neu eingerichtet wurden muss jetzt ein EMC Techniker die Resynchronisation von den Target zu den Source Units anstarten falls nicht kann dies auch mit der Failback Prozedur von HIPLEX AF durchgef hrt werden Das Work System darf bei Start der Synchronisierung noch nicht laufen ggf bleibt der Host noch abgeschaltet weil von den Target zu den Source Units synchronisiert wird und gleichzeitig keine Zugriffe auf die Sources erfolgen d rfen 4 Falls nicht wie in Kap 3 3 1 beschrieben mit virtuellen Hosts und dynamischem Routing gearbeitet wird m ssen jetzt die Netzkomponenten umkonfiguriert werden DNS Eintr ge VLAN Zuordnung oder Umkonfigurierung des Routing um den Anwenderzugriff auf den Work Host wieder sicherzustellen 5 Nachdem die Synchronisation f r alle Platten angelaufen ist kann das Gast System am Work Host hochgefahren werden In der Regel werden dabei automatisch per Command File die BCAM Dateien gestartet der MSCF Verbund eingeric
8. 14 Storage Host Component im BS2000 SHC OSD SHC OSD ist die Steuerungssoftware f r Symmetrix Systeme im BS2000 Zusammen mit der zugeh rigen Symmetrix Firmware Microcode kann man damit eine ins Betriebssystem BS2000 integrierte Steuerung der Symmetrix Funktionen SRDF und TimeFinder durchf hren oder die Konfigurationsdaten der Symmetrix ermitteln Das Produkt ist im Handbuch 1 ausf hrlich beschrieben Das Einrichten von SRDF Units sowie von BCV Additional Mirror Units ist Aufgabe der EMC Techniker Ab der Version SHC OSD V4 0 steht ein Tool zur Verf gung mit dem die f r Failover und Failback erforderlichen Symmetrix Aktionen sowohl manuell per Kommando resp Prozedur als auch automatisiert unter Kontrolle von HIPLEX AF realisiert werden k nnen F r ein SRDF Plattenpaar kann der Domino Effekt mit einem SHC OSD Kommandb ein resp ausgeschaltet werden Dar ber hinaus bietet SHC OSD berwachungsfunktionen die Zustands nderungen der Konfiguration der Symmetrix Steuerungen den Status der Ger te und den Status des Remote Copy Betriebes anzeigen Werden Zustands nderungen erkannt wird durch SHC OSD eine auff llige zu beantwortende Meldung auf der Konsole ausgegeben 2 15 Dual Recording By Volume DRV DRV Dual Recording by Volume ist ein Software gesteuertes Aufzeichnungsverfahren mit dem die Daten auf zwei Platten doppelt gef hrt werden k nnen Zur Unterscheidung wird das einfache Aufzeichnungsverfahren SRV Single Recordin
9. Anwendung geschrieben werden Ist der Verlust von maximal einer Schreib IO pro Volume im K Fall aus Anwendersicht tolerierbar so ist auch dieser Modus f r den Katastrophenschutz geeignet sofern beim Spiegeln mehrerer Symmetrix Systeme darauf geachtet wird dass logisch zusammengeh rige Daten nicht auf verschiedenen Symmetrix Steuerungen verstreut sind In der Regel verlieren Anwendungen deren Daten in diesem Modus gespiegelt werden keine Performance gegen ber dem ungespiegelten Modus jedoch ist bei schreibintensiven Anwendungen die Performance Ein bu e vergleichbar mit dem synchronen Modus Der Adaptive Copy Modus eignet sich wegen der fehlenden Garantien f r die Datenkonsistenz im obigen Sinne einerseits und f r den Gleichstand aller gespiegelten Daten zu jedem Zeitpunkt andererseits nur bedingt zum Katastrophenschutz kritischer Anwendungen der Datenbestand auf den Target Units im Standby RZ nach einem K Fall ist u U inkonsistent aber durch ein regelm iges Erzeugen von Konsistenzst nden die im Standby RZ auf additiven Spiegeln z B BCVs eingefroren werden ist er bei geringeren Anforderungen an die Daten Aktualit t wegen seiner nur minimalen Auswirkungen auf die Gesamtperformance eine diskutable Alternative Schlagwortartig zusammengefasst SRDF Modus Datenverlust im K Fall_ __________IO Performance Auswikunen kein Verlust jede Schreib IO wird verl ngert semi synchron max eine Schreib IO pro Volume nur schreibinten
10. Ausweich RZ RZ2 die Anwendungen der Server im Produktions RZ RZ1 bernehmen Wenn im RZ2 ebenfalls produktive Anwendungen laufen kann ebenso f r diese eine bernahme in das RZ1 eingeplant werden Bei einem K Fall im RZ2 w re dann RZ1 das Ausweich RZ Die Rollen von Produktions RZ und Standby RZ sind dann vertauschbar und es liegt eine symmetrische KS Konfiguration vor Laufen im RZ2 keine relevanten Anwendungen wird man daf r auch kein K Fall Konzept ben tigen Dann ist das RZ2 immer das Ausweich RZ und es liegt eine einseitige KS Konfiguration mit Produktions RZ RZ1 und Standby RZ RZ2 vor Praxis ist auch dass sich zwei Rechenzentren unterschiedlicher Unternehmen zusammenschlie en und Failover Ressourcen f r die jeweils fremden Anwendungen bereitstellen wenn dies organisatorisch machbar ist 2 4 Cold Standby Hot Standby Backup Bezeichnungen f r die Rolle eines Standby RZ Cold Standby oder Backup RZ bezeichnet ein Standby RZ das nicht produktiv genutzt und erst im K Fall aktiviert wird bestenfalls wird es f r Testanwendungen genutzt Bei einem Cold Standby kann es sich also nicht um eine symmetrische KS Konfiguration handeln Hot Standby ist ein laufendes und entsprechend vorbereitetes System das st ndig bereit ist die Anwendungen des Produktions RZ im K Fall zu bernehmen Die Ausfallzeiten sind deshalb k rzer und es ist sowohl symmetrischer als auch einseitiger KS m glich 2 5 Synchrone und asynchrone KS Konfigur
11. Konzept Stufenweise Einrichtung der KS Voraussetzungen 4 KS Konfigurationen 4 1 4 2 4 3 4 4 4 5 4 6 4 7 Synchrone enge KS Konfiguration X Link Konf Synchrone enge KS Konfiguration mit GS Synchrone lose KS Konfiguration U Link Konf Asynchrone lose KS Konfiguration Kombinierte KS Konfigurationen Konfigurationen mit mehr als einem Symmetrix Subsystem Trennung von Anwendungen durch VM2000 5 Abl ufe beim Failover 5 1 5 2 Automatischer Failover mit HIPLEX AF Manueller Failover 6 Abl ufe beim Failback 6 1 6 2 Failback mit Hilfe von HIPLEX AF Manueller Failback 7 Literatur und Online Verweise Seite 2 45 NNOODDDDDDDO VI PPWROWD White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 3 45 1 Einleitung 1 1 Was verstehen wir unter Katastrophenschutz Im IT Bereich ist Katastrophenschutz diejenige Vorsorge welche nach einer teilweisen oder vollst ndigen Zerst rung einer Produktionsst tte der IT Infrastruktur Rechenzentrum die Wiederaufnahme der Produktion und damit der gesch ftswichtigen Anwendungen erm glicht Unter einer Katastrophe soll der Ausfall eines Rechenzentrums durch Stromausfall oder Zerst rung Brand Wassereinbruch Explosion Erdbeben Sturm Sabotage etc oder etwas spezifischer der Ausfall eines Hosts und der r umlich in der N he aufgestellten Speicherperipherie oder auch nur von Teilen der Speicherperipherie die aktuelle Produktionsdaten
12. amp FUJITSU WHITE PAPER Katastrophenschutz Konzepte in BS2000 0SD Ausgabe April 2010 Seiten 45 Zusammenfassung Katastrophenschutz Konzepte werden ben tigt um im Falle einer Katastrophe betroffene Anwendungen und ihre Daten verf gbar zu machen und damit unterbrochene Gesch ftsabl ufe wieder aufsetzen zu k nnen Die vorliegende Schrift bietet eine Einf hrung und bersicht zum Thema Katastrophenschutz Disaster Recovery speziell f r BS2000 Systeme unter Nutzung der Datenspiegelung auch ber weite Entfernungen Sie spiegelt zu diesem wichtigen und hochaktuellen Thema die Erfahrung von Fujitsu und seiner Kunden wider und sie zeigt auch beim Katastrophenschutz die ausgereiften Eigenschaften von BS2000 0SD und seiner Partnerprodukte Ziel ist es dem verantwortlichen Rechenzentrums Betreiber die von Fujitsu empfohlenen Varianten von Katastrophenschutz Konfigurationen vorzustellen und die Voraussetzungen f r eine KS Konfiguration sowie die prinzipiellen Abl ufe im Katastrophenfall Failover und Failback zu beschreiben Dem Systemadministrator werden die technischen M glichkeiten zur Katastrophen vorsorge dargestellt Alle ben tigten Techniken und Hilfsmittel Symmetrix Remote Data Facility SRDF Storage Host Component for BS2000 0SD SHC OSD WDM Technologie f r synchrone Datenspiegelung ber weite Entfernungen Einsatz von virtuellen Hosts resp DNS Eingriffe f r Netzumschaltung im K Fall HIPLEX AF f r
13. bei einem Verbindungsfehler zwischen den beiden ber SRDF verbundenen Symmetrix Systemen lOs auf das SRDF Paar weiterhin durchgef hrt und Schreib IOs in der Symmetrix f r sp teren Transfer auf die nicht verf gbare Unit als invalid tracks s u markiert Wenn eine ausgefallene SRDF Verbindung wieder hergestellt wird oder die ausgefallene Unit wieder verf gbar wird beginnt die automatische Resynchronisation zwischen Source und Target Units falls sie nicht durch ein entsprechendes Symmetrix Attribut verhindert wird Prevent automatic link recovery after all link failures no Bei dieser Synchronisation wird jedoch nicht mehr die Reihenfolge der urspr nglichen Schreibauftr ge eingehalten d h wenn es w hrend der Resynchronisation zu einem Ausfall der Source Units K Fall kommen sollte k nnen die Daten auf den Target Units inkonsistent sein Diesen allerdings h chst unwahrscheinlichen Fall eines Doppelfehlers mit kritischen Folgen bezeichnet man auch als Rolling Disaster mit Linkflattern Abb 2 1 In einem solchen Fall hilft dann nur noch der R ckstieg auf die letzte Sicherung die in einem ausgelagerten Bandarchiv oder durch Duplizierung der Sicherungen im Ausweich RZ zur Verf gung steht Vor diesem Fall ist man durch den Domino Modus gesch tzt da bei Ausfall der SRDF Links keine IOs mehr zugelassen werden Interessant ist der Domino Modus ebenfalls f r kritische Anwendungen bei denen der Verlust von wenigen ausgef hrte
14. der Ausfall der BCAM Verbindung und der Ausfall der Work Symmetrix nicht gleichzeitig also innerhalb eines durch MSCF Parameter vorgegebenen Zeitintervalls auftreten oder falls die Fail Rekonfiguration bei HIPLEX MSCF nicht automatisch anlaufen soll ausf hrliche Beschreibung in 4 muss am Standby Host die MSCF Ausfall Behandlung manuell gestartet werden da HIPLEX MSCF bei nicht gleichzeitigem Ausfall nicht automatisch von einem Komplettausfall ausgehen darf Das HIPLEX AF Monitoring auf dem Standby Host startet danach die Anwendungen 5 1 1 Weitere Ausfallszenarien Au er dem Komplettausfall sind weitere Ausfallsituationen denkbar die auch automatisch behandelt werden k nnen Der in den folgenden Abbildungen gezeigte Ausfall des Work Hosts wird beim Einsatz von HIPLEX AF i d R wie in Abb 5 2 dargestellt behandelt Die Anwendung en werden am Standby Host neu gestartet jedoch mit den Source Units in der Work Symmetrix HIPLEX AF Abb 5 2 Ausfall des Work Host gt Switchover Falls es sich um eine Konfiguration ber eine gr ere Entfernung handelt so dass der IO Betrieb nicht mehr in der gew nschten Performance laufen w rde muss in diesem Fall ein Failover auf die Standby Symmetrix ausgef hrt werden wie in Abb 5 3 gezeigt White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 41 45 HIPLEX AF Abb 5 3 Ausfall des Work Host
15. ein b ndiges KS Konzept zu erhalten Die Problempunkte einer solchen Konfiguration hinsichtlich Katastrophenschutz liegen auf der Hand Im Rahmen eines Rolling Disasters k nnen die Symmetrix Subsysteme zu verschiedenen Zeitpunkten ausfallen Wenn logisch abh ngige Daten auf zwei Symmetrix Subsysteme verteilt sind so kann ein derartiges Ausfallszenario zu inkonsistenten Datenst nden f hren n mlich z B dann wenn zun chst die SRDF Verbindungen des einen und zeitlich sp ter die SRDF Verbindungen des anderen Symmetrix Subsystems zum jeweiligen Target System ausfallen kein Domino Modus eingeschaltet ist und somit auf die Source Units weiter geschrieben wird w hrend im Standby RZ die gespiegelten Symmetrix Subsysteme zu verschiedenen Zeitpunkten keine Schreib IOs des Produktions RZ mehr entgegennehmen k nnen So k nnte f r eine Datenbank z B im Standby RZ der Gleichstand von ausgef hrten Transaktionen und ausgef hrtem Logging gef hrdet sein Um dieses Risiko auszuschlie en kann entweder mit dem Domino Modus f r alle SRDF Paare mit kritischen Daten gearbeitet werden oder alternativ und die Hochverf gbarkeit nicht beeintr chtigend durch administrative Ma nahmen daf r gesorgt werden dass alle Daten einer Anwendung gemeinsam in einem Symmetrix Subsystem abgelegt werden also das Konzept einer Konsistenzgruppe siehe Kap 2 11 angewendet wird Auch eine automatische Anwendungsumschaltung via HIPLEX AF ist weniger komplex bei sa
16. kann dass Datenintegrit t und Daten Konsistenz der Anwendung auch bei beliebigen Ausfallszenarien auf den gespiegelten Datentr gern im Standby RZ gew hrleistet sind so sprechen wir von einer Konsistenzgruppe Beispiele von Konsistenzgruppen m Daten einer Anwendung k nnen ber mehrere Symmetrix Source Units innerhalb eines Symmetrix Systems verteilt sein Sind die Source Units jeweils RAID1 gesch tzt so liegt eine Konsistenzgruppe vor m Daten einer Anwendung k nnen ber mehr als ein Symmetrix System verteilt sein Um eine Konsistenzgruppe zu erhalten muss entweder das EMC Konzept der Consistency Groups genutzt werden s u oder die Daten m ssen so auf die Symmetrix Systeme verteilt werden dass logisch abh ngige lOs immer dieselbe Symmetrix ansprechen m Datenbanken setzen eigene Schreib Caches im Hauptspeicher also fl chtige Caches ein deren Synchronisation mit den Platten durch Datenbank spezifische Algorithmen erfolgt Wenn die Datenbank sicherstellt dass nach einem Hostausfall die Datenbank ber Before Images konsistent rekonstruiert werden kann so bilden Platten und Cache der Datenbank eine Konsistenzgruppe White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 11 45 Beispiel f r das Fehlen einer Konsistenzgruppe m Daten einer Anwendung k nnen in einem Symmetrix System und einem nichtfl chtigen Schreib Cache einer System SW verteilt sein DAB Schreib Cache im GS siehe 4 2
17. ngig von der Analyse eines Technikers eine Umschaltung auf den Standby Rechner durchgef hrt werden soll h ngt der Grad der Beeintr chtigung der Verf gbarkeit von der Zeitdauer der Techniker Analyse und der Zeitdauer der Umschaltung ab 2 Daf r gilt die h chste Sicherheitsstufe bei maximaler Performance kein denkbarer Ausfall kann zu einem inkonsistenten Datenbestand auf der Standby Seite f hren und IO Engp sse werden vom GS abgefangen Falls die in Punkt 1 genannte Beeintr chtigung der Hochverf gbarkeit nicht akzeptabel ist muss auf das Schreibcaching im GS f r gesch ftskritische Daten verzichtet werden 4 2 1 Nutzung und Arbeitsweise von HIPLEX AF F r den Einsatz zur Katastrophenvorsorge wird der Domino Modus f r die SRDF Spiegelung sowie f r den DAB Einsatz im GS vorausgesetzt F r einen automatischen Wiederanlauf durch HIPLEX AF sind zus tzliche Schritte in der Switch Unit zu implementieren so muss zun chst am Standby Host der DAB Domino Modus ausgeschaltet werden um in jedem Fall auch mit nur einer GS Unit weiterarbeiten zu k nnen und dann muss wegen der Umschaltung der DAB Caches vom Produktions auf den Standby Host beim Importieren der von DAB im GS zwischengepufferten Datenpubsets jeweils die Meldung EGC0502 des GS Managers automatisch beantwortet werden White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 32 45 Ein automatischer Wiederanlauf mit Failover auf die Standby Symmetrix
18. ohne dass sie im Home Pubset des Standby Systems gebraucht werden White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 26 45 m alle f r das Standby System spezifischen Dateien etwa Netzkonfigurationsdateien m ssen schon am Work System eingebracht werden m eine spezielle Auswahl Logik ber unterschiedliche Parameterdateien ist notwendig damit von den speziellen Dateien automatisch jeweils die richtige ausgew hlt wird Dieses Modell hat die folgenden Vorteile m Updates von allgemeinen Dateien etwa Replader werden automatisch auf beiden Systemen wirksam m nderungen von Systemeinstellungen die in Systemdateien gef hrt werden etwa neue Kennung mit Default CatlD sind automatisch auch f r das Ausweich System wirksam Das Alternativmodell dazu w re ein Paar von gleichartig aufgebauten aber getrennten Home Pubsets ohne SRDF Spiegelung Die Liste der Vor und Nachteile ist praktisch umgekehrt zum Spiegelmodell beide Modelle k nnen nicht sinnvoll kombiniert werden Bei unabh ngigen Home Pubsets m sste ein Update von allgemeinen Dateien z B per Filetransfer auf beiden Home Pubsets gef hrt werden die Erprobung etwa von neuen Repladern zuerst am Standby System w re auch ein Vorteil und einige Systemkommandos m ssten zus tzlich f r die Standby VM gegeben werden In jedem Fall muss bei unabh ngigen Home Pubsets vorausgesetzt werden dass das Standby System im Normalfall schon l uft evtl m
19. r BS2000 Systeme unter Nutzung der SRDF Funktion angeschlossener Symmetrix Systeme Ziel ist es dem verantwortlichen Rechenzentrums Betreiber die von Fujitsu Technology Solutions empfohlenen Varianten von Katastrophenschutz Konfigurationen vorzustellen und die Voraussetzungen f r eine KS Konfiguration sowie die prinzipiellen Abl ufe im Katastrophenfall Failover und Failback zu beschreiben Dem Systemadministrator werden die technischen M glichkeiten zur Katastrophenvorsorge dargestellt Alle ben tigten Techniken und Hilfsmittel Symmetrix Remote Data Facility SRDF Symmetrix Host Component for BS2000 0SD SHC OSD WDM Technologie f r synchrone Datenspiegelung ber weite Entfernungen Einsatz von virtuellen Hosts resp DNS Eingriffe f r eine Netzumschaltung im K Fall HIPLEX AF f r automatische Ausfallerkennung und automatische Umschaltung im K Fall Einsatz von Globalspeicher in KS Konfigurationen Einsatz der Symmetrix Funktion TimeFinder Mirror f r asynchronen KS werden verst ndlich dargestellt F r die detaillierte Planung und Realisierung einer kompletten Katastrophenvorsorge L sung sind viele Faktoren zu ber cksichtigen Relevante Komplexe sind z B die Anforderungen an die Datenaktualit t im K Fall die Wahl einer Cold Standby oder Hot Standby L sung die vorhandene RZ Architektur Hosts Online Peripherie Netz VMs Nearline Peripherie nat rlich die zu sch tzenden Anwendungen und deren IO Last die RZ Standorte ih
20. ssen 3 3 Vorbereitung Datennetz Es muss eine Netzanbindung der Anwender an den jeweiligen Standby Host vorhanden sein W nschenswert ist nat rlich eine Konfiguration die es mit wenigen oder gar keinen Eingriffen an Netzkomponenten Switches Router usw erm glicht alle betroffenen Anwender in einem K Fall auf den Standby Host umzuleiten Ebenso w nschenswert wird es bei vielen Anwendungen sein dass diese Umleitung ohne Eingriffe bei den Clients vor sich geht da diese unter Umst nden gr ere Aufw nde oder gar Neuinstallationen bedeuten k nnen In den folgenden zwei Kapiteln werden hierf r M glichkeiten skizziert au erdem wird das Thema Firewalls angesprochen Die vielf ltigen M glichkeiten der Netztopologien und die daf r n tige Hardware werden in diesem Dokument jedoch nicht er rtert eine L sung f r den KS wird i d R von dem bereits vorhandenen Equipment abgeleitet werden k nnen 3 3 1 Umleitung der Netzanbindung Die Netzanbindung beider Systeme Hosts oder Menge von VMs sollte idealerweise so ausgelegt sein dass den Nutzern die sich i d R an einem dritten oder an unterschiedlichen Standorten befinden der Zugang zu der Anwendung erm glicht wird unabh ngig davon auf welchem der zwei Hosts diese gerade l uft Weiterhin muss daf r gesorgt werden dass die Netzkomponenten wie Router Switches HUBs HNCs in beiden RZs so dimensioniert sind dass sie die Zugriffe von allen Nutzern beider Hosts auch in einem der RZs i
21. 2 5 ms und damit zu Gesamtzeiten von m tsum 0 5 ms 0 3 ms 0 5 ms 1 3 ms bei Entfernung 0 m und m tsum 0 5 ms 2 5 ms 0 3 ms 0 5 ms 3 8 ms bei Entfernung 250 km Wenn man von einer einzelnen Platte und synchronen Schreib IOs ausgeht so sind damit E bei Entfernung 0 bis zu 806 Schreib IOs s m glich E bei Entfernung 250 km aber nur 1000 3 74 267 Schreib IOs s Vergleich mit einem PKW kann man in begrenztem Zeitraum auch nur eine begrenzte Anzahl Personen ber 250 km transportieren selbst wenn die Autobahn 10 spurig ist und ein hohes Tempo erlaubt Werden viele Platten parallel genutzt kann nat rlich trotzdem die maximale Datenrate auf der SRDF Verbindung erreicht werden Deshalb ist vor Einsatz einer SRDF Verbindung ber weite Entfernung zu untersuchen ob es sogenannte Hotspot Anwendungen gibt die tempor r hohe Anforderungen an Durchsatz von Schreib IOs auf eine Platte stellen F r Kunden die eine KS Konfiguration mit SRDF ber l ngere Distanzen planen bietet EMC ein SRDF Distance Kit Hierin enthalten sind zum einen die Analyse der bereits vorhandenen Platten auf ihre Auslastung und die Ermittlung der Hotspots sowie die Errechnung der ben tigten Bandbreite ber D WDM Weiterhin gibt es ein Testequipment das im wesentlichen aus WDM Mux Demux von Sorrento Networks oder Inrange Technologies und aus 6 Glasfaser Kabelrollen mit Zusatzhardware besteht Hiermit kann eine long distance SRDF Verbin
22. Entfernungen entfernten Symmetrix performanter als SRDF Verkabelung Kopie wird ber den SRDF Link ausgef hrt Kopie wird ber eine zweite ESCON oder FC Verbindung ausgef hrt Kreuzverkabelung zwingend Entfernung Prod RZ zu Auch bei gro en Entfernungen m glich Die Entfernung bei ESCON Anschluss Standby RZ sollte 9 km nicht berschreiten Gro e Entfernungen bei FC Anschluss m glich Pubsets Pubsets White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 14 45 Konsistenzgruppen RAID1 Platten und logisch abh ngige RAID1 Platten und logisch abh ngige Daten nicht ber mehr als ein Symmetrix Daten nicht ber mehr als ein Symmetrix System verteilen System verteilen Ben tigte Betriebsmittel SRDF Link CPU Leistung Hauptspeicher Kanal SRDF Lizenz Mietkosten f r Subsystem DRV Tab 2 1 Gegen berstellung von SRDF und DRV White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 15 45 3 Voraussetzungen f r Katastrophenschutz im BS2000 In diesem Kapitel werden die grundlegenden Voraussetzungen f r KS Konfigurationen wie die Datenspiegelung und die Netzanbindung an Work und Standby Hosts beschrieben Aufgrund der vielen m glichen Einflussfaktoren die wir in der Einleitung erw hnt haben wird nur ein berblick geboten Es werden Verfahren zur Verf gbarkeit der Online Daten im Ausweich RZ und Techniken zur berbr ckung weiter Entfernungen f r Datenspiegel
23. Host und oder das Symmetrix System lahm legt siehe hierzu auch 2 8 2 Beim asynchronen SRDF h ngt die Datenaktualit t von der H ufigkeit des Einfrierens eines Konsistenzstandes ab siehe 4 4 Beim Bandtransport h ngt die Datenaktualit t von der H ufigkeit des Bandtransports ab hier wird man wohl einen bestenfalls t glichen Rhythmus w hlen 2 Austallzeit Die Ausfallzeit ist bei den asynchronen Varianten etwas niedriger als bei der synchronen Variante da auf die Target Freischaltung verzichtet werden kann wenn mit den BCVs im Standby RZ weitergearbeitet wird N heres hierzu in Kap 4 4 2 Dieses bewerten wir jedoch bei weitem nicht so hoch wie den Aspekt Datenaktualit t 3 Kosten Bei den ersten zwei Varianten Synchrone SRDF Spiegelung und Asynchrone SRDF Spiegelung f llt auf dass wahrscheinlich die funktionell schw chere zweite Variante die etwas teurere ist weil die notwendigen zus tzlichen BCVs zur Abspaltung jeweils pro logischem Plattenpaar wohl teurer sind als eine vielleicht etwas bessere Netzauslegung f r Spitzenlast bei der ersten Variante Ein Mix der beiden SRDF Varianten f r einige Anwendungen und ihre Platten synchrone SRDF Spiegelung und f r andere asynchrone SRDF Spiegelung scheint nicht besonders sinnvoll weil die Netzauslegung erschwert wird f r kontinuierlichen Synchronbetrieb neben periodischem asynchronem Plattenabgleich Nach den Kosten f llt die Variante Bandtransport aus dem Rahmen Sie b
24. IP Adr 1 2 3 20 CPU MM MB White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 39 45 5 Abl ufe beim Failover Mit Failover bezeichnen wir die Umschaltung der Anwendungen in einem K Fall vom Produktions RZ auf das Standby RZ Der Failover ist durchzuf hren wenn ein K Fall eingetreten ist d h wenn durch eine der in 1 1 genannten Umst nde der Betrieb der Anwendungen im Work RZ nicht mehr m glich ist Dies ist der Fall wenn das gesamte RZ ausf llt bzw nicht mehr nutzbar ist aber auch wenn nur ein kritische Daten enthaltendes Symmetrix System im Work RZ ausgefallen ist und ein Betrieb des Produktions Hosts mit den gespiegelten Daten einer Standby Symmetrix wegen zu geringer Performance aufgrund einer gro en Entfernung ausscheidet Abb 5 1 Failover bei Komplettausfall Wir beschreiben im Folgenden kurz die automatischen Abl ufe beim Einsatz von HIPLEX AF f r X Link Konfigurationen und eine Reihe von Aktionen bei manueller Umschaltung auf das Standby RZ die im anderen Fall auch von HIPLEX AF ausgef hrt werden Es ist nat rlich auch m glich dass ein von HIPLEX AF gesteuerter Failover auf Knopfdruck manuell angestartet wird also ein halbautomatischer KS zugrunde liegt Die in den folgenden Kapiteln beschriebenen Abl ufe beim Failover und Failback sind nicht als vollst ndige technische Anleitung zu verwenden Sie sind entstanden aus Projekt und Testerfahrungen un
25. Konzepte im BS2000 wichtig sind die Kapitel ber Produkte sind nur f r den nicht damit vertrauten Leser gedacht Kapitel 3 beschreibt die oben bereits genannten Voraussetzungen f r KS Konzepte Datenspiegelung Netzanbindung sowie ggf zus tzlich erforderliche organisatorische und administrative Ma nahmen Weiter werden Verfahren zur Verf gbarkeit der Online Daten im Ausweich RZ und Techniken zur berbr ckung weiter Entfernungen f r Datenspiegelungen diskutiert Im Kapitel 4 werden die Konfigurationen beschrieben die aus Sicht der Autoren f r Katastrophenschutz Konzepte in BS2000 OSD zu empfehlen sind Diese unterscheiden sich durch Faktoren wie Distanz der RZs Datenaktualit t Performance und die M glichkeiten bei der Automatisierung Die Kapitel 5 und 6 beschreiben skizzenhaft die n tigen Vorg nge zur Wiederaufnahme des Betriebs im Standby RZ bei einem K Fall sowie die R ckumschaltung auf das Work RZ White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 6 45 2 Begriffe Definitionen Einf hrung Ein zentrales Thema in diesem und auch den folgenden Kapiteln ist die Spiegelung der Daten zum Standby bzw Ausweich RZ F r Katastrophenschutz Konzepte in BS2000 OSD empfehlen wir die hochwertigen Symmetrix Plattensubsysteme von EMC und die zugeh rige Remote Copy Funktion SRDF und beschr nken uns in diesem Dokument auf die Beschreibung dieser Systeme Die Alternative der Hostgesteuerten Spiegelung
26. Nutzung von virtuellen Hosts stellt die transparenteste L sung f r die betroffenen Anwender dar Voraussetzung hierf r ist dass die IP Adressen von Work und Standby Host entweder im gleichen physikalischen LAN Segment liegen oder dass f r die virtuelle n Hostadresse n in den Routern des Standby RZ entsprechende Routing Eintr ge vorgenommen werden Weitere Erl uterungen zum Thema virtuelle Hosts sind im Handbuch f r HIPLEX AF 3 zu finden Die Abb 3 1zeigt ein vereinfachtes Beispiel einer Konfiguration wie sie innerhalb eines Campus vorliegen k nnte Hier liegen die 2 Hosts im selben logischen Subnetz 139 20 10 x wobei die LANs beider RZs beispielsweise ber einen ATM Backbone miteinander verbunden sind Die beiden Hosts k nnten auch in unterschiedlichen Subnetzen liegen und ber unterschiedliche Router erreichbar sein Im K Fall wird der virtuelle Host 139 20 10 5 am Host B gestartet und vom BCAM werden die entsprechenden ARP Pakete Adress Resolution Protokoll gesendet so dass der virtuelle Host danach in diesem LAN Segment wieder bekannt ist allerdings an einem Netzanschluss des realen Hosts B Bei dieser Art der Konfiguration w re die Netzumschaltung innerhalb k rzester Zeit wenige Millisekunden durchgef hrt ohne dass nderungen in Routern Partner Servern oder bei den Anwendern Clients vorgenommen werden m ssen F r ein K Fall Konzept empfehlen wir wenn m glich die betroffenen Hosts in ein Subnetz zu legen We
27. SCF erfolgen Die M glichkeit von beiden Hosts mit beiden Symmetrix Subsystemen arbeiten zu k nnen entf llt und somit sind die Hochverf gbarkeits Eigenschaften gegen ber der einer engen Konfiguration leicht abgeschw cht Zusammengefasst l sst sich die Synchrone lose KS Konfiguration kennzeichnen durch die folgenden Eigenschaften Synchrone SRDF Spiegelung Aktueller Datenbestand im Ausweich RZ in einem K Fall Angebracht f r Entfernungen zwischen Produktions und Standby RZ von 10 km bis 200 km Ausfallzeit im K Fall in der Gr enordnung von ca 30 min WDM Technologie oder WAN Verbindung f r SRDF Verbindungen Einsatz von HIPLEX AF mit halb automatischer Ausfallbehandlung m glich hierf r sind zwei getrennte unabh ngige BCAM Verbindungen n tig HIPLEX MSCF V3 0 Konfiguration kann symmetrisch betrieben werden Voraussetzung Hotspots der Anwendungen sind auch mit der SRDF Zeitverz gerung noch ablauff hig s 3 4 3 White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 33 45 synch SRDF Abb 4 3 Synchrone lose KS Konfiguration 4 3 1 Nutzung und Arbeitsweise von HIPLEX AF Da in dieser Konfiguration keine Shared Pubsets m glich sind hat nur das HIPLEX AF Monitoring am Work System Zugriff auf die Daten der Switch Unit f r die Anwendungen Daher wird hier zus tzlich eine Hilfs Switch Unit am Standby System definiert Diese berwacht lediglich den Work Host und das Symmetrix Subsy
28. SCON Protokolls bei Entfernungen von mehr als 9 km merklich abnimmt Prinzipiell kann so eine Konfiguration auch ber gr ere Distanzen ber eine gemietete Netzanbindung betrieben werden Bei Nutzung von FC Anschlusstechnik m glich auf S1 und SX Maschinen mit BS2000 OSD V5 bei der spezielle Flusskontrollmechanismen Buffer Credits genutzt werden k nnen kann die Distanz ohne Performanceeinbruch auf etwa 100 km erh ht werden s hierzu auch Kap 3 5 Die synchrone enge KS Konfiguration ist also durch folgende Eigenschaften gekennzeichnet Synchrone SRDF Spiegelung Aktueller Datenbestand im Ausweich RZ in einem K Fall Kreuzverkabelung der spiegelbildlichen EMC Steuerungen Shared Pubset Verbund MSCF Angebracht bei Entfernungen zwischen Produktions und Standby RZ bis zu ca 10 km Ausfallzeit im K Fall in der Gr enordnung von ca 30 min Symmetrische KS Konfiguration m glich Optional Einsatz von HIPLEX AF mit automatischer Ausfallerkennung und automatischem Wiederanlauf m glich Die X Link Konfiguration hat durch die Kreuzverkabelung den Vorteil dass auf beiden Hosts mit beiden Plattensteuerungen gearbeitet werden kann solange die Entfernung dieses zul sst D h bei einem Systemausfall am Produktiv Host kann jederzeit ein Switchover auf den Standby Host ohne Failover auf die Standby Plattensteuerungen und zeitaufwendigen Failback ausgef hrt werden Diese M glichkeit kann ebenfalls zu Test und Wartungszwecken genutzt werden Wei
29. Varianten von asynchronen KS Konfigurationen da ihr Charakteristikum ja nur darin besteht dass die in einem K Fall am Ausweich RZ zur Verf gung stehenden Datenbest nde zwar stets konsistent aber in der Regel nicht aktuell sind So f llt insbesondere auch die Variante des regelm igen Bandtransports s 3 4 in die Kategorie der asynchronen KS Konfigurationen Die hier vorgestellte asynchrone lose Konfiguration entspricht weitgehend der synchronen losen Konfiguration aus Abb 4 4 Das synchrone SRDF wird dabei durch ein asynchrones SRDF ersetzt den Adaptive Copy Mode s a Kap 2 8 1 wodurch man die m glichen negativen Performance Auswirkungen s Kap 3 4 3 einer synchronen SRDF Spiegelung auf kritische Hotspot Anwendungen vermeiden kann Damit ist diese funktional schw chere Konfiguration gegen ber der synchronen losen Konfiguration nur dann zu bevorzugen wenn dies aus Performance Gesichtspunkten z B wegen sehr gro er Entfernung zwischen den beiden Standorten erforderlich ist Durch den asynchronen SRDF Betrieb kann die WDM Kopplung ggf auch durch eine weniger breitbandige ATM Verbindung ersetzt werden asynch SRDF Abb 4 4 Asynchrone lose KS Konfiguration Weil der Datenabgleich bei asynchronem SRDF Betrieb nicht kontinuierlich und nicht in der richtigen Reihenfolge der Schreib lOs stattfindet m ssen f r konsistente Pubset Daten auf den Target Units die Anwendungen regelm ig angehalten bzw Datenbanken Oracle in
30. Work Systems k nnen zudem zu jedem beliebigen Zeitpunkt manuell auf ein Standby System mit einem Kommando von HIPLEX AF umgeschaltet werden beispielsweise vor der Wartung des Work Systems oder bei Einf hrung einer neuen Software Version HIPLEX AF minimiert die Ausfallzeit der Anwendungen durch folgende Faktoren m Die eingesparte Zeit durch die automatische Ausfallerkennung Im unbedienten Betrieb ist dieser Zeitgewinn entscheidend f r die rasche Wiederaufnahme des Produktivbetriebs m Die eingesparte Zeit f r den Neustart des Work Systems m Die eingesparte Zeit f r eine eventuelle Hardware Reparatur m Die Zuverl ssigkeit der Umschaltung die durch ausgetestete Verfahren gew hrleistet wird HIPLEX AF nutzt PROP XT Administrationsprozeduren die auf den Work und Standby Systemen des Shared Pubset Verbundes gestartet werden Die Administrationsprozeduren von HIPLEX AF kommunizieren untereinander mittels Jobvariablen auf dem Shared Pubset Voraussetzung f r die optimale Nutzung von HIPLEX AF f r Katastrophenschutz Konzepte ist ein Shared Pubset Verbund und der Einsatz von HIPLEX MSCF und damit insbesondere eine Konfiguration der in Abb 2 2 gezeigten Art Prinzipbild einer optimalen HIPLEX AF f higen KS Konfiguration Abb 2 2 Automatisierbare HIPLEX AF f hige KS Konfiguration Eine solche Konfiguration wird wegen der Kreuzverkabelung zwischen Hosts und Plattenspeicher Systemen auch X Link Konfiguration genann
31. all einer GS Unit ein Techniker und oder Systemverwalter benachrichtigt wird der dann zun chst die Situation berpr ft bevor entschieden wird ob die Anwendung ohne Domino weiterlaufen soll da der Fehler erkannt und behebbar ist oder ob ein Failover auszuf hren ist da ein K Fall vorliegt Mit etwas Zusatzaufwand ist wie oben angedeutet sogar ein vollautomatisches KS Konzept mit HIPLEX AF Mitteln m glich Bei der Prozedur f r den Failback ist f r Testeins tze ein Parameter zu setzen der den Domino Modus vor der Wiederinbe triebnahme der SRDF Source Units deaktiviert und am Ende des Failbacks wieder aktiviert da durch den Domino Modus bei einem Ausfall die Source Units disabled werden s a Kap 2 8 2 Bei einem wirklichen Ausfall der Symmetrix wird dies i d R ein Techniker vornehmen Ebenso kann f r den DAB Domino Modus ein entsprechendes Kommando in die Switch Unit eingebaut werden 4 2 2 Besonderheiten bei Failover und Failback Der Failover erfolgt wie im Kap 5 beschrieben Sobald die Target Units in der Standby Symmetrix freigeschaltet sind k nnen die Datenpubsets importiert werden und im Rahmen des Imports werden die noch zu sichernden Daten in der GSU2 von DAB automatisch auf die Target Units geschrieben F r Privatplatten die mit GS gecached werden werden noch ausstehende Auslagerungen bei der ersten Belegung einer Platte ausgef hrt Aus Sicht des Caching sind hier also keine Zusatzma nahmen erforderlich Falls
32. ander zu trennen die u U mit v llig unterschiedlichen Systemparametern und einer anderen Ger teausstattung arbeiten Die Abb 4 7 zeigt als Beispiel die Aufteilung dreier Anwendungen Finanzen Personal und Lager in einer symmetrischen KS Konfiguration von denen die ersten beiden im Normalbetrieb im Work und die dritte im Standby RZ laufen aus Sicht der Anwendung Lager sind die Begriffe Work und Standby RZ dann vertauscht Die grau eingef rbten VMs sind im Normalbetrieb ungenutzt oder dienen nur als Testsysteme Soll zum Test f r den K Fall oder aus Wartungsgr nden z B nur Personal umgeschaltet werden so hat man mit VM2000 die Voraussetzung daf r dass dieses die zwei anderen Anwendungen nicht betrifft vorausgesetzt die CPU Leistung auf dem Standby Host ist ausreichend dimensioniert White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 38 45 Work Host VM1 Monitor Hostname IP Adr 1 2 3 4 CPU MM MB Standby Host VM1 VM2 Monitor Finanzen K Fall Hostname IP Adr 1 2 3 14 hostnames IP Adr 1 2 3 15 Virt Host Virt IP Adr 1 2 3 10 CPU CPU Abb 4 7 Abschottung der Anwendungen mit VM2000 VM4 Lager K Fall Hostname IP Adr 1 2 3 7 Virt Hostname Virt IP Adr 1 2 3 30 CPU MM MB VM3 Personal K Fall Hostname IP Adr 1 2 3 16 Virt Hostname Virt
33. astrophenvorsorge m Disaster Recovery D R m Disaster Protection m Disaster Tolerance werden als gleichbedeutend angesehen und in dieser Schrift synonym benutzt 1 2 Was verstehen wir in Abgrenzung dazu unter Hochverf gbarkeit Eine Hochverf gbarkeits Konfiguration dient in erster Linie dazu Ausf lle einzelner Betriebsmittel HW aber auch SW m glichst ohne Unterbrechung des Produktionsbetriebes zu berstehen Minimierung von Ausfallzeiten single failure recovery Ma nahmen hierzu sind die hardwarem ige Redundanz aller f r die Aufrechterhaltung des Produktionsbetriebes notwendigen Betriebsmittel die softwarem ige berwachung der Betriebsmittel automatisierte Reaktionen auf Hard und Softwarefehler Der wesentliche Unterschied des Katastrophenschutzes gegen ber Hochverf gbarkeit besteht darin dass die f r die Aufrechterhaltung des Produktionsbetriebes redundanten Betriebsmittel und Daten r umlich entfernt sind und damit gegen ber zerst renden Einwirkungen am Produktionsort gesch tzt sind 1 3 Verflechtung von Hochverf gbarkeit HV und Katastrophenschutz KS Im Idealfall sind dies zwei Ecksteine einer IT Landschaft mit HV als Basis und KS als Erg nzung Es ist nicht richtig dass KS notwendig auch ein Maximum an HV voraussetzt oder impliziert So gibt es KS Verfahren die zugunsten der hundertprozentigen Datenintegrit t Datenkonsistenz und Datenaktualit t im Standby RZ auch bei redundant vorgehaltener HW wie e
34. ationen Bei einer synchronen KS Konfiguration wird exakte Aktualit t des kritischen Datenbestands im Standby RZ nach einer Katastrophe gefordert Liegen im Ausweich RZ stets die gleichen Online Daten wie im Original RZ vor so kann in einem K Fall im Ausweich RZ ohne Datenverlust weitergearbeitet werden Eine Konfiguration der beiden RZ insbesondere der Plattenspeichersysteme und ihrer Remote Copy Funktion die das erm glicht nennen wir eine synchrone KS Konfiguration Liegen im Ausweich RZ nur Daten des Original RZ eines fr heren Zeitpunkts z B des Vortags vor so kann in einem K Fall im Ausweich RZ nur mit dem Verzicht auf die nach dem Erstellen der Datensicherung noch neu erstellten Datens tze z B aller neu eingebrachten Datens tze desjenigen Tages an dem der K Fall eingetreten ist weitergearbeitet werden Eine solche Konfiguration der beiden RZ insbesondere der Plattenspeichersysteme nennen wir eine asynchrone KS Konfiguration Bei einer asynchronen Katastrophenschutz Konfiguration ist die Datenaktualit t des Datenbestands im Ausweich RZ nach einer Katastrophe geringer Im Ausweich RZ kann jederzeit ein Datenbestand reaktiviert werden der dem letzten Konsistenzpunkt der Anwendungen entspricht in regelm igen Abst nden wird ein solcher Konsistenzpunkt im Standby RZ durch Aktionen am Produktions Host erzeugt z B im Backup Modus einer Oracle Datenbank und bis zum Erstellen des n chsten Konsistenzpunkts eingefroren Auch f r ein
35. aufgedeckte M ngel zu einer berarbeitung der Notfall Pl ne des Notfall Handbuchs 3 2 Aufbau eines Standby RZ Ein Standby RZ muss so ausgestattet werden dass es die Summe der relevanten Produktivanwendungen des Work RZs zum Ablauf bringen kann Analog dazu m ssen in einer symmetrischen KS Konfiguration beide RZs die Summe aller relevanten Produktivanwendungen beider RZs zum Ablauf bringen k nnen Gemeint sind insbesondere die RPF Leistung der Hosts der Speicherausbau der Kanaldurchsatz und die Plattenkapazit t Die RPF Leistung kann kostensparend als Capacity on Demand mit hot extra CPUs bereitgestellt werden Hierf r muss der Hardware Ressourcenbedarf aller betroffenen An wendungen ermittelt werden Falls mehrere Anwendungen umschaltbar gemacht werden sollen m ssen gen gend LAN Anschl sse bzw HNCs Highspeed Net Connect Netzanschluss f r BS2000 0OSD Systeme vorhanden sein damit man die n tige Anzahl von IP Adressen bereitstellen kann Ebenso muss auch die Konfiguration der Netze an beiden Standorten erweitert werden damit der reibungslose Betrieb auch im K Fall mit zus tzlichen Anwendern aufrecht erhalten werden kann Ebenso m ssen ggf zus tzliche Bandger te und Drucker bereitgestellt werden um in einem K Fall die erforderliche Bandger te und Drucker Leistung auch im Ausweich RZ zur Verf gung zu haben Zusammengefasst kann man sagen dass zwei etwa gleich ausger stete spiegelbildliche RZs vorhanden sein m
36. automatische Ausfallerkennung und Umschaltung im K Fall Einsatz von Globalspeicher in KS Konfigurationen Einsatz der Symmetrix Funktion TimeFinder f r asynchronen KS werden verst ndlich dargestellt Stand der Beschreibung Januar 2006 White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Inhalt 1 Einleitung 1 1 1 2 1 3 1 4 Was verstehen wir unter Katastrophenschutz Was verstehen wir in Abgrenzung dazu unter Hochverf gbarkeit Verflechtung von Hochverf gbarkeit HV und Katastrophenschutz KS Ziel und Aufbau dieses Dokuments 2 Begriffe Definitionen Einf hrung 2 1 2 2 2 3 2 4 2 5 2 6 2 7 2 8 2 9 2 10 2 11 2 12 2 13 2 14 2 15 Katastrophenschutz Konfiguration Ausweich RZ Symmetrischer KS Einseitiger KS Cold Standby Hot Standby Backup Synchrone und asynchrone KS Konfigurationen Failover Failback Manueller und automatischer Katastrophenschutz Zur Symmetrix Funktion SRDF Zur Symmetrix Funktion TimeFinder Mirror Globalspeicher GS Konsistenz Gruppen HIPLEX MSCF HIPLEX AF Storage Host Component im BS2000 SHC OSD Dual Recording By Volume DRV 3 Voraussetzungen f r Katastrophenschutz im BS2000 3 1 3 2 3 3 Organisatorische Ma nahmen Aufbau eines Standby RZ Vorbereitung Datennetz Verfahren zur Verf gbarkeit der Online Daten im Standby RZ Entfernungsabh ngige Einschr nkungen Administrative Vorbereitungen f r die Katastrophenvorsorge Datensicherungs
37. ber das BS2000 Subsysten DRV wird i im Abschnitt 2 15 zus tzlich skizziert Zum heutigen Zeitpunkt ist die Nutzung der FibreCAT CX Plattensubsysteme von EMC und der zugeh rigen Remote Copy Funktion Mirrorview auf nicht automatisierte Cold Standby Katastrophenschutz Konzepte in BS2000 OSD beschr nkt und wird im Folgenden hier nicht weiter thematisiert 2 1 Katastrophenschutz Konfiguration Eine Katastrophenschutz Konfiguration kurz KS Konfiguration im angels chsischen Disaster Tolerant Architecture ist eine Cluster Architektur zweier r umlich getrennter Rechenzentren f r die spezielle administrative Ma nahmen zur Katastrophenvorsorge definiert sind und durchgef hrt werden Die Summe der Ma nahmen an HW SW und Administration muss geeignet sein ausgew hlte relevante Anwendungen im Falle von Katastrophen Situationen die ein produktives RZ in dem gesch ftskritische Anwendungen laufen tangieren innerhalb eines akzeptablen Zeitraums in einem zweiten RZ zum Ablauf zu bringen Dieser Zeitraum ist vom Kunden zu beziffern und die Konfiguration daraufhin abzustimmen 2 2 Ausweich RZ Bilden zwei r umlich getrennte RZs zusammen eine Katastrophenschutz Konfiguration und in einem der beiden RZs tritt ein K Fall ein so wird das jeweils andere intakt gebliebene RZ das Ausweich RZ genannt 2 3 Symmetrischer KS Einseitiger KS In einer KS Konfiguration mit zwei getrennten Rechenzentren RZ1 und RZ2 sollen im K Fall ein oder mehrere Server im
38. ch erstellt werden in dem au er den Zust ndigkeiten auch die durch HIPLEX AF automatisierten Schritte zum Wiederanstart der Anwendungen dokumentiert sind 3 1 2 Notfall Handbuch Ein Notfall Handbuch beschreibt die manuelle Vorgehensweise in den beiden betroffenen Rechenzentren in einem Katastrophen Fall und ist in nahezu jeder Beziehung Kunden und Anwendungs spezifisch Um einen klaren und eindeutigen Ablauf des Wiederanlaufs der Anwendungen im K Fall zu gew hrleisten werden f r die handelnden Personen Rollen definiert und abgegrenzt Die jeweilige Rolle bestimmt die Kompetenzen und Aufgaben im Rahmen des Wiederanlaufs Die Rollen m ssen definiert und festgelegt werden Solche Rollen k nnten z B sein K Fall Verantwortlicher K Fall Manager K Fall Netzadministrator K Fall Systemadministrator K Fall Anwendungsbetreuer Beispielsweise werden eine oder mehrere Personen als K Fall Verantwortliche bestimmt die befugt und kompetent sind zu entscheiden dass die Umst nde im Work RZ eine Umschaltung erfordern also den K Fall ausrufen Weiterhin k nnen K Fall Manager bestimmt werden die nach dieser Entscheidung das weitere Vorgehen koordinieren und auf deren Anweisung z B ein K Fall Systemadministrator die n tigen Aktionen ausf hrt In einem Notfall Handbuch k nnen dann in Checklisten die Aktionen und R ckmeldungen rollenspezifisch angegeben werden Bei der Erstellung eines Notfall Handbuches kann Fujitsu auf Anfrage Unterst tzun
39. d gelten gr tenteils auch f r alle in Kapitel 4 beschriebenen Konfigurationen Eventuelle Abweichungen sind in den konfigurationsspezifischen Kapiteln beschrieben Voraussetzung f r einen nicht automatisierten Failover ist die sog K Fall Ausrufung Es sollte eine oder mehrere Personen K Fall Verantwortliche geben die befugt und kompetent sind zu entscheiden ob die Notwendigkeit besteht die Anwendungen auf die Standby Seite umzuschalten oder ob es sich nur um einen tempor ren Ausfall bestimmter HW Komponenten handelt Bei dem was man allgemeinhin als Katastrophe versteht wie Gro brand oder berschwemmung ist diese Entscheidung einfach aber es kann sich ja z B auch nur um einen Stromausfall handeln Abfolge der Schritte beim manuellen Failover 1 Abschalten noch laufender Komponenten im Work RZ Bevor eine Anwendung im Standby RZ neu gestartet wird sollte man sicherstellen dass im ausgefallenen RZ nicht noch der Work Host aktiv ist Falls es also machbar ist sollten Hosts und m glichst auch die Symmetrix Systeme im Work RZ abgeschaltet werden Falls das nicht m glich sein sollte weil z B das RZ nicht erreichbar ist m ssen die Netzverbindungen zur Au enwelt unterbrochen werden um zu verhindern dass der virtuelle Host bzw die Anwendung nach dem Neustart im Ausweich RZ im Netz doppelt vorhanden ist 2 Falls ein MSCF Verbund eingerichtet ist muss die MSCF Rekonfiguration eingeleitet werden d h es werden MSCF Meldun
40. d sollen hier lediglich einen Eindruck des Ablaufs vermitteln 5 1 Automatischer Failover mit HIPLEX AF Falls HIPLEX AF im Einsatz ist was vor allem f r die X Link Konfigurationen empfehlenswert ist und falls HIPLEX AF f r einen automatischen KS konfiguriert ist wird das HIPLEX Monitoring am Standby Host die MSCF Rekonfiguration einleiten und da sie den Ausfall der Symmetrix aufgrund von SHC OSD Meldungen erkennt den Failover auf die Standby Symmetrix ausf hren s auch Kap 2 13 Bei Ausfall des gesamten Work Symmetrix Systems bzw des gesamten Work RZ ergibt sich vereinfacht folgender automatischer Ablauf 1 Der SYSRES Monitor ein Teil der berwachung von HIPLEX AF der die erste Platte des Home Pubsets berwacht erkennt den Ausfall derselben und terminiert daraufhin das BS2000 im Work RZ 2 Das Monitoring von HIPLEX AF am Standby System erkennt anhand von SHC OSD Meldungen den Ausfall der Symmetrix und anhand von MSCF Meldungen den Ausfall des Work Systems 3 Das Monitoring am Standby System aktiviert die Target Units in der Standby Symmetrix Je nach Definition in der Switch Unit werden entweder alle oder eine vorgegebene Liste von Target Units freigeschaltet 4 Das Monitoring am Standby System importiert die Datenpubsets aktiviert ggf virtuelle Hosts und startet die Anwendungen mitsamt ihren erforderlichen Ressourcen White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 40 45 Falls
41. den Falls nicht wie in Kap 3 3 1 beschrieben mit virtuellen Hosts und dynamischem Routing gearbeitet wird m ssen jetzt die Netzkomponenten umkonfiguriert werden DNS Eintr ge VLAN Zuordnung oder Umkonfigurierung des Routing um den Anwenderzugriff auf den Work Host wieder sicherzustellen Falls die Symmetrix Systeme am Work RZ neu eingerichtet wurden muss jetzt ein EMC Techniker die Resynchronisation von den Target zu den Source Units anstarten falls nicht kann dies auch per SHC OSD Kommandos oder Prozeduren erfolgen Nachdem die Synchronisation f r alle Platten angelaufen ist k nnen das Gast System am Work Host hochgefahren und die BCAM Dateien gestartet werden Falls ein HIPLEX MSCF Verbund genutzt wird kann man diesen jetzt wieder aufbauen Die Datenpubsets werden zugeschaltet Falls die Platten noch vom SHC OSD des Standby Systems belegt sind durch die vorhergehende Aktion 2 muss ggf ein Unlock Kommando auf die Source Units abgesetzt werden bevor die Pubsets importiert werden k nnen Ein Anwendungsbetreuer f hrt eine Standard berpr fung des Zustands der Anwendungen und der zugeh rigen Ressourcen wie Datenbanken und Dateien Logging ggf manuelles Schlie en von Dateien erforderlich durch Falls mit virtuellen Hosts gearbeitet wird werden diese im Work RZ wieder aktiviert Die Anwendungen k nnen am Work Host gestartet werden Zum vorliegenden Dokument gibt es ein Nachfolge Papier 10 das analog zu den hie
42. den Backup Mode geschaltet werden Nachdem in dieser Anwendungspause die SRDF Targets abgeglichen sind sie also keine invalid tracks mehr haben kann man diesen synchronisierten Konsistenzstand auf einfache Weise einfrieren wenn man BCV Volumes f r die Target Units einsetzt Nach der Abtrennung der BCV Spiegelvolumes von den Target Units im Ausweich RZ kann die Anwendung wieder gestartet werden Die Dauer ein solchen Unterbrechung wird nur im Minutenbereich liegen Die folgende Abb 4 5 zeigt eine solche L sung mit Multi BCVs und deren Ablaufreihenfolge beim periodischen Schreiben eines Konsistenzpunktes Es werden hier zwei sogenannte Multi BCVs pro Target Unit genutzt Die BCVs 1 und 2 enthalten alternierend eine den aktuellen Stand der Target Unit und eine den letzten eingefrorenen Stand Der Wechsel zwischen BCV 1 und BCV 2 besteht jeweils aus einem Differenzabgleich Symmetrix Funktion Multi BCVs und ben tigt daher wenig Zeit Zum regelm igen Erstellen eines konsistenten Datenbestandes m ssen die Anwendungen pausieren bis Target Units und Source Units synchronisiert und das aktuelle BCV von der Target Unit getrennt ist Danach wird die Spiegelung der Target Unit mit dem zweiten BCV wieder aufgenommen und die Anwendung kann weiter laufen White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 35 45 Local Site Remote Site Source Asynchr SRDF Target Pubset S 1 Konsistenzzeitpunkt A
43. dung auf Basis von ESCON oder FC simuliert werden Mit den enthaltenen Glasfaserkabeln k nnen Entfernungen bis zu 100 km bei 4 Links oder 200 km bei 2 Links in Schritten von 10 km eingerichtet werden Somit kann verifiziert werden ob die erforderliche Gesamt IO Rate auch ber die geforderte Entfernung noch erreicht wird 3 5 Entfernungsabh ngige Einschr nkungen In vielen Dokumentationen ber KS werden die Konfigurationen oder Cluster in drei Klassen mit unterschiedlichen r umlichen Ausdehnungen eingeteilt m Campus Nah Bereich Ausdehnung bis max einige km m Metropolitan Bereich Ausdehnung bis in einen Bereich von ca 100 km m Continental Bereich Ausdehnung bis zu mehreren 100 km Mit den f r BS2000 Systeme derzeit relevanten ESCON oder FC Protokollen k nnen Campusl sungen ohne zus tzliche Ma nahmen realisiert werden solange zwischen den RZs Glasfasern beliebig verlegt werden k nnen d h insbesondere bei einem echten Firmen Campus wo keine Leitungen ber ffentlichen Grund verlegt werden m ssen Gr ere Ausdehnungen im Metropolitan Bereich werden i a die Beauftragung eines Netzcarriers erfordern der die ben tigte Bandbreite mit akzeptabler Laufzeit auf einer oder mehreren Glasfasern Dark Fibre zur Verf gung stellt F r diesen Bereich bietet sich die WDM Technologie an Gleiches gilt f r RZs die nur wenige km voneinander entfernt sind die aber nicht ber firmeneigenes Gel nde miteinander verbunden
44. durch HIPLEX AF ist aus folgenden Gr nden nicht unkritisch bei der Nutzung des Domino Modus f hrt auch jeweils der Ausfall der Standby Symmetrix der Ausfall aller SRDF Links der Ausfall einer der beiden GS Units oder einer Verbindung eines Hosts zu einer GS Unit jeweils zu einem Ausfall der Anwendungen Es ist Sache der Systemadministration oder eines Service Technikers zu entscheiden ob der Ausfall begrenzt ist und keinen Ausfall des gesamten RZs oder auch nur des Produktions Hosts oder eines Symmetrix Systems am Produktions Standort zur Folge haben wird Wird auf begrenzten Fehler entschieden und deshalb der Domino Modus von der Systemadministration per Kommando ausgeschaltet so w rde bei einer Fehlentscheidung und nachfolgendem K Fall mit automatischer Umschaltung durch HIPLEX AF ein vermutlich inkonsistenter Datenbestand am Standby RZ aktiviert Diese etwas kritische Stelle kann aber dadurch entsch rft werden dass im Rahmen der Entscheidung ob nach dem ersten Ausfall weitergearbeitet werden soll eine Prozedur gestartet wird die den Domino Modus ausschaltet und weiter daf r sorgt dass bei nachfolgenden Fehlerf llen kein automatischer Failover auf die SRDF Target Units durch HIPLEX AF gestartet wird Bei Einsatz des Domino Modus kann also ein halbautomatisches KS Konzept gew hlt und die berwachung der Switch Units derart erweitert werden dass jeweils bei Ausfall aller SRDF Links bei Ausfall einer der Symmetrix Subsysteme oder bei Ausf
45. e Domino Modus w hlen m Wenn das Risiko eines Datenverlusts in h chst unwahrscheinlichen speziellen Katastrophenszenarien unter gar keinen Umst nden eingegangen werden darf dann muss man eine Anwendungsunterbrechung bei Einzelausf llen im Produktions RZ Standby RZ oder auf dem Verbindungsweg zwischen den beiden Standorten akzeptieren und eine KS Konfiguration mit Domino Modus w hlen Der Domino Modus kann im BS2000 ber Kommandos des Subsystem SHC OSD f r einzelne SRDF Paare eingeschaltet werden Der Domino Modus l sst sich verallgemeinern auf Konsistenzgruppen von Datentr gern die ber reine SRDF Konfigurationen hinausgehen siehe hierzu den Abschnitt 2 11 Im Abschnitt 4 2 ist insbesondere auch vom Domino Modus f r DAB Caches in einer Dual GS Konfiguration die Rede 2 8 3 Invalid Tracks Wenn bei ausgeschaltetem Domino Modus eine Target Unit ausf llt oder wenn alle Remote Links ausfallen so markiert die lokale Symmetrix alle neuen Schreibdaten und die ggf noch nicht auf die Target Unit durchgeschriebenen Daten als Invalid Tracks Wenn der Defekt wieder behoben ist so wird abh ngig von einer speziellen Symmetrix Einstellung prevent automatic link recovery after all link failures no die Symmetrix eine automatische Resynchronisierung aller als Invalid Tracks markierten Spuren durchf hren Bei bestehender Verbindung zur remote Symmerix wird auch diese ber die Anzahl der invalid tracks informiert Eine interne volume sp
46. e asynchrone KS Konfiguration ist es erforderlich vom Produktions Host erzeugte Daten in ein Ausweich RZ zu transferieren hierf r kommen asynchrone Datenspiegelungen periodische bermittlungen von Daten mittels Filetransfer oder physikalischer Transport von Datentr gern in Frage 2 6 Failover Failback In einem K Fall sollen im Ausweich RZ die Produktions Anwendungen des ausgefallenen RZ zum Wiederanlauf gebracht werden Dieser Vorgang und die Summe aller dazu notwendigen Aktionen werden mit Failover bezeichnet Der Failover kann entweder durch manuelle oder auch durch automatische Aktionen durchgef hrt werden White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 7 45 Nach einem Failover und der Wiederherstellung des ausgefallenen Produktions RZ soll es in einem Katastrophenschutz Konzept weiterhin m glich sein eine R ckverlagerung der Anwendungen auf die urspr nglichen Betriebsmittel vorzunehmen Dieser Vorgang und die Summe aller dazu notwendigen Aktionen werden mit Failback bezeichnet 2 7 Manueller und automatischer Katastrophenschutz Unter automatischem Katastrophenschutz ist zu verstehen dass der Ausfall von mehreren Komponenten oder sogar eines gesamten RZ von einer berwachungsssoftware bei BS2000 Systemen ist dies HIPLEX AF erkannt und automatisch behandelt wird Es werden falls noch m glich alle SW Ressourcen einer Anwendung beendet und dann am Standby Host mit Spiegelplatten neu gestar
47. eansprucht zus tzliches Potenzial bei Bandtransport Bandoperating Bandmaterial und Bandger ten Auch nach absoluten laufenden Kosten f llt diese Variante deutlich aus dem Vergleich heraus da sie die weitaus h chsten Personalkosten bedingt 4 Performance Die Performance im laufenden Betrieb wird vom asynchronen SRDF am wenigsten belastet Beim synchronen SRDF verl ngern sich die IO Zeiten f r die Schreib IOs siehe 3 4 3 Bei der Variante Band transport ver ndert sich die IO Zeiten nicht allerdings kommen aufw ndige t gliche Restore Zeiten am Standby RZ additiv hinzu 5 Datenschutz Mit Ausnahme der Variante Bandtransport ist bei allen genannten Varianten ein sehr hohes Ma an Datensicherheit bereits durch die Nutzung von Glasfaserverbindungen gegeben die nur mit hohem technischen Aufwand abh rbar sind Bei Nutzung der WDM Technologie s Kap 3 4 2 m sste zus tzlich das Zeitmultiplexing TDM entschl sselt und eine spezielle Wellenl nge X herausgefiltert werden Der potentielle Lauschangreifer br uchte also ein eigenes WDM Equipment und Kenntnis ber das Equipment des Unternehmens Auf Ebene des ESCON oder FC Protokolls entsteht au erdem eine zus tzliche Zerst ckelung der Daten in maximal 2kB gro e Bl cke die sich auf unterschiedliche Platten verteilen k nnen Bei der asynchronen Verbindung wird das Abh ren durch die ungeordnete Reihenfolge der Daten auf dem SRDF Link zus tzlich erschwert Bei der Nutzung der WAN T
48. echnologie s Kap 0 ist das Abh ren der Verbindung prinzipiell einfacher hier muss ggf auf Channel Extender mit encryption Funktionalit t zur ckgegriffen werden 6 Robustheit Durch ihre erforderlichen additiven K Fall Vorsorge Aktivit ten wird vor allem bestimmt wie robust oder fehleranf llig die Verfahren sind Besonders robust ist die erste Variante weil hier nach der einmaligen Aufnahme der synchronen SRDF Spiegelung keine regelm ige Bedienung mehr notwendig ist Die zweite Variante ist ebenso robust weil der White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 20 45 Datenabgleich automatisiert werden kann Dieser Automatismus muss jedoch gepflegt werden wobei nat rlich Fehler m glich sind Die dritte Variante ist nicht zu automatisieren und somit ist t glich die M glichkeit von Fehlern gegeben Durch diese Ausf hrungen wollen wir deutlich machen dass die asynchronen Verfahren in nahezu jeder Hinsicht den synchronen Verfahren unterlegen sind Im n chsten Abschnitt sollen KS Konfigurationen diskutiert werden Wir beschr nken uns deshalb fast ausschlie lich auf synchrone KS Konfigurationen und behandeln von den asynchronen KS Konfigurationen lediglich die Spiegelung der Daten mit asynchronem SRDF ausf hrlicher 3 4 2 Remote Link Varianten bei gro en Entfernungen Um eine SRDF Verbindung ber eine weite Entfernung Erl uterungen zu den Gr enordnungen unter Kap 3 5 entf
49. eich mit dem Original auf der Technik einer Differenzsicherung beruht Eines der BCVs kann dann stets als Spiegel in Betrieb sein w hrend auf dem anderen beispielsweise ein konsistenter eingefrorener Datenbestand vorliegt Wird der aktuelle Spiegel weggeschaltet und das zweite BCV hinzugenommen werden nur zwischenzeitlich ge nderte Datenbl cke auf das zweite BCV kopiert Da man sowohl SRDF Source Units als auch SRDF Target Units mit einem BCV Spiegel versehen kann ist diese Funktion auch f r den asynchronen Katastrophenschutz nutzbar In den Abschnitten 4 4 und 4 5 wird hierauf Bezug genommen 2 10 Globalspeicher GS Der Globalspeicher oder Global Storage kurz GS genannt ist ein auf Halbleiterbasis arbeitender schneller Erweite rungsspeicher und kann an BS2000 Anlagen der S Linie angeschlossen werden Der GS besteht aus 1 oder 2 unabh ngigen Hardware Einheiten GS Unhits die jeweils eine eigene Speicheransteuerung und Stromversorgung besitzen Wenn 2 GS Units vorhanden sind k nnen diese parallel betrieben werden Dual Modus wobei dieselben Daten bei einer Schreiboperation auf beide GS Units geschrieben werden Hiermit kann man dem Ausfall einer kompletten GS Unit vorbeugen Eine GS Unit wird blicherweise auch mit einer Batterie ausgestattet um die Daten auch bei Stromausfall aufrecht zu erhalten Der GS kann einerseits zur Emulation von Festplatten genutzt werden sogenannte GS Volumes eine Art von RAM Disks die um ein Vielfach
50. elength Division Multiplex WDM Technologie oder einer Kombination dieser beiden Multiplex Techniken WDM und TDM White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 21 45 Multiplexers TDM WDM TDM Time Division Multiplexing bertragung mehrfacher Signale ber dieselbe physikalische Verbindung WDM Wave Division Multiplexing TDM und WDM kombinierbar Quelle IBM Redbook Introduction to SAN Distance Solutions 8 Single Fibre OODTODIDIDIe T Abb 3 2 Multiplexers TDM und WDM Wavelength Division Multiplex ist ein optisches Verfahren welches mit rein optischen Komponenten funktioniert Verwendet wird Glasfaserkabel welches Laserlicht bertr gt Der Clou an der Sache ist dass das Laserlicht Licht unterschiedlicher Wellenl nge beinhaltet Auf der Senderseite werden die optischen Signale FC ESCON oder sonstige in elektrische umgewandelt dann auf jeweils einen Laser bestimmter Wellenl nge moduliert und mit den anderen Lasern zusammengef hrt multiplexiert und anschlie end in einer einzigen Glasfaser bertragen wie in Abb 3 2 gezeigt Auf der Empf ngerseite geschieht die umgekehrte Operation indem die einzelnen Signale wieder voneinander getrennt demultiplexiert und dann ihren entsprechenden Empf ngerdioden zugef hrt werden Auf diese Art k nnen ber nur eine Glasfaser 64 demn chst sogar 128 bidirektionale Kan le und ber ein Glasfaserkabel eine
51. en SRDF Betrieb erh lt Sie sendet die aktualisierten Daten zur Remote Symmetrix die die Daten zun chst im Cache und dann asynchron auf der Target Unit speichert Ein SRDF Paar wird vom Service Techniker eingerichtet Es gibt die drei unterschiedlichen SRDF Modi m synchroner Modus m semi synchroner Modus ab Microcode Version e5771 nicht mehr unterst tzt m Adaptive Copy Modus asynchroner Modus Synchroner Modus bedeutet dass Schreib IOs auf eine SRDF Platte erst dann dem Betriebssystem als erfolgreich beendet gemeldet werden wenn die Daten in den lokalen Cache und auch ber die SRDF Verbindung in den Cache der Remote Symmetrix geschrieben worden sind Erst danach wird der n chste Schreibauftrag auf dieselbe Platte angenommen Dadurch ist gew hrleistet dass die Daten aller ausgef hrten Schreibauftr ge nach dem Ausfall einer Symmetrix bzw eines RZ noch verf gbar sind Im Unterschied dazu wird beim semi synchronen Modus eine Schreib IO als beendet gemeldet sobald die Daten in den Cache der lokalen Symmetrix geschrieben sind Der Abgleich des Cache in der Remote Symmetrix erfolgt nur in bestimmten Intervallen jedoch sp testens sobald ein erneuter Schreibauftrag f r dieselbe Platte eintrifft D h bei Ausfall der lokalen Symmetrix kann pro Platte ein Schreibauftrag verloren sein Daf r ist dieser Modus gerade bei gr eren SRDF Entfernungen performanter Beim Adaptive Copy Modus erfolgt der Abgleich der Daten zwischen den Steu
52. en k nnen Durch die r umliche Trennung von Original und Spiegelplatte die theoretisch von dem BS2000 Server auch weit entfernt sein k nnen ist der Datenzugriff trotz Nichtverf gbarkeit eines Plattenspeichersystems z B im K Fall unterbrechungsfrei m glich Damit steht mit dem BS2000 Subsystem DRV ein Software Tool zur Verf gung das hnliche Funktionalit t wie SRDF bietet und auch f r einen Katastrophenschutz alternativ zu SRDF eingesetzt werden kann W hrend im K Fall die SRDF Targets ber SHC OSD Kommandos zur Benutzung freigeschaltet werden m ssen k nnen die DRV Spiegelplatten nach UNLOCK DISK vom Standby System direkt genutzt werden Die funktional m chtigere Variante ist die SRDF Variante Dennoch ist DRV f r Katastrophenschutz Konzepte eine erw genswerte M glichkeit die insbesondere bei ESCON Anschluss f r Katastrophenschutz bei Konfigurationen mit geringer Entfernung zwischen Produktions und Standby RZ in Frage kommt Um das vorliegende Papier nicht zu berfrachten wurden keine eigenen Katastrophenschutz Konfigurationen mit DRV Spiegelung statt SRDF Spiegelung im Abschnitt 4 aufgenommen Bei einem konkreten Projekt k nnen sie jedoch jederzeit beschrieben und diskutiert werden Verl ngerung einer Beim Synchronen Modus Zwei lOs werden parallel durchgef hrt der Schreib IO Signallaufzeit ber den SRDF Link zweite Interrupt bestimmt die Gesamt IO Einlagerung der Daten in den Cache der Dauer Bei kleinen
53. enkbar bei denen im Standby RZ z B das Logging einer Transaktion geschrieben wurde die Transaktion selber aber nicht s auch Abschnitt 4 6 Solange der Verlust von Daten durch die in Kap 2 8 2 beschriebenen Szenarien im K Fall tolerierbar ist wird empfohlen den Domino Modus nicht einzuschalten um die Hochverf gbarkeit der Konfiguration nicht zu beeintr chtigen Beim Konfigurieren der Symmetrix Steuerungen ist darauf zu achten dass vom EMC Techiker m die automatische Resynchronisation f r die Steuerungen eingeschaltet worden ist Einstellung Prevent automatic link recovery after all link failures no m das Invalid Tracks Attribut f r alle SRDF Platten eingeschaltet worden ist 2 9 Zur Symmetrix Funktion TimeFinder Mirror Die Funktion TimeFinder Mirror bietet die M glichkeit zu einer Symmetrixplatte eine Spiegelplatte von gleichem Typ und gleicher Kapazit t einzurichten die w hrend des Produktivbetriebs hinzugeschaltet und abgetrennt zu Test oder Sicherungszwecken genutzt werden kann ohne dass die Anwendungen hierf r beendet werden m ssen Point In Time Copy Die Originalplatte wird dann als Normal Unit und die Spiegelplatte als Additional Mirror Unit oder auch Business Continuance Volume BCV bezeichnet Die Funktion ist ausf hrlich im SHC OSD Handbuch 1 beschrieben Ab der Version 3 0 des SHC OSD ist es weiterhin m glich pro Platte mehr als ein BCV alternierend in Betrieb zu nehmen Multi BCVs deren Abgl
54. enth lt verstanden werden Im Ergebnis handelt es sich bei einer so verstandenen Katastrophe um ein auf u ere Einwirkungen zur ckgehendes Ereignis das in seiner Wirkung zu einem Abbruch des Produktionsbetriebes f hrt und welches zur Weiterf hrung des Produktionsbetriebes die Umschaltung aller erforderlichen Betriebsmittel auf die in einem Standby RZ Ausweich RZ vorgehaltenen analogen Betriebsmittel erzwingt Standby RZ hei t in der folgenden Beschreibung entweder ein r umlich entferntes RZ mit gleichwertiger Hardwareausstattung oder ein f r die Anwendungen n tiges Hardware Equipment im wesentlichen Host Plattenspeicher Netzkomponenten das zumindest durch eine Brandschutzmauer vom Produktiv Host und dessen Plattenspeicher Subsystemen getrennt ist und eine eigene Stromversorgung hat Der Eintritt einer Katastrophe wird im Folgenden auch kurz mit K Fall bezeichnet Die Anforderungen an ein Katastrophenschutz Konzept liegen also in der Bereitstellung einer Konfiguration HW SW die es erm glicht bei einem Gesamtausfall eines RZ den Produktionsbetrieb in einem Standby RZ aufnehmen zu k nnen site failure recovery und dabei folgende Randbedingungen so gut wie m glich einzuhalten m Sicherstellung eines konsistenten und aktuellen zumindest m glichst aktuellen Datenbestands der Produktionsanwendungen im Standby RZ m Unver nderte Zugriffsm glichkeiten der Anwender auf den Datenbestand im Standby RZ durch Netzumschaltu
55. er ging die Entwicklung des Bandbetriebs zu Kassettenlaufwerken zu Montierhilfen schlie lich zu virtualisierten Ger ten und Volumes Zus tzlich zum Sicherungsbetrieb m ssen im Operatorbetrieb t gliche Duplizierl ufe im Produktions RZ und Restore L ufe im Ausweich RZ ber direkt angeschlossene Magnetband Kassetten Systeme gefahren werden und mitsamt der zus tzlichen Transportlogistik dazwischen wird das Ergebnis bei der Datenaktualit t am Zielort recht unbefriedigend gt entspricht Tier 2 3 in IBM Terminologie Eine andere Variante die dem Tier 1 entspricht ist die Nutzung eines Dienstleistungsunternehmen z B Restart das erst im K Fall ein passendes Equipment innerhalb weniger Tage liefert Als Vorsorge werden lediglich Sicherungsb nder ausgelagert Solche Anbieter k nnen auch ein Symmetrix System mit Target Units zur Datenspiegelung sowie VM Gastsysteme und Extra CPUs als Cold Standby bereitstellen Die CPU Leistung wird dann erst im K Fall aktiviert Interessant ist diese Variante ggf auch als Kooperationsmodell zwischen RZs unterschiedlicher Unternehmen 3 4 1 Bewertungsaspekte f r die Konfigurations Varianten A Aktualit t der Daten im Ausweich RZ B Zeitdauer von der Ausrufung des K Falles bis zum Wiederanlauf der Anwendungen C Kosten des additiv ben tigten Personals und der additiv ben tigten Betriebsmittel D Beeinflussung der Performance der Produktiv Abl ufe E Schutz der Daten gegen unbefugtes Lesen White Paper
56. erden und somit die Anwendung wie auch bei Fall 1 abbricht oder stehenbleibt Wenn die Fehlerursache gekl rt ist und ein K Fall ausgeschlossen werden kann kann der Domino Modus deaktiviert und tempor r mit nur einer GSU weitergearbeitet werden W hrend der SRDF Domino Modus pro logischem Volume eingestellt werden kann wirkt der DAB Domino Modus global auf die Gesamtheit aller DAB Caches im Globalspeicher F r einen rundum sicheren KS in einem Parallel HIPLEX in dem der GS als DAB Schreib Cache genutzt wird ist demnach sowohl der Domino Modus f r SRDF als auch der Domino Modus f r DAB Caches im GS zu verwenden F r GS Volumes steht z Z kein Domino Modus zur Verf gung Die synchrone enge KS Konfiguration mit Nutzung des GS f r gesch ftskritische Daten ist also durch folgende Eigenschaften gekennzeichnet Synchrone SRDF Spiegelung mit Domino Modus Aktueller Datenbestand im Ausweich RZ in einem K Fall Kreuzverkabelung der spiegelbildlichen EMC Steuerungen Shared Pubset Verbund MSCF Geringe r umliche Entfernung zwischen Produktions und Standby RZ bis zu 70m Ausfallzeit nach Erkennung des K Falls in der Gr enordnung von ca 45 min Symmetrische KS Konfiguration m glich Optional Einsatz von HIPLEX AF mit automatischer Ausfallerkennung und halbautomatischem Wiederanlauf m glich Nutzung von DAB Schreibcaching im GS mit Domino Modus m glich Durch den Domino Modus muss bei Ausfall der SRDF Verbindungen und auch bei Ausfa
57. ernungsabh ngige Einschr nkungen f hren zu k nnen ben tigt man m entweder eine WAN Netzverbindung zwischen den beiden Symmetrix Standorten und an beiden Standorten je einen Channel Extender der das SRDF Protokoll auf ein Netz Protokoll T3 ATM etc umsetzt und somit die Verbindung zwischen Symmetrix und dem Netzanschluss herstellt alternativ eine TCP IP Netzverbindung und statt einem Channel Extender ein Storage to IP Gateway m oder eine Lichtwellenleiter Verbindung Point to Point ber die gesamte Strecke zwischen den beiden Symmetrix Systemen und die WDM Technik grundlegende Einf hrung dazu beispielsweise in 7 WAN Netzverbindung F r eine WAN Netzverbindung der ber SRDF zu koppelnden Symmetrix Subsysteme wird eine Netzverbindung zwischen den beiden Standorten und pro Standort ein Protokollumsetzer von ESCON oder FC auf das Netzprotokoll T3 ATM etc ein so genannter Channel Extender ben tigt Hersteller solcher Channel Extender sind z B die Firmen Inrange Technologies mit ihrem Storage Network System 9801 SNS und Computer Network Technology CNT mit den Produkten aus der UltraNet Product Family oder Channelink Product Family Die zu bertragenden Daten werden in den Channel Extenders komprimiert und mit dem entsprechenden Netzprotokoll verschickt Das Netz muss entsprechend dem Datenstrom breitbandig ausgelegt sein und sollte f r die SRDF Daten bertragung exklusiv zur Verf gung stehen Die Dauer ei
58. erseits berwachen sich die Rechner des Verbunds gegenseitig wobei durch die Redundanz der berwachungspfade ein Rechnerausfall zuverl ssig erkannt werden kann Beim Ausfall eines Rechners oder eines Kommunikationspfades gew hrleisten geeignete Rekonfigurierungsma nahmen die weitere Funktionsf higkeit des Shared Pubset Verbunds Der XCS Verbund Cross Coupled System ist eine Erweiterung des Shared Pubset Verbunds Rechner bergreifende Synchronisationsmechanismen erlauben die Verwaltung global verf gbarer Betriebsmittel und erm glichen den Betrieb von verteilten Anwendungen mit Datenzugriff auf die gemeinsamen Datentr ger Die Mechanismen zur Erkennung eines Rechnerausfalls sind integraler Bestandteil sowohl des Shared Pubset Verbunds und des XCS Verbunds als auch des CCS Verbunds Closely Coupled System ohne Shared Pubset Sie erlauben die Realisierung von Standby Konfigurationen mit deren Hilfe sich Ausfallzeiten von Anwendungen minimieren lassen Die Realisierung derartiger Konfigurationen wird durch ein weiteres Mitglied der HIPLEX Produktfamilie HIPLEX Availability Facility HIPLEX AF unterst tzt Zus tzlich zur berwachung ber die BCAM Verbindungen berwachen sich die Teilnehmer eines Shared Pubset Verbunds ber Shared Pubsets Dazu wird beim Importieren eines Pubsets im Shared Modus auf dem Master Rechner vom DVS die Watch Dog Datei automatisch eingerichtet Jeder Sharer sowohl Master als auch Slave Rechner schreibt in d
59. erungen niederprior sowohl verz gert zur Schreib IO als auch in einer Reihenfolge die nicht den Origin r IOs entspricht Das bedeutet dass bei Ausfall einer Steuerung der gespiegelte Datenbestand m glicherweise inkonsistent ist Dieser Modus sollte daher nur dann zum Katastrophenschutz verwendet werden wenn auch regelm ige konsistente Datenst nde erstellt und beispielsweise auf BCVs gesichert werden White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 8 45 wie im Kapitel 4 4 beschrieben Er ist nur dann einzusetzen wenn der Verlust von Daten zwischen diesen Sicherungszeitpunkten im K Fall tolerierbar ist Folgende Implikationen ergeben sich durch die Wahl dieser Modi Der synchrone Modus garantiert stets Gleichstand aller gespiegelten Daten solange logisch zusammen geh rige Daten nicht ber SRDF Units auf verschiedenen Symmetrix Steuerungen verstreut sind Damit ist dieser Modus f r den Katastrophenschutz bestens geeignet Zu entscheiden ist dabei ob die entfernungsabh ngige und ggf Netztopologie abh ngige Performance Einbu e tolerierbar ist Der semi synchrone Modus garantiert f r die Daten einer Symmetrix Steuerung Gleichstand bis auf maximal eine Schreib IO pro Volume auf der entfernten Symmetrix Steuerung sowie Datenkonsistenz in dem Sinne dass Schreib IOs auf verschiedene Volumes derselben Steuerung in der gleichen Reihenfolge auf die Target Units geschrieben werden in der sie auch von der
60. es schneller arbeiten als herk mmliche Platten oder aber als Cache Medium f r herk mmliche BS2000 Platten Bei einem Systemausfall bleiben die Cache Daten im GS erhalten und werden bei Neustart des Systems rekonstruiert so dass ein dualer GS mit Batterie uneinge schr nkt auch zum sicheren Schreib Caching genutzt werden kann F r unsere Betrachtungen ist die GS Nutzung als Cache Medium insofern wichtig da die Cache Bereiche kritischer Dateien mit in den Katastrophenschutz einbezogen werden m ssen Kap 4 2 Genaue Informationen zur Nutzung von GS als Cache sind im DAB Handbuch 2 zu finden 2 11 Konsistenz Gruppen Der Begriff Konsistenz Gruppen leitet sich vom speziellen EMC Feature Consistency Groups oder auch von einer gleichnamigen Funktion innerhalb des IBM Features XRC XRC ist eine Art von asynchroner entfernter Spiegelung ab und wird hier verallgemeinert um insbesondere im Globalspeicher von DAB zwischengepufferte Dateien in ein KS Konzept mitaufnehmen zu k nnen Eine Konsistenzgruppe wird immer in einer Umgebung definiert bei der als Katastrophenvorsorge eine Spiegelung von Daten zum Zwecke der Datenverf gbarkeit in einem Standby RZ eingesetzt wird m Wenn die abstrakte Zusammenfassung aller physikalischen und logischen Datentr ger auf die logisch abh ngige Daten einer Anwendung Standard Beispiel Datenbank Anwendung Transaktion und Logging verteilt sind hostseitig gemeinsam so kontrolliert und gesteuert werden
61. ewickelt werden s a Kap 3 3 da auch optisches Routing m glich ist mit dem optischen Add Drop Multiplexer gibt es die M glichkeit optische Ringtopologien zu bauen Die anfallenden Kosten bestehen in Anmietung Kauf oder Leasing einzelner WDM kompatibler Glasfasern bzw einzelner X s sowie den erforderlichen WDM Ger ten Manche Provider bieten als plugin L sungen ESCON oder FC Kan le und managed service an Die Kosten verglichen mit der WAN Netzverbindung gestalten sich bei WDM eher g nstiger bei zudem deutlich besserer Funktion und Leistung Aus all diesen Gr nden leistungsf higer zukunftstr chtiger kosteng nstiger geben wir der WDM Technologie auch gegen ber der WAN Netzverbindung den eindeutigen Vorrang Kurz wesentliche technische Eigenschaften auf einen Blick WDM Wave Division Multiplexing DWDM Dense Wave Division Multiplexing m Monomode Lasertechnik m 9 Micrometer Durchmesser White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 22 45 E bis zu 64 128 Anwendungen pro Verbindung DWDM m 64 128 x 2 5 10 GigaBits Bandbreite einer Glasfaser E bis zu 150 km ohne Verst rkung m Verst rkung rein optisch WDM Technik ist einsetzbar f r EMC SRDF ESCON mit FarPoint Fibre Channels Shared DASD Remote Peripherie CTC Connections Fast Ethernet Gigabit Ethernet ATM Die Performance einer synchronen SRDF ESCON Verbindung wird durch die EMC Firmware Far Point ve
62. ezifische Einstellung des Symmetrix Subsystems genannt Invalid Tracks Attribut verhindert dass mit einer Target Unit alleine weitergearbeitet werden kann wenn dieses Volume nicht synchronisiert ist Diese Einstellung kann mit einem SHC Parameter au er Kraft gesetzt werden sie verhindert aber dass invalid tracks beim Failover unbemerkt bleiben Wenn wie auch sp ter in Kapitel 4 empfohlen SRDF Verbindungen mehrfach vorhanden sind und r umlich getrennt verlaufen sollte der Ausfall s mtlicher Links ausschlie bar sein und somit keine invalid tracks auf den Target Units auftreten Bei asynchronen Konfigurationen muss man im K Fall allerdings damit rechnen s a Kap 4 4 2 84 SRDF Einstellungen beim synchronen Katastrophenschutz Es wird f r alle Platten bis auf eventuell vorhandene BCVs siehe 2 9 in Katastrophenschutz Konfigurationen RAID1 vorausgesetzt so dass der Fall des Schreibfehlers auf einer einzelnen Platte z B Platte mit den Logging Daten nicht vorkommt Nur die Remote Link Verbindungen oder ganze Symmetrix Subsysteme m ssen als Ausfalleinheiten einer White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 10 45 Symmetrix Konfiguration betrachtet werden Alle involvierten Platten m ssen RAID1 gespiegelt sein um lokale Hochverf gbarkeit bieten zu k nnen Logisch abh ngige Daten sollten nicht ber verschiedene Symmetrix Subsysteme verstreut werden Sonst sind Rolling Disaster F lle d
63. f die Backup Plattform gebracht gt Tier 4 Bidirektionaler asynchroner KS Verbindungen mit hoher Bandbreite existieren zwischen beiden Plattformen gt Tier5 Synchroner Update im jeweiligen Ausweich RZ kein Bandtransport mehr n tig gt Tier6 Automatische Umschaltung im K Fall Wir verweisen im BS2000 Umfeld hier explizit auf drei exemplarische Typen von Verfahren zur Verf gbarkeit der Online Daten im Standby RZ In synchronen KS Konfigurationen 1 Spiegelung der Daten mit synchronem SRDF Online Spiegelung Die Online Daten der Produktionsanwendungen liegen auf einem oder mehreren Symmetrix Systemen und werden mit synchronem SRDF ber Verbindungsstrecken Remote Links zu spiegelbildlichen Symmetrix Systemen im Standby RZ gespiegelt Die aktuellen Daten befinden sich stets lokal gesch tzt auf RAID1 Source Units im Produktions RZ und dar ber hinaus zus tzlich sinnvollerweise auch dort lokal gesch tzt auf RAID1 Target Units im Standby RZ Die fundamentale Aussage bei dieser Konfiguration ist die Tatsache dass im K Fall keine Daten verloren gehen gt entspricht Tier 5 6 in IBM Terminologie In asynchronen KS Konfigurationen 2 Spiegelung der Daten mit asynchronem SRDF Online Spiegelung Die Online Daten der Produktionsanwendungen liegen auf einem oder mehreren Symmetrix Systemen und werden mit asynchronem SRDF ber Verbindungsstrecken Remote Links zu spiegelbildlichen Symmetrix Systemen im Standby RZ gespiegelt Die a
64. g by Volume genannt DRV wird im E A System des BS2000 realisiert und muss weder vom Data Management System noch vom Anwenderprogramm zur Kenntnis genommen werden Der DRV Betrieb wird ber eine Reihe von Kommandos vom Operator bzw Systemverwalter eingeleitet gesteuert berwacht und beendet Der DRV Modus bei dem die Daten doppelt gef hrt werden hei t Dual Modus Er erh ht die Verf gbarkeit der auf den Platten gespeicherten Daten Jeder Schreibauftrag des Data Management System wird auf beiden Platten ausgef hrt und jeder Leseauftrag wird von der Platte mit der k rzesten IO Warteschlange oder alternativ von einer fest ausgew hlten Platte abgewickelt F llt eine Platte aus kann auf Mono Modus gewechselt werden Ein Eingriff des Operators ist daf r nicht notwendig Der Operator oder Systemverwalter kann das fehlerhafte Laufwerk durch ein anderes Laufwerk vom gleichen Typ ohne Unterbrechung der Anwendungen austauschen Der Mono Modus unterscheidet sich von SRV dadurch dass w hrend des Betriebs durch Zuschalten einer Platte mit identischer Volume Serial Number der Dual Modus wieder aufgenommen werden kann Der bergang von Mono auf Dual Modus hei t Rekonstruktion Die Daten werden auf die hinzugenommene Platte kopiert wobei Ein Ausgaben der Benutzer gleichzeitig bearbeitet werden k nnen DRV unterst tzt Pubsets und Privatplatten aller Ger tetypen mit der einzigen Einschr nkung dass Shared Pubsets nicht f r DRV verwendet werd
65. g leisten wie auch schon durch unsere Competence Centers geschehen 3 1 3 Regelm ige Notfall bungen Auszug aus dem IT Grundschutzhandbuch des Bundesamts f r Sicherheit in der Informationstechnik siehe 6 Notfall bungen dienen der Pr fung der Wirksamkeit von Ma nahmen im Bereich der Notfallvorsorge Einerseits wird durch eine Notfall bung der effektive und reibungslose Ablauf eines Notfall Plans erprobt und andererseits werden bisher unerkannte M ngel aufgedeckt Typische bungen sind m die Durchf hrung einer Alarmierung Durchf hrung von Brandschutz bungen Funktionstests von Stromaggregaten Wiederanlauf nach Ausfall einer ausgew hlter IT Komponenten und Wiedereinspielen von Datensicherungen Die Ergebnisse einer Notfall bung sind zu dokumentieren White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 16 45 Notfall bungen sind regelm ig zu wiederholen Da diese bungen den normalen Betriebsablauf st ren k nnen sollte die H ufigkeit an der Gef hrdungslage orientiert sein jedoch sollten die entsprechenden Notfall bungen zumindest einmal j hrlich stattfinden Soweit erforderlich sind Schulungsma nahmen der Mitarbeiter durchzuf hren Erste Hilfe Brandbek mpfung etc Vor Durchf hrung einer Notfall bung ist das Einverst ndnis der Beh rden bzw Unternehmensleitung einzuholen Erg nzende Kontrollfragen m Werden die Notfall bungen regelm ig wiederholt m F hren
66. gen so beantwortet dass die BCAM Verbindung beendet und n tigenfalls ein Masterwechsel f r das Shared Pubset durchgef hrt wird White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 42 45 9 Falls nicht wie in Kap 3 3 1 beschrieben mit virtuellen Hosts und dynamischem Routing gearbeitet wird m ssen die Netzkomponenten umkonfiguriert werden DNS Eintr ge VLAN Zuordnung oder Umkonfigurierung des Routing um Anwenderzugriff auf den Standby Host zu erm glichen Dies ist allerdings unabh ngig von den folgenden Schritten Freischalten der SRDF Target Units am Standby RZ mit SHC OSD Kommandos Falls ein Cold Standby Konzept vorliegt also ggf auch die Home Pubsets der ausgefallenen Systeme per SRDF gespiegelt wurden m ssen die Gast Systeme jetzt per IPL von den Target Units gestartet werden Da die Platten der Datenpubsets noch vom Work System belegt waren m ssen sie per Unlock Disk Kommando freigegeben werden Importieren der gespiegelten Datenpubsets von den Target Units berpr fung der Anwendungsressourcen Der Anwendungsbetreuer oder Systemverwalter pr ft die Verf gbarkeit und Vollst ndigkeit der Datenpubsets Netzumschaltung Aktivieren der virtuellen Hosts 10 Neustart der Anwendungen Nach diesen Arbeitsschritten werden die Anwendungen am Standby Host gestartet Die genannten Arbeitsschritte sind nat rlich weitgehend automatisierbar und in Prozeduren aufrufbar Wie lange kann e
67. gt Failover Switchover F llt im Work RZ nur die Symmetrix aus wird wie in Abb 5 1 die Anwendung auf dem Standby Host weitergefahren denn dann wird auch das BS2000 am Work Host nicht mehr laufen Beim Einsatz von HIPLEX AF wird das Work System automatisch terminiert Ausfall von Standby Host oder und Symmetrix Falls produktive Anwendungen auch auf dem Standby Host mit Source Unit in der Standby Symmetrix laufen sind aus Sicht dieser Anwendungen die Rollen der beiden Hosts und der beiden Symmetrix Systeme vertauscht die Abl ufe bei Ausfall des Host und oder der Symmetrix im Standby Rechenzentrum sind jedoch die gleichen Ausfall von Verbindungen Wenn wie schon in Kap 4 1 beschrieben die Verbindungen der Einzelkomponenten alle redundant ausgelegt sind und auf unterschiedlichen Wegen verlaufen es also keine Single Points of Failure gibt dann wird ein Verbindungsausfall von der jeweiligen Treiber SW behandelt und stellt somit kein Ausfallszenario dar Eine derart redundant ausgelegte Verbindungstechnik wird zur Katastrophenvorsorge empfohlen 5 2 Manueller Failover Bei KS Konfigurationen ohne Automatisierung durch HIPLEX AF wird man im K Fall nach einem Notfallplan oder Notfallhandbuch s Kap 3 1 2 vorgehen welches nat rlich rechenzentrums und anwendungsspezifisch zu erstellen ist Es werden daher nur die grunds tzlichen Schritte aufgef hrt Diese Schritte richten sich aus an der synchronen engen KS Konfiguration un
68. he Produkte in einer Zeile zusammengefasst Siemens Waveline CNT Inrange Spectrum ADVA FSP Alcatel Optinex Sorrento Networks GigaMux Inrange GigaMux Nortel Network OPTera Metro Cisco Metro ONS CNT UltraNet Wave Multiplexer ONI Online Bei der Festlegung der Ausgestaltung der WDM Verbindung stehen verschiedene Technologien und HW Hersteller sowie verschiedene Glasfaser Netzwerkbetreiber Telekommunikationsanbieter und Provider mit unterschiedllichen Gesch fts und Servicemodellen zur Auswahl Fujitsu Technology Solutions wird bei dieser Auswahl gerne beratend und unterst tzend mitwirken White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 23 45 3 4 3 IO Verteilung Es ist klar dass bei Nutzung von synchronem SRDF ber weite Entfernungen jede Schreib IO eine gewisse Verz gerung erf hrt Dies sei anhand des folgenden Beispiels kurz erl utert Die Schreib IO ist bei synchronem SRDF beendet sobald die Daten auch im Cache der entfernten Symmetrix eingelagert und ein Quittierungs Signal zur ckgegangen ist Der Zeitverlauf einer Schreib IO ber den SRDF Link und die entfernte Steuerung setzt sich dann wie folgt zusammen wobei wir im Beispiel von einer ESCON SRDF Verbindung ausgehen die ber WDM Multiplexer gef hrt wird die Entfernung sei 250 km t local Zeit die die lokale Symmetrix braucht um den Auftrag ins Cache einzulagern wir nehmen hier eine Zahl von 0 5 ms an t pro
69. htet und das HIPLEX AF Monitoring aktiviert 6 Die Switch Units f r die Anwendungen k nnen jetzt gestartet werden diese aktivieren ggf auch die virtuellen Hosts 7 berpr fen und Freigeben der Anwendungen ggf werden zuvor Testprozeduren gestartet Die Dauer eines solchen Failback h ngt im Wesentlichen von der zwischenzeitlich ge nderten Datenmenge und von der Bandbreite der SRDF Verbindung ab Die Gr enordnung der Ausfallzeit bewegt sich nach unseren Erfahrungen im Bereich einer bis weniger Stunden 6 2 Manueller Failback Im Folgenden sind die T tigkeiten f r einen manuellen Failback aufgef hrt Diese sind auch z T mit Hilfe von Prozeduren automatisierbar Die T tigkeiten 1 4 sind am Standby Host auszuf hren falls dieser nur im K Fall benutzt wird kann das System danach beendet werden Abfolge der grunds tzlichen Schritte beim manuellen Failback 1 Die Anwendung und die zugeh rigen SW Ressourcen am Standby RZ werden beendet 2 Die Target Units in der Standby Symmetrix werden wieder f r den SRDF Betrieb vorbereitet und damit deaktiviert Dies erfolgt per SHC Kommando oder Prozedur am Standby Host White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 44 45 10 11 12 Falls mit virtuellen Hosts gearbeitet wurde werden diese im Standby RZ deaktiviert Die Datenpubsets werden exportiert Falls auch das Home Pubset per SRDF gespiegelt wird muss das System danach beendet wer
70. ie Watch Dog Datei periodisch einen inkrementierten Z hler als Lebendmeldung und liest die Lebendmeldungen der anderen Sharer Plattenprotokoll Ein potenzieller Ausfall eines Sharers wird daran erkannt dass von ihm keine neue Lebendmeldung mehr geschrieben d h sein Z hler nicht mehr inkrementiert wird 2 13 HIPLEX AF Das Softwareprodukt HIPLEX AF Availability Facility erh ht die Verf gbarkeit von Anwendungen bei einem Anwendungs oder Systemausfall in einem Verbund mehrerer BS2000 OSD Business Server Der Einsatz von HIPLEX AF beruht auf dem Prinzip der Redundanz Anstelle eines Systems welches den Lastbedarf aller Anwendungen abdeckt sind mehrere Systeme installiert die sich im normalen Betrieb die Last teilen F llt eines dieser Systeme v llig oder teilweise aus so k nnen intakte Systeme die wichtigsten Anwendungen bernehmen wenn auch m glicherweise mit reduzierter Performance Voraussetzung hierf r ist dass die umzuschaltenden Anwendungen und ihre Ressourcen entsprechend konfiguriert sind Im normalen Betrieb ist der Einsatz von HIPLEX AF f r die Anwender der berwachten Systeme nicht merklich Bei Systemausfall veranlasst HIPLEX AF die automatische Umschaltung von laufenden Anwendungen des Work Systems auf ein Standby System Dieses automatische Umschalten erfolgt sehr schnell und auch im unbedienten Betrieb White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 12 45 Die Anwendungen des
71. iele M glichkeiten und Parameter gibt soll dieses Thema hier nicht weiter vertieft werden Wir wollen nur darauf hinweisen dass das Thema Firewalls fr hzeitig in eine KS Planung mit einbezogen werden muss 3 4 Verfahren zur Verf gbarkeit der Online Daten im Standby RZ Ein wesentlicher Aspekt beim Katastrophenschutz ist die Bereitstellung der Daten der zu verlagernden Anwendungen im jeweiligen Ausweich RZ Denn im K Fall muss davon ausgegangen werden dass auch die aktuellen Daten s mtlicher Anwendungen die sich auf den Online Datentr gern den Plattenspeicher Systemen befinden nicht mehr verf gbar sind Im schlimmsten Fall sind die Plattenspeicher Systeme zerst rt und damit die dort befindlichen Daten unwiederbringlich verloren White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 18 45 In vielen Dokumenten verschiedener Hersteller z B im Redbook IBM System Storage Business Continuity Part 1 Planning Guide von IBM 8 wird die K Fall Vorsorge in 7 unterschiedliche Kategorien tiers spezifiziert die aufsteigend nach Komfort und Kosten wie folgt geordnet sind gt Tier0 keine K Vorsorge gt Tier1 regelm iges Auslagern von Backup Sicherungen PTAM Pickup Truck Access Method Backup Plattform wird erst im K Fall etabliert gt Tier2 regelm iges Auslagern von Backup Sicherungen Backup Plattform existiert gt Tier3 Ausgew hlte Dateien werden t glich auf elektronischem Weg au
72. in Failover dauern Pauschal ist diese Frage nicht zu beantworten bei Tests sind wir bisher stets nach wenigen Minuten bei Punkt 8 angelangt Wie lange jedoch der Start einer Anwendung und eine Datenbank Recovery dauert h ngt von der Art der Anwendung und der daf r n tigen Softwarekomponenten sowie von der IO Last zum Ausfallzeitpunkt ab Die Zeitdauer bis zur Ausrufung der Katastrophe und der Abschaltung der Ressourcen im Work RZ ist von den jeweiligen Umst nden abh ngig und nicht restlos planbar Die im Kapitel 4 angegebene Gr enordnung von 30 45 min Ausfallzeit bietet aber einen guten Anhaltspunkt White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 43 45 6 Abl ufe beim Failback Im Unterschied zum Failover der Reaktion auf einen nicht vorhersagbaren K Fall ist ist die R ckverlagerung der Anwendungen auf die urspr nglichen Betriebsmittel also der Failback planbar Die durch ihn ausgel ste Anwendungsunterbrechung kann so geplant werden dass damit verbundene negative Auswirkungen weitgehend vermieden werden k nnen Der Failback kann erst dann durchgef hrt werden wenn alle ausgefallenen Komponenten und Verbindungen wieder soweit hergestellt sind dass die Anwendungen auf das Work RZ zur ckverlagert werden k nnen Zun chst bringt ein EMC Techniker die Symmetrix Steuerungen im Work RZ wieder in einen brauchbaren SRDF Zustand Alle Kanal Verbindungen und alle Remote Verbindungen werden deaktiviert a
73. ionen Soll eine bereits vorhandene lokale Hochverf gbarkeits Konfiguration zu einer KS Konfiguration erweitert werden besteht die M glichkeit einen zus tzlichen Host und ein zus tzliches Symmetrix System an einem weiter entfernten Standort der lediglich die Aufgabe eines Katastrophenschutzes wahrnimmt an diese Konfiguration zu koppeln Die zus tzliche Spiegelung der Nutzdaten zu der dritten Symmetrix kann dann durch das Zwischenschalten von BCVs realisiert werden Wir sprechen dann von einer kaskadierten KS Konfiguration Abb 4 6 zeigt eine solche Konfiguration die Spiegelung der Nutzdaten ist anhand eines Volumes mit den zugeh rigen SRDF Target Units und BCVs dargestellt Die vorgestellte Variante stellt eine asynchrone KS Konfiguration dar weil die Synchronisation der Daten zur entfernten Target Unit erst bei Abtrennen des lokalen BCVs durchgef hrt wird Also liegt mit dieser Konfiguration eine Kaskadierung einer synchronen engen X Link Konfiguration mit einer asynchronen losen U Link Konfiguration vor Standort Standort II MSCF optional Symm 1 Symm 2 Symm 3 R1 R2 R2 WDM_ E SRDF Pa SRDF BCV R1 I BCV optional Abb 4 6 Kombinierte KS Konfiguration Jede SRDF Target Unit wird zus tzlich durch ein BCV gespiegelt von dem wiederum zu festgelegten Zeiten eine SRDF Synchronisierung auf ein entferntes Target in der Symmetr
74. it reduziertem Hauptspeicher und vom gleichen Systemverwalter betreut wird wie das Original System Paging Volumes Das Spiegeln von Pagingdaten bringt keinen Vorteil und somit sollten Pagingdateien nach M glichkeit auf Volumes angelegt werden die nicht gespiegelt sind also auch keine gesch ftskritischen Daten enthalten oder auf dem Homepubset falls dieses nicht gespiegelt wird Au er der Ersparnis an Plattenspeicher und der Vermeidung von unn tiger Last auf dem SRDF Link bringt dies den Vorteil dass das Hochfahren der Systeme nicht zus tzlich abh ngig ist vom SRDF Zustand der jeweiligen Source bzw Target Unit 3 7 Datensicherungs Konzept Neben den Online Daten geh ren die Archivdaten zum Datenbestand einer Anwendung d h diejenigen Daten ber bereits abgeschlossene Gesch ftsvorg nge welche aus rechtlichen Gr nden ber l ngere Zeit aufgehoben werden m ssen z B f r Reklamationen oder zur Rekonstruktion vergangener Gesch ftsabl ufe bei Verdacht auf Unregelm igkeiten Diese Archivdaten m ssen ebenfalls im Standby RZ verf gbar sein um in einem K Fall den Gesch ftsbetrieb ordnungsgem fortsetzen zu k nnen Eine grunds tzliche Anforderung an jedes Backup Konzept im Rahmen von Katastrophenschutz Konzepten jedweder Auspr gung ist deshalb die Abschottung des Aufbewahrungsortes der Sicherungs Datentr ger Dieser Aufbewahrungsort kann ein Brandschutz Kellerraum sein oder einfach ein vom Aufstellungsort der Server und S
75. ix 3 vorgenommen wird In einem K Fall am Standort besteht dann die M glichkeit den Produktivbetrieb auf Host C mit der Symmetrix 3 wieder aufzunehmen deren Daten dann vom letzten Synchronisationszeitpunkt sind Um sich bei diesem Verfahren auch f r den Fall abzusichern dass w hrend der Synchronisierung von Symmetrix 2 nach Symmetrix 3 die Symmetrix Systeme am Standort 1 ausfallen und somit nicht konsistente Daten auf Symmetrix 3 vorliegen k nnen die Targets in Symmetrix 3 zus tzlich durch BCVs gesichert werden die vor jeder Synchronisierung von den Target Units abgetrennt und danach wieder zugeschaltet werden Wird auf die BCVs in Symmetrix 3 verzichtet muss in so einem Fall eine Bandsicherung verf gbar sein Die Vorteile einer solchen Konfigurations Variante sind m Ausgepr gte HV Konfiguration die z B w hrend der Produktion Wartungsarbeiten an einem abgeschalteten Symmetrix System erlaubt ohne die Produktion dabei auf Betriebsmittel eines entfernten Ausweich RZ umzuschalten m Kein Performance Verlust durch synchrones SRDF ber weite Entfernung die Spiegelung ins entfernte Standby RZ geschieht asynchron White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 37 45 4 6 Konfigurationen mit mehr als einem Symmetrix Subsystem Sind an einem Produktions Host mehr als ein Symmetrix Subsystem angeschlossen so ist die Aufteilung der Daten auf die verschiedenen Subsysteme sehr sorgf ltig zu planen um
76. ktuellen Daten befinden sich stets lokal gesch tzt auf RAID1 Source Units im Produktions RZ Den Target Units im Standby RZ sind BCV Units zugeordnet auf denen Konsistenzst nde eingefroren werden k nnen Weil der Datenabgleich bei asynchronem SRDF Betrieb nicht kontinuierlich die Reihenfolge der Anwendungs Schreib IOs wird beim asynchronen SRDF nicht eingehalten stattfindet m ssen f r konsistente Daten im Produktions RZ periodisch die Anwendung gestoppt und die SRDF Volumes synchronisiert werden Nach der Synchronisation und der Abtrennung der zugeordneten BCV Spiegelvolumes von den Target Volumes im Ausweich RZ kann die Anwendung schon wieder gestartet werden gt entspricht Tier 4 in IBM Terminologie 3 Regelm iger Transport von Backup Datentr gern Offline Spiegelung Bei dieser Variante werden die Daten nicht elektronisch sondern physikalisch in Gestalt von Magnetband Kassetten mit Daten Sicherungen vom Produktions RZ ins Standby RZ gebracht Es liegen zwangsl ufig hnlichkeiten zu den Verfahren vor wo die Daten Sicherungen elektronisch von einem RZ zum andern gebracht werden Der Austausch von physikalischen B ndern im allgemeinen RZ Betrieb ist im Lauf der letzten zwanzig Jahre bewusst reduziert worden wegen seiner Nachteile bei Bandger teeinsatz und Bandverschnitt Operatoreinsatz und schlie lich wegen der damit erreichten mangelhaften Datenaktualit t am Zielort Mit der Verlagerung zu Datentransfer ber Datenverbindungen einh
77. lich auf synchrone KS Konfigurationen und behandeln von den asynchronen KS Konfigurationen lediglich die Spiegelung der Daten mit asynchronem SRDF ausf hrlicher Nur die Konzepte mit synchroner Datenspiegelung real time mirroring bieten die M glichkeit im K Fall mit aktuellen Daten den Betrieb in kurzer Zeit wiederaufnehmen zu k nnen Das Wiederaufsetzen auf Sicherungsb nder bedeutet dagegen in aller Regel den Verlust der Daten eines Tages und ein zeitintensives Restaurieren der Daten Alle Varianten beziehen sich auf eine Spiegelung der Daten mit SRDF Die Unterschiede ergeben sich durch den SRDF Modus synchron oder asynchron die Symmetrix Hostanschl sse Kreuzverkabelung vorhanden X Link Konfiguration Kreuzverkabelung nicht vorhanden U Link Konfiguration und die Entfernung der beiden Standorte sowie die Miteinbeziehung eines Globalspeichers Die n tigen Vorbereitungen wie sie in den Kapiteln 3 1 bis 3 7 beschrieben sind sind bei allen Konfigurationen zu treffen Statt synchronem SRDF ist stets auch alternativ semi synchrones SRDF s 2 8 1 einsetzbar falls der m gliche Verlust einer Schreib IO pro SRDF gespiegeltem Volume im K Fall toleriert werden kann Weiterhin ist bei der Planung einer synchronen KS Konfiguration genau abzuw gen ob der Einsatz des Domino Modus erforderlich ist Die Entscheidungskriterien sind in Kap 2 8 2 beschrieben Die in Kap 4 2 beschriebene Konfiguration mit GS als Schreibcache macht sogar den Ein
78. ll der Verbindung zwischen Work Host und einer GSU eine Unterbrechung der Anwendung in Kauf genommen werden Gleiches gilt auch bei Ausfall der Standby Symmetrix oder der entfernten GSU In diesen F llen muss der Domino Modus f r SRDF oder DAB deaktiviert und ggf die Anwendungen neu gestartet werden Kann der Fehler nicht in kurzer Zeit behoben werden muss man ohne Domino Modus bzw je nach Art des Ausfalls ohne SRDF Spiegelung oder ohne Dual GS und mit der oben genannten Gefahr von Inkonsistenzen oder Datenverlust bei einem m glichen K Fall in dieser Phase weiterarbeiten Dies wird man nur dann tun wenn der aufgetretene Fehler lokalisiert ist und ausgeschlossen werden kann dass er im Rahmen einer sich entwickelnden Katastrophe auftrat Der Domino Modus schlie t einerseits das Risiko von Datenverlust und Inkonsistenzen auch bei den genannten Rolling Disaster F llen aus andererseits wird eine Konsistenzgruppe von Platten zusammen mit GS Caches geschaffen deren Ausfallwahrscheinlichkeit wiederum h her ist als die eines SRDF Paares ohne Domino und GS Cache so dass eine Abschw chung der Hochverf gbarkeit in Kauf genommen werden muss Abzuw gen bei der Entscheidung f r oder gegen den Einsatz des Domino Modus sind die folgenden grunds tzlichen Aussagen 1 Nahezu jeder Einzel Ausfall der relevanten Daten Beh lter Symmetrix und GS f hrt zum Abbruch der Anwendungen die Verf gbarkeit ist damit beeintr chtigt Da in der Folge i d R abh
79. lle zugeh rigen Kabel wieder angeschlossen die Symmetrix Systeme hochgefahren dann werden Oberfl chentests f r alle Platten durchgef hrt Die SRDF Verbindungen werden eingerichtet aber der SRDF Betrieb noch nicht wieder aufgenommen Falls das komplette RZ besch digt war beginnt der Failback sobald alle Hosts und zugeh rigen Komponenten wieder verkabelt und getestet und alle Netzverbindungen wiederhergestellt und ebenfalls getestet sind Eine Testversion f r jede Produktivanwendung sollte bereits vor dem Failback in dem wiederhergestellten RZ gelaufen sein Die Dauer des Failbacks h ngt wesentlich von der Datenmenge ab und nimmt in Summe deutlich mehr Zeit in Anspruch als der Failover 6 1 Failback mit Hilfe von HIPLEX AF Falls HIPLEX AF im Einsatz ist bernimmt es das Neuanstarten der Anwendungen und kann zuvor auch den Failback auf die Symmetrix Systeme im Work RZ ausf hren Der Failback wird nach einem K Fall i d R nicht vollautomatisch erfolgen es sind T tigkeiten an Work und Standby Host sowie an den Symmetrix Subsystemen miteinander zu koordinieren Bei Nutzung von HIPLEX AF wird das System am Standby Host stets mit einem eigenen Home Pubset laufen nicht auf Target Units des Work Systems Es muss also nicht beendet werden Trotzdem k nnen Systempubsets auch per SRDF gespiegelt werden wenn spezielle Daten auf diesen Pubsets im K Fall ben tigt werden Abfolge der grunds tzlichen Schritte beim HIPLEX AF gest tzten Failback
80. m K Fall verarbeiten k nnen F r die Umschaltung der Netzanbindung gibt es unterschiedliche Vorgehensweisen wobei man je nach Art der bereits vorhandenen Netztopologie entscheiden muss welche die f r den Kunden am besten geeignete ist Wir wollen hier im folgenden zwei grunds tzliche M glichkeiten in vereinfachter Form beschreiben Nutzung von virtuellen Hosts und dynamischem Routing Wenn eine Anwendung auf ein anderes System umgeschaltet wird ndert sich physikalisch gesehen der Stecker ber den die Anwendung mit ihrer Umwelt im Netz kommuniziert Diese nderung k nnen Sie vor den Benutzern verbergen Dazu k nnen in BS2000 Umgebungen zus tzlich zum realen Host virtuelle Hosts definiert und die Anwendungen mit den virtuellen Hosts gekoppelt werden Um Anwendungen auch nach dem Neustart auf einem Standby System mit der gleichen Netzadresse adressieren zu k nnen muss im Netz der Hostname unver ndert bleiben Das kann erreicht werden indem die Anwendung deren Netzadresse unver ndert also transparent f r die User bleiben soll auf einem virtuellen Host er ffnet wird Dieser virtuelle Host muss auch auf dem Standby System der KS Konfiguration als virtueller Host generiert werden Auch in UTM Generierungen wird der Name des virtuellen Hosts eingetragen Aus dem Netz heraus darf nur ein einziges System mit dem Hostnamen dieses virtuellen Hosts sichtbar sein d h der virtuelle Host darf nur an einem realen Host aktiv sein Die
81. mit Domino Modus gearbeitet wird muss dieser im DAB deaktiviert werden bevor die Target Units belegt werden Der Domino Modus der Symmetrix muss beim Failover nur dann abgeschaltet werden wenn die Work Symmetrix noch l uft z B bei einer Umschaltung aus Testzwecken 4 3 Synchrone lose KS Konfiguration U Link Konf Die synchrone lose Konfiguration besteht wie auch die synchrone enge aus einem Work und einem Standby RZ die so ausgelegt sind dass jedes bei Komplettausfall des anderen auch die Gesamtheit der Anwendungen beider RZs bernehmen kann d h die Rechenleistung der Plattenspeicherbedarf die Netzanbindung sind ann hernd spiegelbildlich Auch die Redundanz der Hardware Ressourcen sollte wie in Kap 4 1 beschrieben gegeben sein Mit dem Begriff lose ist hier gemeint dass es keine Kreuzverbindungen zwischen Produktiv Host und Standby Symmetrix sowie zwischen Standby Host und Work Symmetrix und damit insbesondere keinen Shared Pubset Verbund gibt Der Verzicht auf diese Kreuzverkabelung kann dann angebracht sein wenn es sich um gr ere Entfernungen handelt bei denen die standort bergreifenden Anwendungs IOs im Gegensatz zu den SRDF Transfers nicht mit der n tigen Performance durchgef hrt werden k nnten Durch das Fehlen der Kreuzverbindungen entfallen hier die Shared Pubsets f r HIPLEX AF und die gegenseitige berwachung der Systeme kann lediglich ber die Kommunikation ber die Netz Verbindungen der Hosts BCAM M
82. mmetrischem KS und Nutzung nur einer Switch Unit sogenannte Grundkonfiguration Der Ablauf des automatischen Failover mit HIPLEX AF ist in Kap 5 1 beschrieben White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 30 45 4 2 Synchrone enge KS Konfiguration mit GS Um einen Global Store in einer KS Konfiguration zur Ablage von Schreibdaten kritischer Anwendungen in DAB GS Caches oder GS Volumes s Kap 2 10 einsetzen zu k nnen ist zun chst ein Dual GS zwei GS Units mit HW Duplication Feature und jeweils eigener Battery Unit erforderlich Das entspricht im Sinne einer Hochverf gbarkeits Konfiguration den RAID1 Platten Weiter m ssen die beiden ausfallunabh ngigen GS Units GSUs r umlich getrennt werden Produktions und der Standby Host m ssen beide Zugriff zu jeweils beiden GS Units haben und die beiden BS2000 Systeme einen XCS Verbund und damit einen sogenannten Parallel Hiplex bilden Die Anbindung des GS ber Glasfaserkabel erlaubt eine Entfernung von 70m so dass diese Konfiguration lediglich eine Campus L sung sein kann Prinzipbild der synchronen engen KS Konfiguration mit GS Abb 4 2 Synchrone enge KS Konfiguration mit GS Gegen ber einer KS Konfiguration ohne GS gibt es bei der Synchronen engen KS Konfiguration mit GS nur dann neue Gesichtspunkte wenn der Globalspeicher f r gesch ftskritische Daten genutzt wird m GS Volumes in Dual GS Partitions k nnen nur dan
83. n Transaktionen Buchungen Auftr ge o teure Folgen haben kann So ist ein Rolling Disaster Szenario denkbar bei dem zun chst die SRDF Verbindungen ausfallen die Anwendungen weiter IOs auf die Source Units durchf hren und erst in einem zweiten Schritt der Produktiv Host ausf llt so dass nach Umschaltung auf das Standby RZ und die dortigen Target Units der Datenbestand nicht ganz aktuell ist Entspricht der Abb 2 1 jedoch ohne Schritt 2 Dieses Szenario ist leichter vorstellbar als das vorher beschriebene Szenario mit Linkflattern hat aber daf r nicht die h chst unangenehme Konsequenz der Dateninkonsistenz sondern nur die m gliche Konsequenz des Verlusts der zuletzt geschriebenen Daten White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 9 45 3 Ausfall 1 Ausfall 2 wieder bereit SRDF mit autom Resynch Abb 2 1 Rolling Disaster mit Linkflattern Beim Domino Modus bewirkt allerdings schon der Ausfall der SRDF Links sowie der Ausfall einer Target Unit den Ausfall der Source Unit und somit eine Anwendungsunterbrechung s hierzu auch Kap 4 2 Dadurch ist die Hochverf gbarkeit wiederum verringert und deshalb gilt bei der Entscheidung f r oder gegen den Domino Modus m Ist die h chste Verf gbarkeit der Anwendungen oberstes Gebot dem zuliebe geringe Risiken beim Katastrophenschutz eingegangen werden k nnen so wird man eine KS Konfiguration ohn
84. n Gastsysteme an den Monitorsystemen eingerichtet werden m Die im Standby RZ eingerichteten Platten f r Daten und Home Pubsets werden der VM zugewiesen ebenso die Netzzug nge HNC und die virtuellen Konsolen Ist HIPLEX AF im Einsatz dann m ssen die daf r n tigen Vorbereitungen getroffen werden wie m Einrichtung eines MSCF Verbundes m Zus tzlich Einrichtung eines Shared Pubset Verbunds bei X Link Konfigurationen m Definition der Switch Units f r die Anwendungen m Erstellen bzw Anpassen von Failover Failback Phasen Diese Vorbereitungen sind in den Handb chern 3 und 4 beschrieben und sollen hier nicht weiter erl utert werden 3 6 1 Behandlung von System und Paging Volumes System Volumes Bei einer KS Konfiguration besteht die M glichkeit die System Volumes genau wie die Anwendungs Volumes per SRDF zu spiegeln und die Systeme erst im K Fall im Ausweich RZ zu starten oder Systeme am Ausweichstandort in einem VM2000 Gastsystemrahmen bereitzuhalten die eine Anwendung im K Fall bernehmen Oder aber alle Anwendungen laufen unter einem Native System auch im K Fall Bei der Variante gespiegelte Home Pubsets entstehen folgende Nachteile m im K Fall geht bis zum Start der Anwendung zus tzlich auch die Zeit zum Hochfahren des Systems des Systems ein E im Normalbetrieb kann ein Standby System erst nach SRDF Trennung genutzt werden m auch an die Session gebundene Dateien etwa Konsol Logging werden ber SRDF kopiert
85. n f r gesch ftskritische Daten genutzt werden wenn logisch voneinander abh ngige Daten wie Transaktion und Logging nicht auf GS Volumes einerseits und andere Speichersubsysteme andererseits verteilt sind da diese keine Konsistenzgruppe s Kap 2 11 bilden k nnen m Werden Daten einer Anwendung deren zugeh rige Pubsets in einem Symmetrix Subsystem liegen ber DAB im GS schreibend zwischengepuffert so m ssen diese Pubsets im Symmetrix Subsystem und die DAB Caches im GS zu einer Konsistenzgruppe zusammengefasst werden um synchronen Katastrophenschutz f r die Anwendung gew hrleisten zu k nnen alle Daten im GS die von einem DAB Schreib Cache herr hren befinden sich nur tempor r im GS und werden wenn sie von DAB asynchron auf die zugeh rigen Symmetrix Volumes geschrieben wurden im GS wieder verdr ngt Die Notwendigkeit dieser Konsistenzgruppe erkl rt sich folgenderma en Es gibt in dieser Konfiguration zwei denkbare Ausfallvarianten bei denen Dateninkonsistenzen entstehen k nnen entweder wird auf Target Units weitergeschrieben w hrend die GSU2 veraltet oder es wird auf GSU2 weitergeschrieben und die Target Units veralten 1 Es f llt zuerst die SRDF Verbindung aus w hrend die Anwendungen noch weiterlaufen und danach f llt das gesamte Produktions RZ aus In diesem Fall k nnen im Standby RZ Daten Inkonsistenzen entstehen wenn weiterhin Daten aus den Globalspeicher Caches von DAB auf die Source Units aber wegen der au
86. nannt setzt ein sobald die Laufzeit eines Lichtsignals im LWL aufgrund der Entfernung zwischen Sender und Empf nger die Gr enordnung der bermittlungsdauer eines Datenframes erreicht F r den Sender ergeben sich dann relativ lange Wartezeiten auf das Quittungssignal und dadurch sinkt die effektive Datenrate auf der Verbindung Bei ESCON beispielsweise betr gt die bertragungsrate 200 Mbit s und damit wird ein 2KB also 20Kbit gro er Frame in 100us bertragen Die Ausbreitungsgeschwindigkeit des Lichts betr gt in Glasfasern 200 000 km s d h in diesen 100us legt es 10 km zur ck Somit ist bei ESCON der Sender bei einer Entfernung von White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 25 45 20 km Hin und R ckweg also 10 km einfacher Entfernung weitere 100us im Wartezustand auf das Quittungssignal Er sendet also nur mit der halben Leistung diese Darstellung ist allerdings vereinfacht da ein 2KB Block am ESCON Kanal je nach Architektur der Plattensteuerung in kleineren Portionen jeweils mit eigenem Quittungssignal bertragen wird Diese Wartezeiten k nnen jedoch durch die M glichkeit mehrere Frames zu senden ohne auf ein Best tigungssignal zu warten reduziert werden Bei FC gibt es daf r die so genannten Buffer to Buffer Credits Der droop beginnt nach 9 km und bei 23 km wird nur noch die H lfte des Durchsatzes erzielt Bei FC liegt diese Grenze wegen der hohen Datenrate von 1Gbit s re
87. ner einzelnen Schreib IO wird verl ngert um die Umsetz Zeiten in den Channel Extendern und um die mit wachsender Entfernung steigenden Netzlaufzeiten sowie insbesondere durch die Verwendung mehrerer Router oder ATM Switches auf dem Netzweg Weiter k nnen Daten Kompressions und Daten Verschl sselungs Verfahren im Channel Extender noch einen additiven Zeit Aufschlag verursachen Die anfallenden Kosten bestehen in der Anschaffung der Channel Extender und den Kosten f r die permanente exklusive und breitbandige Netzverbindung mindestens T3 34 Mbit s besser ATM 155 Mbit s oder h her Bei der Festlegung der Ausgestaltung der WAN Netzverbindung stehen verschiedene Technologien und HW Hersteller sowie verschiedene Netzwerkbetreiber Telekommunikationsanbieter und Provider mit unterschiedllichen Gesch fts und Servicemodellen zur Auswahl Fujitsu Technology Solutions wird bei dieser Auswahl gerne beratend und unterst tzend mitwirken WDM Technologie Durch den Einsatz von Multiplexverfahren k nnen vorhandene bertragungsleitungen mehrfach und daher wirtschaftlicher genutzt werden Bei Telefonnetzen haben sich seit langem Zeitmultiplexverfahren Time Division Multiplexing TDM durchgesetzt Hierbei geht es um die Aufteilung der einzelnen Verbindungen in Zeitschlitze jedem bertragungskanal wird ein fester Zeittakt zugeteilt Das heute optimale technische Verfahren f r eine SRDF Verbindung ber weite Entfernungen ist jedoch die Nutzung der Wav
88. ng im K Fall m Keine langen Ausfallzeiten bis zum Wiederanlauf der Anwendungen m Zugriff auf die in der Vergangenheit archivierten Daten und Sicherstellung der Fortf hrung des bisherigen Datensicherungskonzeptes auch im Standby RZ m Unterst tzung bei der R ckverlagerung der Anwendungen ins wiederhergestellte RZ Failback Optionale Anforderungen an ein Katastrophenschutz Konzept sind m Automatische Ausfallerkennung und automatischer Wiederanlauf m Unterst tzung gr erer Entfernungen zwischen Produktions und Standby RZ die ber einen Bereich von wenigen Kilometern hinausgehen Geht man davon aus dass ein Ausweich RZ Host Online Peripherie Netzkomponenten etc vorhanden ist muss ein solches Konzept die folgenden wesentlichen Fragen kl ren 1 Wie kommen die Daten der Anwendungen ins Ausweich RZ 2 Welche netzseitigen Vorkehrungen sind erforderlich damit die Anwender nach dem Wiederanlauf im Ausweich RZ innerhalb eines angemessenen Zeitraumes wie gewohnt ihre Verfahren die auf einem anderen Host laufen nutzen k nnen im Idealfall ohne Eingriffe bei den Anwendern Die folgende Abbildung fasst diese Anforderungen als Grundvoraussetzungen des Katastrophenschutzes bildlich zusammen White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 4 45 3 Anwendung 1 aktuelle Daten Abb 1 1 Grundvoraussetzungen f r KS Die in der Literatur benutzten Begriffe m Katastrophenschutz KS m Kat
89. nn zur Datenspiegelung wie in Kap 3 4 empfohlen eine WDM Verbindung genutzt wird kann diese auch gleichzeitig zur breitbandigen Kopplung der beiden physikalischen LANs verwendet werden White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 17 45 Backbone z B ATM oder WDM Geb ude1 Geb ude2 Geb ude3 ffentl Netz lt q7 Abb 3 1 Netzanbindung mit virtuellem Host Falls beide Geb ude in unterschiedlichen logischen Subnetzen liegen m ssen zur Vorbereitung die virtuellen Hosts in den Tabellen aller beteiligten Router eingetragen werden damit die Zugriffe auf auch in das Geb ude2 geroutet werden Hierbei werden allerdings die beiden logischen Subnetze miteinander vermischt Falls mehr als die in der Abb gezeigten 3 Router im Spiel sind sollten diese mit einem dynamischen Routing Protokoll arbeiten wie z B OSPF Open Shortest Path First RFC 2328 usw oder IGRP Interior Gateway Routing Protocol welche eine schnelle Konvergenz des Routings erreichen Das Umkonfigurieren des Routings erst im K Fall ist sicher nicht akzeptabel Eine M glichkeit die Transparenz der Netzadressen f r die Anwender herzustellen und die ggf unterschiedlichen LAN Segmente logisch voneinander zu trennen ist der Einsatz von virtuellen LANs VLAN nach IEEE 8021 Q Hierf r werden spezielle Layer3 Switche ben
90. nweise Einrichtung der KS Voraussetzungen Da die in diesem Kapitel genannten Voraussetzungen und Vorbereitungen bei hohen Rechner Plattenspeicher und Netzkapazit ten auch hohe Kosten und Aufw nde bedeuten k nnen kann eine stufenweise Einf hrung eines KS Konzeptes angebracht sein So kann beispielsweise in einem ersten Schritt ein Standby RZ mit der erforderlichen Host und Plattenkapazit t ausger stet werden um dort im K Fall mit Hilfe von Sicherungskassetten schnell wieder aufsetzen zu k nnen um erst in einem sp teren Schritt eine Datenspiegelung auf Plattenebene SRDF einzuf hren und um wiederum ggf in einem weiteren Schritt das Datennetz falls n tig auszubauen Oder man beginnt mit einer lokalen Datenspiegelung bei der die SRDF Target Units in einem Symmetrix Subsystem untergebracht sind dass vom Original Symmetrix Subsystem mit den Source Units r umlich separiert ist In einem sp teren Schritt kann dann z B die Einrichtung einer WDM Infrastruktur und wiederum sp ter der Umzug der Symmetrix Spiegel Systeme erfolgen Hier sind offensichtlich unterschiedliche Reihenfolgen denkbar und eine genaue Planung erforderlich White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 28 45 4 KS Konfigurationen In diesem Abschnitt sollen verschiedene empfehlenswerte KS Konfigurationen unter dem Aspekt der Verf gbarkeit und Aktualit t der Online Daten diskutiert werden Wir beschr nken uns fast ausschlie
91. nwendungspause SRDF Synchronisieren 3 Absplitten des aktuellen BCVs 4 Anwendung l uft weiter 5 Wiederaufnahme Kopie des 2 ten BCVs Multi BCV BCV2 urze Pause Abb 4 5 Asynchrones SRDF mit Multi BCVs Bei dieser Konfiguration besteht somit ein zus tzlicher zus tzlich zu SRDF Targets und RAID1 Spiegeln Plattenaufwand von zwei BCVs pro Nutzplatte das Arbeiten mit zwei BCVs hat aber den Vorteil dass stets der einzufrierende Datenbestand schon auf einem der BCVs bereitsteht Will man auf ein zweites BCV verzichten ben tigt man ein gr eres Zeitfenster da das BCV bei jedem Abgleich erst zugeschaltet synchronisiert und wieder weggeschaltet werden muss Diese Aynchrone lose KS Konfiguration ist gekennzeichnet durch die folgenden Eigenschaften Asynchrone SRDF Spiegelung Adaptive Copy Mode Datenbestand des Zeitpunkts des letzten BCV Einfrierens im Ausweich RZ in einem K Fall Gr te r umliche Entfernungen ohne merklichen Performanceverlust Ausfallzeit im K Fall in der Gr enordnung von ca 30 45 min Einsatz von HIPLEX AF mit halb automatischer Ausfallbehandlung m glich hierf r sind zwei getrennte unabh ngige BCAM Verbindungen erforderlich Konfiguration kann symmetrisch betrieben werden Zus tzlicher Plattenbedarf durch TimeFinder Mirror Spiegelplatten W hrend die beschriebene L sung bei EMC unter dem Begriff Data Mobility oder SRDF DM firmiert ist mit der Variante SRDF A von EMC eine wei
92. oller Ausarbeitung f r Seminar Rechner und Betriebssysteme http www uni weimar de grolla docs wdm index html IBM System Storage Business Continuity Part 1 Planning Guide IBM Redbook SG24 6547 03 http www redbooks ibm com EMC Support Matrix http www emc com interoperability index jsp 10 Fujitsu White Paper Katastrophenschutz Konzepte f r SX Server https sp ts fujitsu com dmsp docs wp_katastro sx_de pdf Seite 45 45 Alle Rechte vorbehalten insbesondere gewerbliche Schutzrechte nderung von technischen Daten Herausgegeben durch Partner login sowie Lieferbarkeit vorbehalten Haftung oder Garantie f r Vollst ndigkeit Aktualit t und Richtigkeit der angegebenen Daten und Abbildungen ausgeschlossen Wiedergegebene Bezeichnungen Margret Germann Telefon 49 0 89 62060 1975 k nnen Marken und oder Urheberrechte sein deren Benutzung durch Dritte f r eigene Zwecke die Fax 49 0 89 62060 329 1975 Rechte der Inhaber verletzen kann Margret Germann ts fujitsu com Weitere Einzelheiten unter ts fujitsu com terms_of_use html de ts fujitsu com Copyright Fujitsu Technology Solutions GmbH 2009 partners ts fujitsu com
93. r beschriebenen Katastrophenschutz Konzepten speziell einen berblick ber die M glichkeiten beim Aufbau von Katastrophenschutz Konfigurationen mit den Business Servern der SX Linie gibt wobei insbesondere auf die neuen Aspekte eingegangen wird die sich durch die SX HW Plattform durch den m glichen parallelen Einsatz der zwei Betriebssysteme BS2000 und Solaris und die Storage Systeme vom Typ FibreCAT ergeben White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD 7 1 2 3 4 5 6 7 8 9 Literatur und Online Verweise Benutzerhandbuch SHC OSD V5 0 SCCA BS2 V1 0 BS2000 0SD U41000 J Z125 5 http manuals ts fujitsu com mainframes gt SHC OSD Benutzerhandbuch DAB V9 0 Disk Access Buffer U2431 J Z125 14 http manuals ts fujitsu com mainframes gt DAB Benutzerhandbuch HIPLEX AF V3 2 Hochverf gbarkeit von Anwendungen in BS2000 OSD U24401 J Z125 4 http manuals ts fujitsu com mainframes gt HIPLEX AF Benutzerhandbuch HIPLEX MSCF V3 0 BS2000 Rechner im Verbund U3615 J Z125 8 http manuals ts fujitsu com mainframes gt HIPLEX MSCF Fujitsu White Paper HIPLEX Der BS2000 OSD Cluster https sp ts fujitsu com dmsp docs wp _hiplex de pdf IT Grundschutzhandbuch Standard Sicherheitsma nahmen http www bsi bund de gshb Bundesamt f r Sicherheit in der Informationstechnik Wavelength Division Multiplex Sebastian Gr
94. r und Switchover erst auf Nachfrage ausgef hrt werden Trotzdem ist nat rlich auch hier ein vollautomatisierter KS m glich Auch die M glichkeit des Switchover ohne Failover zu Testzwecken ist in der losen Konfiguration wegen der fehlenden Kreuzverkabelung nicht gegeben 4 3 2 Besonderheiten bei Failover und Failback Es gibt keinen Shared Pubset Verbund und deshalb keinerlei Aktionen im Zusammenhang mit Shared Pubsets z B kein Einrichten eines Shared Pubset Verbunds beim manuellen Failback Beim Einsatz von HIPLEX AF V3 zur automatischen Ausfallerkennung und Ausfallbehandlung wird wie im vorigen Kapitel beschrieben das Monitoring einer Hilfs Switch Unit auf dem Standby Host den Ausfall des Produktiv Hosts und den Ausfall der Work Symmetrix erkennen und den Failover auf die Standby Symmetrix ausf hren Danach startet diese die produktive Switch Unit deren Daten nach dem Failover zugreifbar sind Der Failback kann mittels HIPLEX AF automatisiert werden s a Kap 6 auch er kann durch eine Hilfs Switch Unit am Work System gestartet werden Zusammenfassend sei gesagt dass Failover und Failback mit HIPLEX AF bei dieser Konfiguration hnlich verlaufen wie bei der synchronen engen Konfiguration jedoch sind die Vorbereitungen hierf r etwas umfangreicher White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 34 45 4 4 Asynchrone lose KS Konfiguration Selbstverst ndlich gibt es viele verschiedene
95. rbessert die eine parallele Abarbeitung mehrerer lOs f r unterschiedliche Volumes ber die Remote Links erlaubt Far Point ist allerdings nur einsetzbar f r eine unidirektionale SRDF Verbindung Bei einer bidirektionalen SRDF Verbindung m ssen um von der Performance Verbesserung durch Far Point profitieren zu k nnen die Remote Link Verbindungen zu zwei unidirektionalen sogenannten RA Gruppen remote adapter groups bei der Installation gruppiert werden Um also eine besonders performante Remote Link Verbindung ber ESCON zu realisieren sind mehrfache Remote Links und damit auch mehrfache ESCON Boards erforderlich Die Performance einer synchronen SRDF FC Verbindung wird durch die Entfernung die verwendeten Switches und deren maximale Buffer to Buffer Credit Rate bestimmt Sie bersteigt die ESCON Performance bei kleineren Entfernungen wobei der breakeven point bei den Entfernungen f r vorgegebene Konfigurationen berechnet werden kann Beispielsweise bei Verwendung von Switches mit 1 Gbit s damit betr gt die L nge eines Datenframes in der Glasfaserstrecke 4 km und mit einer eingestellten Buffer to Buffer Credit Rate von 60 s hierzu auch Kap 3 5 hat der FC Link bei Entfernungen bis 4 km x 60 240 km bzw einfache Strecke 120 km Performance Vorteile gegen ber dem ESCON Link Das ben tigte WDM Equipment wird von vielen Herstellern bereitgestellt resp vertrieben Eine beispielhafte aktuelle Auswahl umfasst baugleic
96. rch den Bandtransport Es m ssen am Ausweichstandort die HSMS Archive eingerichtet und m glichst auch gepflegt werden um im K Fall die Daten der Langzeitsicherung am Ausweichstandort einspielen zu k nnen 2 Es werden auch am Ausweichstandort Bandsicherungen durchgef hrt Zu den Zeiten der Sicherung am Work RZ an denen die Anwendung en nicht l uft wird die SRDF Spiegelung f r die Datenpubsets per SHC OSD Kommando beendet dann die Target Units in der Standby Symmetrix freigeschaltet und die Pubsets auf den Target Units dort ebenfalls importiert Dann wird hier die gleiche Sicherung wie am Work RZ durchgef hrt Falls es keine gen gend langen Sicherungszeitfenster gibt hat man die M glichkeit ber Additional Mirror Units BCVs zu sichern s a Kap 2 9 und 1 Dies kann gleichzeitig im Work und Standby RZ erfolgen Zu definierten Konsistenzzeitpunkten werden die BCVs von den Source und Target Units getrennt und auf Band gesichert Hiermit entsteht allerdings zus tzlicher Plattenaufwand Das Sicherungsverfahren bedeutet zus tzliche Routinearbeit die jedoch automatisiert werden kann Datei Migration Wir empfehlen auf Datei Migration auf B nder S2 f r gesch ftskritische Daten zu verzichten Wenn dies jedoch n tig ist sollte daf r gesorgt werden dass die Dateien zuvor auch in ein gesichertes Backuparchiv gelangen White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 27 45 3 8 Stufe
97. re Entfernungen der Standort des Bandarchivs und die eingesetzten Daten Sicherungskonzepte sowie die kundenspezifischen organisatorischen und personellen Randbedingungen und schlie lich die Entscheidung f r eine manuelle oder automatische Ausfallerkennung sowie f r eine manuelle halbautomatische oder automatische Umschaltung im K Fall Die Vielfalt der Einflussfaktoren begr ndet die Tatsache dass keine schl sselfertigen KS Produktl sungen beschrieben werden k nnen vielmehr bietet das vorliegende Dokument eine Hilfestellung f r eine gemeinsam mit einem unserer Competence Center zu erarbeitende Individuall sung zur Katastrophenvorsorge deren Realisierung dann ebenfalls von Fujitsu Technology Solutions Fachkr ften durchgef hrt werden kann Bereits seit l ngerem haben viele unserer Kunden mit den vorhandenen Miitteln ihre Rechenzentren f r Katastrophenschutz vorbereitet und Konfigurationen in eigener Regie oder mit Hilfe unserer Competence Center realisiert die geeignet sind in einem K Fall die wichtigen gesch ftlichen Daten zu retten und die kritischen IT gest tzten Verfahren schnell wieder zum Ablauf bringen zu k nnen Diese Schrift gibt eine Gesamt bersicht zum Thema Katastrophenschutz im BS2000 OSD und nennt die aktuellen Hilfsmittel und Verfahren die von Fujitsu Technology Solutions zur Katastrophenvorsorge zur Verf gung gestellt werden Im folgenden Kapitel 2 des Dokuments werden Begriffe und Produkte erl utert die f r KS
98. rst ab 120 km dem heutigen Einbruchspunkt von FC der SRDF Verbindung mit FC Directors berlegen Alle diese Aussagen sind relativ zum heutigen Technik Stand zu interpretieren also keine Absolut Werte 3 6 Administrative Vorbereitungen f r die Katastrophenvorsorge Au er den in den vorigen Kapiteln genannten Ma nahmen sind auch diverse administrative Vorbereitungen zu treffen um einen m glichst reibungslosen Ablauf im K Fall sicherzustellen es folgt eine exemplarische Liste ohne Anspruch auf Vollst ndigkeit Eintragen der im K Fall umzuschaltenden Userkennungen am Ausweich Host Eintragen der Hostnamen IP Adressen der Anwender der Umschalteinheit auch bei Einsatz von VM2000 Anlegen der MRSCAT Eintr ge aller umzuschaltender Datenpubsets am Ausweich Host Falls mit OMNIS gearbeitet wird m ssen die OMNIS Kennungen auch am Ausweich System eingerichtet werden Erstellen von erweiterten Netz Konfigurationsdateien SOF RDF f r die verschiedenen Standorte und ggf Einrichten der virtuellen Hosts Wenn VM2000 zur Trennung der Anwendungen genutzt wird s a Kap 4 7 ist folgendes zu beachten m Es sind am Standby RZ die Spiegel Gastsysteme einzurichten denen die ermittelten Werte des Produktiv RZ f r CPU und Hauptspeicherbedarf zugewiesen werden m Die Netzadressen der Gastsysteme f r die Umschalteinheiten m ssen im Monitorsystem eingetragen werden und es m ssen virtuelle Konsolen oder SKP Konsolen f r die zus tzliche
99. satz des Domino Modus erforderlich 4 1 Synchrone enge KS Konfiguration X Link Konf Die folgende Abbildung zeigt das Prinzipbild der synchronen engen KS Konfiguration Sie besteht aus zwei Hosts i a Produktions und Standby Host die r umlich getrennt zusammen mit je einer Symmetrix betrieben werden Die Hosts sind ber eine Netzverbindung gekoppelt und haben jeweils Zugriff auf beide Symmetrix Systeme Jede der genannten Komponenten hat also eine Verbindung mit jeder anderen Es handelt sich um eine Kreuzverkabelung die einen Shared Pubset Verbund erm glicht Grunds tzlich sollten alle Hardware Ressourcen redundant ausgelegt sein um Single Points of Failure auszuschlie en d h alle Platten sollten RAID1 gesch tzt sein alle Verbindungen von den Hosts zu den Plattensteuerungen sowie die SRDF Links sind wenigstens zwei pfadig auszulegen und auf unterschiedlichen Wegen verlaufen und die Netzanbindungen zu den Anwendern sind redundant auszulegen Ebenso sollte jede SRDF Source Unit wenigstens ber zwei Remote Link Directoren Verbindung zu ihrer Target Unit haben Dies stellt Hochverf gbarkeit weitgehend sicher F r einen Einsatz von HIPLEX AF und vor allem f r einen automatischen KS ist diese Redundanz zwingende Voraussetzung Die hier beschriebene Konfiguration wird im HIPLEX AF Manual 3 als Grundkonfiguration bezeichnet Prinzipbild der synchronen engen KS Konfiguration DF LAN ESCON FC ESCON FC
100. sehr gro e Anzahl Kan le z Z bis zu 4000 die sich aufgrund ihrer unterschiedlichen Wellenl nge nicht beeinflussen realisiert werden Die einzelnen Kan le die sich durch verschiedene Wellenl nge unterscheiden werden auch i s Lambdas genannt Dieses optische Verfahren erlaubt es also ber eine sehr begrenzte Anzahl von Kabeln eine sehr hohe Menge an Daten zu bertragen WDM besitzt das Potential die existierende Glasfaser Netzinfrastruktur optimal auszunutzen Ein weiterer Vorteil besteht darin dass die Laser Signale auf rein optischer Basis verst rkt werden k nnen falls gr ere Entfernungen zu berbr cken sind Hierf r gibt es Erbiumdbotierte Faserverst rker kurz EDFA Erbium Doped Fiber Amplifier die nach einer Entfernung von 60 bis 150 km abh ngig vom genutzten WDM Equipment und der Glasfaser einzusetzen sind Hierdurch spart man sich die zeitliche Verz gerung durch Umwandlung des optischen Signals in ein elektrisches und wieder zur ck und somit evtl Performance Einbu en Bei geringer D mpfung der Glasfaser db km k nnen auch mehrere 100 km ohne elektrische Regenerierung des Lichtsignals berbr ckt werden Neben der Nutzung eines X s als ESCON Kanal durch Verwendung einer ESCON Kanalkarte im WDM Ger t k nnen auch ber entsprechende weitere Karten im WDM Ger t FC ATM Fast Ethernet Voice etc ber andere A s genutzt werden So k nnte z B ein gesamtes Corporate Network ber WDM Technologie abg
101. sgefallenen SRDF Verbindung nicht mehr auf die Target Units zur ckgeschrieben werden 1 technisch m glich sind maximal 280m eine solche Ausstattung muss im Einzelfall per Anfrage gekl rt werden White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 31 45 2 Es f llt zun chst die Verbindung des Produktions Hosts zur GSU2 aus w hrend die Anwendungen noch weiterlaufen und danach f llt das gesamte Produktions RZ aus Abb 4 2 Dadurch w ren die Daten auf den Target Units u U aktueller als die Daten in der GSU2 Die geschilderten berlegungen zeigen dass in einem Parallel HIPLEX bei Einsatz von DAB Schreibcaches im GS f r Dateien auf einem Symmetrix SRDF Verbund die Eigenschaften einer Konsistenzgruppe f r die Anwendungsdaten nicht notwendigerweise vorliegen F r den oben beschriebenen Fall 1 gibt es den Domino Modus in der Symmetrix dieser bewirkt dass IO s auf eine SRDF Unit nicht mehr zugelassen werden sobald eine der drei Komponenten Source Target oder der SRDF Link ausfallen Um Inkonsistenzen auch in dem oben genannten Fall 2 zu verhindern und eine Konsistenzgruppe zu etablieren ben tigt man auch f r die DAB Caches den Domino Modus im GS s 2 8 2 n heres zum DAB Domino Modus findet man im DAB Handbuch 2 Der Domino Modus im DAB bewirkt dass bei Ausfall einer GS Unit eines dualen GS und damit auch bei einem Verbindungsausfall alle folgenden Schreib IO s fehlerhaft beendet w
102. sive Phasen werden verl ngert asynchron alle Schreib IOs seit dem letzten Kon nur minimale Auswirkungen sistenzstand 2 8 2 _Domino Modus Der Domino Modus oder Domino Effekt ist zun chst ein Symmetrix Attribut das f r ein SRDF Paar eingestellt werden kann Es stellt sicher dass die Daten auf Source Unit und Target Unit stets synchron sind Wenn dieses Attribut f r ein SRDF Paar aktiviert ist wird das die Source Unit enthaltende Symmetrix System bei Nichtverf gbarkeit einer der beiden gespiegelten Units sowie bei einem Verbindungsfehler zwischen den beiden ber SRDF verbundenen Symmetrix Systemen immer die Source Unit auf disabled setzen falls noch m glich und jede IO auf die Source Unit mit der Fehleraussage intervention required unit not ready abweisen Die Anwendung wird sich dann mit Fehler beenden oder stehenbleiben bis die Source Unit per Kommando reaktiviert wird wof r zuvor der Domino Modus deaktivert werden muss Es ist also auch wenn nur die SRDF Links oder die Target Unit ausfallen nach deren Wiederverf gbarmachung immer ein Systemverwaltereingriff n tig der auch die Source Units wieder verf gbar macht und ggf den Domino Modus neu aktiviert Allerdings ist bei Redundanz und r umlicher Trennung der SRDF Links der Ausfall aller Links unwahrscheinlich Im normalen Betrieb eines SRDF Paares wenn der Domino Modus nicht aktiviert ist w rden bei Nichtverf gbarkeit einer der beiden gespiegelten Units oder
103. sp 2Gbit s bereits bei 4 km resp 2 km diese kann allerdings durch die Buffer Credits der eingesetzten Fibre Channel Switches oder FC IP Gateways derzeit auf jeweils ca 120 km ausgedehnt werden Je nach Anforderungen der Anwendungen ist es abzuw gen wie gro die zus tzlichen entfernungsabh ngigen Laufzeiten sein d rfen Bei Einsatz von ESCON mit Farpoint f r die SRDF Links setzt der o g Abfall deutlich sp ter ein bei Messungen mit mehreren ms simulierter Verz gerungszeit Ims Verz gerung entsprechen 200 km haben wir nur einen leichten linearen Abfall der Transferraten feststellen k nnen Die Verbindungen von Host zu Host die in unseren Betrachtungen im Wesentlichen von BCAM und MSCF genutzt werden sind am wenigsten zeitkritisch da hier keine hohe Last erzeugt wird Wenn nicht weiter erl utert beschr nken wir in folgenden Beschreibungen den Campusbereich auf 10 km den Metropolitan Bereich auf ca 100 km Alles dar ber hinaus gehende wird von uns als Continental Bereich bezeichnet Zusammenfassung der Maximal Entfernungen Perf Host Peripherie Verbindung bei ESCON Anschluss bis zu9km Perf Host Peripherie Verbindung bei FC Anschluss bis zu 120 km Perf SRDF Verbindung ber ESCON und FarPoint bis zu mehreren 100 km Perf SRDF Verbindung ber FC und FC Switches bis zu 120 km Perf SRDF Verbindung ber FC und FCIP Gateways bis zu 200 km Dabei ist die SRDF Verbindung mit ESCON Directors und FarPoint e
104. stem und f hrt im K Fall den Failover f r die Standby Symmetrix durch Nachdem die Target Units freigeschaltet sind stehen die Daten der produktiven Switch Unit zur Verf gung und diese kann gestartet werden Die berwachung der Systeme erfolgt hier nur ber die MSCF Verbindungen und nicht ber die Watchdog Funktion mit Shared Pubsets s 2 12 F r die automatisierte berwachung m ssen also mindestens zwei redundante MSCF BCAM Verbindungen vorhanden und HIPLEX MSCF 3 0 im Einsatz sein Welche Kriterien einen halb Jautomatischen Failover ausl sen sollen bestimmt letztlich der Systembetreiber Die Definition der Switch Units f r die Anwendungen sind auf einem Daten oder dem Systempubset in der Work Symmetrix abgelegt welches wie die Anwendungsdaten per SRDF gespiegelt wird Durch das Fehlen der Kreuzverkabelung ist die M glichkeit des Switchover ohne Failover also ein Umschalten auf den Standby Host ohne Umschaltung auf die Standby Symmetrix s a Abb 5 2 nicht gegeben Ein automatisches Umschalten bei einem Systemausfall nicht K Fall bedeutet somit stets auch ein Freischalten der Target Units also einen kompletten Failover und sp teren Failback Da dies in den meisten F llen mehr Aufwand darstellen wird als der Neustart des Systems empfehlen wir deshalb in losen Konfigurationen mit HIPLEX AF einer Halb Automatik den Vorzug zu geben d h die Switch Unit so zu programmieren dass ein Systemadministrator benachrichtigt und Failove
105. t Mit HIPLEX AF wird zwischen den zwei Hosts ein Hochverf gbarkeitsverbund geschaffen in dem die Systeme sich gegenseitig und auch die Anwendungen berwachen Es werden eine oder mehrere Anwendungen und deren Hard und Software Ressourcen als eine Umschalteinheit Switch Unit definiert Die berwachung der Anwendungen und ihrer Ressourcen durch HIPLEX AF wird als Monitoring der Switch Unit bezeichnet Nach vom Kunden festgelegten Kriterien wird die Switch Unit bei Systemausfall oder Ausfall wichtiger Ressourcen auf den Standby Host umgeschaltet Switchover In HIPLEX AF ist es weiterhin m glich auch den Ausfall eines Symmetrix Systems zu erkennen und automatisch die Target Units zu aktivieren und mit diesen die Anwendung neu anzustarten Failover Bei Einsatz von HIPLEX AF zum automatischen KS wird die Entscheidung dar ber ob ein Failover durchzuf hren ist von der berwachungssoftware gef llt und es kann auch im unbedienten Betrieb ein Failover erfolgen M glich ist es auch mehrere Anwendungen die auf Work und Standby Host laufen als eigene Umschalteinheiten Switch Units zu definieren die dann getrennt voneinander umgeschaltet werden k nnen In diesen Switch Unit Definitionen k nnen dann Listen von einzelnen Target Units angegeben werden die bei einer Umschaltung halb oder vollautomatisch freigeschaltet werden White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 13 45 2
106. t Zeit die ben tigt wird um aus dem opt ESCON ein WDM Lasersignal zu machen t data Zeit die ein Datenblock von 4 KB ber den Link ben tigt diese ist im Beispiel vorge geben durch die bertragungsrate von ESCON SRDF und betrage 0 3 ms hypothetischer Wert der Minimalwert ist bei 200Mbit s 0 2ms t line Signallaufzeit die durch 250 km Glasfaserkabel ben tigt wird bei der Ausbreitungs geschwindigkeit 200 000 km s von Licht in Glasfaser sind dies bei 250 km 1 25 ms t remote Zeit die die entfernte Symmetrix braucht um den Auftrag ins Cache einzulagern und zu quittieren wir nehmen hier eine Zahl von 0 5 ms an Da die Umsetzung viermal erfolgt je einmal in jede Richtung an beiden Standorten und der Weg durch die WDM Glasfaser zweimal durchlaufen werden muss vom Datenblock und vom Quittierungs Signal kann man die Verz gerungszeit durch SRDF ber WDM wie folgt berechnen Schreib Auftrag tlocal remote tprot tline gt Abb 3 3 Verlauf einer Schreib IO bei synch SRDF White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 24 45 m sum tlocal tdelay t data tremote Gesamt Zeit einer 4KB Schreib IO E tdelay 4 t prot 2 t line Verz gerung durch die Entfernung des SRDF Links Selbst wenn man die Umsetzzeit der WDM Multiplexer beliebig klein annimmt t prot 0 kommt man auf eine Gesamtverz gerung durch die weite Entfernung von m tdelay 2 1 25 ms
107. ten Ablauf eine Entscheidung eines Systemverwalters also menschliches Eingreifen n tig ist Wichtig beim manuellen wie aber auch beim automatischen KS ist es dass die Abl ufe im K Fall detailliert dokumentiert sind und in regelm igen Abst nden z B v2 j hrlich getestet werden Au erdem sollte das Know How f r die einzelnen Abl ufe nicht auf einzelne Mitarbeiter konzentriert sein 2 8 Zur Symmetrix Funktion SRDF 2 8 1 SRDF SRDF Modi Die EMC Funktionalit t SRDF Symmetrix Remote Data Facility unterst tzt die Datenspiegelung eines lokalen Symmetrix Systems auf ein entferntes Symmetrix System Die beiden Symmetrix Systeme sind dabei ber mindestens zwei Remote Link Directors miteinander verbunden Jede Symmetrix kann ber Remote Verbindungen mit maximal vier anderen verbunden sein Unabh ngig von der Entfernung kann SRDF in uni oder bidirektionalen Konfigurationen verwendet werden Bei Ausfall einer Symmetrix sind die aktuellen Daten auch immer in der entfernten Symmetrix vorhanden Dadurch m ssen die Daten nach einem Ausfall nicht erst wieder eingespielt oder ggf festgestellt werden dass die Sicherungen unbrauchbar oder inkonsistent sind und auch nicht auf einen veralteten Stand zur ckgegangen werden Ein ber SRDF gespiegeltes Volume besteht aus der Source Unit Original und der Target Unit Kopie der Daten die ber einen Remote Link verbunden sind Die Source Unit liegt in der Symmetrix die die Schreibauftr ge im normal
108. tere asynchrone Konfigurations M glichkeit am Markt diese setzt Symmetrix Modelle vom Typ DMX voraus besitzt die Vorteile der weniger breitbandigen und daf r preisg nstigeren asynchronen Konfigurationen und liefert im K Fall weit aktuellere Daten als die oben beschriebene SRDF DM Variante F r die Implementierung einer asynchronen SRDF A KS Konfiguration im BS2000 Umfeld wenden Sie sich bitte an Ihr Competence Center von Fujitsu Technology Solutions 4 4 1 Nutzung und Arbeitsweise von HIPLEX AF Die Arbeitsweise von HIPLEX AF ist hnlich wie bei der synchronen losen KS Konfiguration Wir empfehlen aber auch hier auf einen automatisierten KS zu verzichten Zu dem in Kap 4 3 1 genannten Grund kommt hier noch die Tatsache dass aufgrund der Asynchronit t jede Umschaltung mit der Reaktivierung eines eingefrorenen Datenstandes am Standby RZ und mit dem Verwurf der m glicherweise noch lesbaren aktuellen Daten am Produktiv RZ verbunden ist Jede Umschaltung bedeutet also Datenverlust Deshalb sollte f r diesen schwerwiegenden Eingriff einer Umschaltung keine automatische Ausfallerkennung verantwortlich sein Bei einer asynchronen Konfiguration ist es daher immer angebracht dass ein qualifizierter Mitarbeiter die Situation beurteilt bevor ein Failover ausgef hrt wird HIPLEX AF kann nat rlich als Uberwachungsinstanz und f r den Failover auf Knopfdruck eingesetzt werden von einer automatischen Umschaltung im K Fall sollte man jedoch Abstand
109. terhin besteht die M glichkeit zu Wartungszwecken einen Failover auf die Work Symmetrix auszuf hren und weiter auf dem Work Host ber die Kreuzverkabelung zu arbeiten Diese Konfiguration ist somit unter dem Gesichtspunkt der Hochverf gbarkeit den im Folgenden beschriebenen losen U Link Konfigurationen berlegen Bei Einsatz eines GS sind f r ein Katastrophenschutz Konzept zus tzliche berlegungen erforderlich die im n chsten Abschnitt dargestellt werden 4 1 1 Einsatz von HIPLEX AF HIPLEX AF kann zum einen f r die Hochverf gbarkeit der Anwendungen genutzt werden um bei Ausfall eines Systems oder wichtiger Anwendungsvoraussetzungen m glichst schnell auf den zweiten Host umzuschalten zum anderen auch zum automatischen Katastrophenschutz die Hochverf gbarkeit wird hier durch den KS nicht beeintr chtigt HIPLEX AF kann bei dieser Konfiguration sinnvollerweise zwei Shared Pubsets nutzen die zum einen als berwachungs Datentr ger f r die Watchdog Funktionalit t s 2 12 dienen und auf denen die Daten der Switch Units abgelegt werden s Kap 2 13 Bei dieser Konfiguration liegen die besten Bedingungen f r den automatischen KS mit HIPLEX AF vor Eine im Lieferumfang von HIPLEX AF enthaltene beispielhafte Generierungsprozedur f r eine Switch Unit mit Failover Funktionalit t geht daher auch von dieser Konfiguration aus Diese Prozedur ist zugeschnitten auf den einfachsten Fall einer solchen Konfiguration mit einseitigem asy
110. tet Wenn lediglich die HW und System Voraussetzungen geschaffen werden um eine Anwendung am Ausweich RZ ablaufbar und bedienbar zu machen die Anwendung aber nach einem Ausfall durch einen Mitarbeiter neu gestartet werden muss inkl Herstellung der erforderlichen Ablauf Umgebung bezeichnen wir dies als manuellen Katastrophenschutz Eine Zwischenl sung ist ein halbautomatischer Katastrophenschutz bei dem die berwachungssoftware zwar den K Fall anhand vordefinierter Kriterien erkennt und meldet also die Entscheidung erleichtert aber keine Umschaltung Failover einleitet Dies erfordert dann dass Personal vor Ort ist oder automatisch benachrichtigt wird um die Entscheidung ber die Umschaltung anhand einer Reihe von berpr fungen einzuleiten hat aber den Vorteil dass man einen unn tigen Failover verhindert weil es sich evtl nur um einen kurzzeitigen oder leicht zu behebenden Ausfall handelt F r den Failover steht dann auch der gleiche automatisierte Ablauf wie beim automatischen Katastrophenschutz in Form von HIPLEX AF Switch Units zur Verf gung also ein Failover auf Knopfdruck Vorteile des automatisierten KS m Kein Personalaufwand im K Fall idealerweise m Vermeiden von menschlichen Fehlern in einer kritischen Situation m Die Koordinierung des K Fall Ablaufs ist in der berwachungssoftware implementiert Allerdings sind im K Fall auch Mehrfachfehler z B Rolling Disaster denkbar bei denen auch im automatisier
111. torage Systeme r umlich m glichst weit entfernter und gegen vielf ltige Bedrohungen wie Feuer Wassereinbruch Explosionen Diebstahl Sabotage u s w speziell gesicherter Ort Allgemein gesprochen ist ein Konzept eines Remote Backup in jedem Fall empfehlenswert Schlie lich ist die M glichkeit des Zugriffs auf die Sicherungsdatentr ger auch die ultima ratio bei logischen Fehlern n mlich dann wenn durch nie auszuschlie ende menschliche Fehler die aktuellen Produktionsdaten und bei Spiegelungs Konzepten damit auch die gespiegelten Daten in einem Ausweich RZ unbrauchbar werden Die Bandsicherungen werden bei den von uns vorgestellten Konfigurationen nicht f r den Wiederanlauf der Anwendungen ben tigt au er bei einem speziellen Rolling Disaster s Kap 2 8 2 daher ist die Planung dessen was am Standby Standort an Sicherungsperipherie und gespiegelten Datenbest nden vorgehalten wird abh ngig von der Notwendigkeit auch auf Langzeitsicherungen im Standby RZ jederzeit zugreifen zu k nnen Grunds tzlich sind mehrere Konzepte f r die Datensicherung denkbar um auch die Archive redundant zu halten 1 Sicherungsbest nde werden mit Bandtransfer und Bandduplikaten in ein zweites Archiv was beim K Fall unbetroffen w re verlagert Dieses kann nat rlich auch am Ausweichstandort liegen Es m ssen daf r die Kassettensysteme die im Work RZ genutzt werden auch im Standby RZ vorhanden sein Allerdings entsteht personeller Aufwand du
112. twa zwei ber SRDF verbundener Symmetrix Systeme bei Ausfall des einen Systems oder der Verbindungen zwischen den Systemen nicht mit dem verbleibenden System weiterarbeiten sondern sicherheitshalber mit Fehlerbedingungen den Produktionsbetrieb beenden und erst nach Beurteilung des Ausfallszenarios durch hierf r ausgebildetes Personal ggf den Betrieb auch mit nur einem System wiederaufnehmen Stichwort Domino Modus s 2 8 2 Somit sind HV und KS zun chst zwei verschiedene Ziele deren individuelle Ausgestaltung aufeinander abgestimmt werden kann und muss Die Risiken von Ausfallzeiten versus Datenverlust m ssen kundenspezifisch bewertet werden um eine optimale Abstimmung zu erreichen Im Kapitel 4 dieses Dokuments werden Katastrophenschutz Konfigurationen f r BS2000 Systeme beschrieben Die synchrone enge Konfiguration beispielsweise bietet die M glichkeit Katastrophenschutz und Hochverf gbarkeit optimal zu verbinden und durch eine gemeinsame Software HIPLEX AF zu steuern Wenn aufgrund von gro en Entfernungen Performance Anforderungen oder aus Kostengr nden diese Konfiguration nicht in Frage kommt wird es leichte Abstriche entweder beim Katastrophenschutz oder bei der Hochverf gbarkeit geben White Paper Ausgabe April 2010 Katastrophenschutz Konzepte im BS2000 0SD Seite 5 45 1 4 Ziel und Aufbau dieses Dokuments Die vorliegende Schrift bietet eine Einf hrung und bersicht zum Thema Katastrophenschutz speziell f
113. uber getrennten Symmetrix Subsystemen wenn es darum geht auf den Ausfall lediglich eines Symmetrix Subsystems zu reagieren Prinzipiell jedoch sind mit HIPLEX AF auch enge KS Konfigurationen mit mehreren Symmetrix Subsystemen pro Standort beherrschbar 4 7 Trennung von Anwendungen durch VM2000 Zum Abschluss dieses Kapitels wollen wir noch auf die Vorteile hinweisen die der Einsatz von VM2000 auch im Hinblick auf KS haben kann unabh ngig von der Art der hier besprochenen Konfigurationen Da unterschiedliche Anwendungen oft auch mit unterschiedlichen Systemvoraussetzungen arbeiten kann es sehr n tzlich sein jeder Produktivanwendung ein eigenes Gastsystem also eine VM zur Verf gung zu stellen F r die K Fall Vorsorge wird dann spiegelbildlich ebenfalls pro Anwendung eine Spiegel VM im Standby RZ eingerichtet und mit den n tigen Werten f r CPU und Arbeitsspeicherbedarf versorgt Eine Anwendung die somit in beiden RZs auf einer eigenen VM ablauff hig ist kann wie auch die Switch Unit bei HIPLEX AF als Umschalteinheit bezeichnet werden auch wenn HIPLEX AF nicht im Einsatz ist Das Gastsystem kann dann fortw hrend laufen oder es wird erst in einem K Fall aktiviert s a Kapitel 3 6 1 Hierdurch wird eine bessere bersichtlichkeit bei einem Failover erreicht Sobald der Host im zweiten RZ auch produktiv genutzt wird und nicht nur als Testanlage oder reiner Standby Host empfehlen wir diese Vorgehensweise um Anwendungen logisch vonein
114. ungen diskutiert und bewertet Dar ber hinaus werden organisatorische und administrative Ma nahmen angesprochen die f r ein KS Konzept zu beachten sind 3 1 Organisatorische Ma nahmen Zun chst wollen wir auf organisatorische Ma nahmen hinweisen die f r jedes KS Konzept zu treffen sind Diese sind weitgehend abh ngig vom betroffenen RZ und dessen Mitarbeiter sowie der vorhandenen Infrastruktur 3 1 1 Notfall Vorsorge Zum Thema Notfall Vorsorge gibt es nach Auffassung des Bundesamtes f r Sicherheit in der Informationstechnik die folgenden Unterthemen die vom IT Betreiber ber cksichtigt werden sollten siehe auch IT Grundschutzhandbuch 6 Erstellung einer bersicht ber Verf gbarkeitsanforderungen Notfall Definition Notfall Verantwortlicher Erstellung eines Notfall Handbuches Dokumentation der Kapazit tsanforderungen der IT Anwendungen Definition des eingeschr nkten IT Betriebs Untersuchung interner und externer Ausweichm glichkeiten Regelung der Verantwortung im Notfall Alarmierungsplan Erstellung eines Wiederanlaufplans Erstellung eines Datensicherungsplans Ersatzbeschaffungsplan m Durchf hrung von Notfall bungen Durch eine automatisierte Ausfallerkennung und einen automatisierten oder halbautomatisierten Wiederanlauf der Produktiv Anwendungen im Ausweich RZ wie sie das Produkt HIPLEX AF f r BS2000 Systeme bietet ist bereits das Thema Wiederanlaufplan abgedeckt jedoch sollte zus tzlich ein Notfall Handbu
115. werden k nnen F r eine Verbindung im Continental Bereich wird man ggf eine wie unter Kap 3 4 2 besprochene WAN Verbindung heranziehen m ssen wobei die Latenzzeiten einzelner IOs sowie die entstehenden Kosten dann kritisch zu pr fen sind Auf der physikalischen Ebene ist zun chst der Lichtwellenleiter LWL Typ zu w hlen Angaben hierzu sind in der einschl gigen Fachliteratur zu finden Mit den heutigen FC Verbindungen kommt man hier auf maximal 10 km zwischen zwei Ports ESCON Verbindungen k nnen bis zu 3 km betragen Verbindungen zwischen zwei ESCON Direktoren SCDs 20 km Durch die Verbindungen zwischen SCD und Host und die zwischen SCD und Ger testeuerung kann eine ESCON Strecke so auf 26 km ausgedehnt werden Diese Entfernungsgrenzen k nnen bei Einsatz von WDM Strecken berwunden werden hier sind derzeit bis zu 100 km ohne Verst rkung des Lichtsignals m glich bei Einsatz optischer Verst rker etwa 200 km Bei noch gr eren Distanzen ist dann abzuw gen ob eine ATM oder TCP IP Verbindung in Frage kommt diese Fragen wird man dann jedoch mit einem Netzcarrier oder einem Anbieter von Komplettl sungen kl ren m ssen Performance bedingte Grenzen k nnen sich auf der Protokollebene von ESCON oder FC ergeben Diese sind zwar ber beliebige Entfernungen funktionsf hig jedoch wird die maximale bertragungsrate zwischen zwei Komponenten bei gewissen Distanzen nicht mehr erreicht Ein Einbruch der Performance auch droop ge
Download Pdf Manuals
Related Search
Related Contents
Sony STR-DG710 User's Manual INAX リフォーム・新築 SMART Notebook 10.7 User's Guide for Mac OS X Operating Casio EXILIM High Speed EX-FH100 User Manual eco PDU PE Series PE5216 / PE6216 / PE5324 / PE6324 Power カタログダウンロード - 昭和電線ホールディングス 取扱説明書 液晶カラーテレビ用 壁掛け金具 A N-80A G1 Tamron AFB01C700 Camera Lens User Manual Copyright © All rights reserved.
Failed to retrieve file