Pásky - záloha/obnová dat

Magnetické pásky

Toto médium vychází z děrných pásek, kde struktura dat byla v počátku podobná. Až později se začalo přecházet na vyšší počet stop. Manipulace s páskou však byla poměrně složitá a nepraktická. Proto se začala páska pouzdřit do krytu (cartridge = kazeta). Na rozdíl od pevných disků lze na pásku zapisovat jen z jediného zdroje dat najednou. Pokud je nutné zálohovat více počítačů, musí se zálohovat jeden po druhém (při tradičním zpracování dat).

Dělení podle typu hlavy

Princip činnosti čtecí a zápisové hlavy je nejpodstatnější vlastností pásek a streamerových mechanik a určuje klíčové vlastnosti. Můžeme je dělit na tři skupiny.

  • Statická hlava (linear) se během práce (čtení či zápis) nepohybuje. Páska se pohybuje kolem hlavy, takže jsou data uspořádána lineárně. Hlava může být uchycená pevně, ovšem se může mimo činnost posunout. To se využívá pro zdvojnásobení stop (při pohybu jedním směrem se čtou liché stopy, při opačném pohybu sudé).
  • Rotační šikmá hlava (helical) je vlastně buben, který se otáčí a jsou na ní jedna či více čtecích a zápisových hlav. Protože je buben umístěný šikmo, vytvářejí na pásce šikmé stopy.
  • Rotační kolmá hlava (transverse) je buben, umístěný podél pásky. Jednotlivé hlavičky vytvářejí na pásce svislé stopy (kolmé na směr pohybu pásky).

Dělení podle práce s páskou

Původně byly pásky v samostatných cívkách. V dnešní době je páska ukrytá v pouzdru. Samotné cartridge (kazety) můžeme dělit na:

  • Jednocívkové (single-reel) mají v pouzdru jedinou cívku. Protože z ní se musí páska někam převíjet, je druhá cívka součástí streamerové mechaniky. Protože je v krytu jediná cívka, může mít největší délku pásky. Proto patří mezi pásky s největší datovou kapacitou. Problémem je fakt, že po přetočení pásky do mechaniky je nutné před vysunutím kazety převinout celou pásku zpět.
  • Dvoucívkové (two-reel) jsou starší, ale používají se do dnešní doby. Princip je stejný, jaký známe z VHS či miniDV kazet. Obě cívky jsou uloženy v kazetě, přemotává se z jedné cívky na druhou. Právě proto je relativně snadné kazetu vyjmout z mechaniky. Protože v jedné kazetě jsou dvě cívky, musí být jedna plná a druhá prázdná, takže v kazetě moc pásky být nemůže. Aby se mohlo uložit delší pásku, je nutné zvětšit kazetu. To je až na jednu techniku nemožné.

Historie magnetických pásek

První výzkumy byly prováděny na zmagnetizovaném drátu roku 1898 pro záznam zvuku. Roku 1926 vznikla první páska (Fritz Pfleumer, BASF), také pro zvukové účely. První datový páskový systém světa UNISERVO byl použit roku 1951 v počítači UNIVAC I (firma Univac, dnes Unisys). Páska měla šířku půl palce ( 12,65 mm) s délkou 1 200 p , ) stop. Datová hustota byla 128 bpi, hrubá přenosová rychlost je 12 800 bitů za vteřinu, ovšem datový tok je jen 7 200 znaků za vteřinu. Od roku 1986 se firma jmenuje Unisys. Podruhé byla magnetická páska pro datové účely uvedena 21. května 1952. V rámci stroje IBM Model 701 Defense Calculator byla mechanika IBM Model 726 Tape Unit. Jedna páska měla 7 lineárních stop a celková kapacita byla 1,4 MB. Datová hustota na pásce byla 100 bpi. Cena byla 33.000 USD, případně se mohla pronajmout za 850 USD měsíčně. Následoval model 727 pro IBM 701 a 702 z 25.9, 1953; ten se přestal vyrábět 12. května 1971.

Zálohovací výkony

Zálohování je proces, který je omezený především časem. Z toho vyplývá plno dalších omezení. Dalším faktorem je případná nutnost výměny pásky v mechanice, kde důležitou roli hraje datová kapacita pásky a minimální / maximální denní přírůstek dat.

Kapacita pásek

Stalo se běžným zvykem uvádět u pásek vyšší kapacitu, než jakou mají. Důvodem je často používaná komprese, při které se na pásku skutečně uloží více dat.

  • Příklad:

Kazeta do streameru Imation Travan 40 má na obalu napsán údaj 20/40 GB. Jaká je skutečná kapacita?

(udávaná kapacita)/2 = 40 GB /2 = 20 GB

Proč tento údaj zkresluje, když se data stejně komprimují? Důvodem je fakt, že se v dnešní době vyskytuje mnoho dat, která již komprimována jsou (zvuk, fotografie, videosekvence apod.). Proto se další komprese míjí účinkem. Na kazetu z výše uvedeného příkladu se může uložit jen až 20 GB souborů JPG, MPG, MP3 apod.

Datový tok

Mnohé pásky a jejich mechaniky vyžadují velmi vysoký a trvalý datový tok. Ten není schopen mnohdy dodat běžný pevný disk ATA 7 200 ot/min, a to ani po defragmentaci (platí spíš pro starší disky). Proto se takové mechaniky používají spíše pro zálohování RAID pole. Tato podmínka jde ruku v ruce v kapacitou. Malý disk (=pomalejší) se zálohuje na pásku menší kapacity, která používá nízký datový tok (např. jen 5 MB/s). Naproti tomu pro zálohování velké kapacity (RAID pole) se používají pásky s kapacitou až k 1 TB, kde je datový tok vysoko v desítkách MB/s. Mnohé páskové mechaniky mají podmínku, že musejí být na datovém kabelu jediným zařízením. To je samozřejmost pro Serial ATA, ovšem spíše výjimkou pro SCSI. Právě některou z variant SCSI bývají páskové mechaniky vybaveny.

Rozhraní

Na rozdíl od jiných paměťových zařízení se zde téměř jednoznačně používá SCSI v různých verzích. V některých případech vyžaduje pásková mechanika, aby byla na SCSI kanálu jediná (kromě řadiče pochopitelně). Důvodem je zajištění stálého nepřerušeného datového toku. Podobné riziko je také vpřípadě USB mechanik.
Při použití rozhraní typu SATA či SAS již nehrozí, že by pásková mechanika sdílela kanál s jakýmkoli jiným zařízením.

Zálohování versus archivace

  • Zálohováním (Backup) se rozumí denní, týdenní nebo měsíční uchování dat, informací a vědomostí za účelem jejich obnovy (Restore) v případě nějaké technologické poruchy zařízení či lidské chyby. Záloha je prováděna na přepisovatelné médium (kromě použití CD-R/DVD-R). Je prováděna každý den, týden nebo měsíc na to samé médium a data jsou vždy přemazána a nahrazena novými. Jako médium jsou používány pásky (DAT, DLT nebo AIT), magneto- ptický disk či disky se změnou fáze (MO, PD, UDO, DVD-RAM, PDD) a v dnešní době i CD / DVD / BD medium. Při zálohování se data kopírují.
  • Archivací rozumíme uchování dat “na věčné časy” za účelem jejich případného pozdějšího využití. Archivace je prováděna na přepisovatelné nebo nepřepisovatelné médium, buď magneto-optický přepisovatelný nebo nepřepisovatený disk nebo CD-R / DVD+R (zde pozor na kvalitu viz 24karátové zlato). Data jsou jednou zapsána a nejsou přemazávána. Při archivaci se data přesouvají.

Zálohovácí schémata

Zálohování dat na streamerové pásky musí mít určitý smysl. Provádí se nejen pro případ přímé ztráty dat (výpadek pevného disku), ale též pro případ nechtěného smazání dat či sabotáže. Na to se může přijít nejen ihned, ale častěji až po nějaké době. Potom je záhodno se vrátit ke stavu, jaký byl před onou nehodou. Proto se používá zálohování na větší počet pásek s tím, že se pásky plynule mění.
Protože existuje mnoho individuálních požadavků, existuje několik základních schémat, podle kterých se tvoří individuální zálohovací schémata.

Základní zálohovací režimy

Zálohování dat na streamerové pásky musí mít určitý smysl. Provádí se nejen pro případ přímé ztráty dat (výpadek pevného disku), ale též pro případ nechtěného smazání dat či sabotáže. Na to se může přijít nejen ihned, ale častěji až po nějaké době. Potom je záhodno se vrátit ke stavu, jaký byl před onou nehodou. Proto se používá zálohování na větší počet pásek s tím, že se pásky plynule mění. Známe základní tři typy:

  • plná záloha
  • částečná záloha
    • inkrementální (přírůstková) záloha
    • diferenciální (rozdílová) záloha

Pro výběr zálohovacího režimu je nutné zvážit všechny požadavky. Sem patří doba zálohování, rychlost a snadnost zálohování a/nebo obnovy, kupní cena, provozní náklady atd.

Plná záloha

PLNÁ ZÁLOHA znamená, že se na pásku zapíší všechna data. Výhodou je komplexnost; obnova dat je nejrychlejší. Naopak zálohování je velmi dlouhé pokaždé, také se obsadí největší množství zálohovacích médií. Používá se pro kriticky citlivá data a pro malé množství dat, kde používání jiného způsobu nemá smysl.

Inkrementální záloha

INKREMENTÁLNÍ ZÁLOHA (přírůstková) znamená, že se na pásku nahraje vše, co přibylo od posledního zálohování. Díky tomu zálohování trvá kratší dobu. Obnova celého systému však znamená obnovit předchozí plnou zálohu a poté inovovat následnými inkrementálními zálohami.

Diferenciální záloha

DIFERENCIÁLNÍ ZÁLOHA (rozdílová nebo též delta) znamená zálohovat rozdíl mezi aktuálním stavem a poslední PLNOU zálohou. Výhodou je obnova jen se dvěma sadami pásek (aktuální a předchozí plná), tudíž rychlá obnova. Nevýhodou je narůstající množství dat.

Progresivní přírůstkové zálohování

Jedná se o vylepšení metody inkrementálního (přírůstkového) zálohování, s kterým přišla 29. 6. 1993 společnost IBM v produktu jménem Adstar Distributed Storage Manager™ (dnes Tivoli Storage Manager).
Zálohuje jen soubory, které se od posledního zálohování změnily. Informace o souborech jsou v databázi. Plná záloha se provádí jen na začátku při instalaci systému. Při obnově se rekonstruují jen soubory, o které jde (a nikoli kompletní stav k určitému datu).
Protože není nutné plné zálohování, nezatěžuje progresivní přírůstkové zálohování systém plnými zálohami (i když jen jednou týdně).
Na rozdíl od ostatních metod se zde nepoužívá cyklování médií (tj. žádná data se nepřepisují). Tato metoda je vhodná jen pro robotické knihovny, případně pro zálohovací systémy s virtuálními páskami.

Nadstavbové zálohovací režimy

Existuje několik známých schémat rotace pásek (rotation schedule):

  • Round Robin
  • GFS = děd-otec-syn
  • hanojská věž (Tower of Hanoi)

Round Robin

Jedná se o jedno z nejstarších a nejjednodušších zálohovacích schémat. Je založeno na denním zálohování s týdenním cyklem. V pondělí až čtvrtek se zálohuje některou z částečných metod (rozdílová / přírůstková) a v pátek se provede plná záloha.
Umožňuje návrat až o týden zpět při pěti páskách (jedné sadě). Je možné použít víc sad pásek, zálohované období se ale prodlužuje lineárně.

Zálohovací režim GFS

  • GFS = děd-otec-syn

Praktickým příkladem kvalitního zálohování na delší dobu je pomocí metodiky Děd-otec-syn (někdy se také používá termín Děd-otec-dítě = Grandfather-Father-Child).
SON: synovské pásky se používají každý den (pondělí až čtvrtek).Zálohuje se jen část dat (přírůstkově či rozdílově – možné varianty).
FATHER: na otcovské pásky se zálohuje jednou týdně (pátek). Zde se zálohuje vše.
GRANDFATHER: na dědovské pásky se zálohuje jednou měsíčně (tj. jednou za 4 týdny; některé programy mají s 5 týdny na měsíc – viz ARCserveIT). Také zde se zálohuje vše.

Zálohovací režim GFS – 10 pásek

Každé 4 týdny se zaznamená plná záloha, přičemž se střídají dvě pásky. Každý den v týdnu od pondělí do čtvrtka se zaznamená přírůstek vzhledem k předchozímu dni na pásku příslušející danému dni. Každý pátek se provede přírůstková záloha vzhledem k předchozímu týdnu střídavě na jednu ze čtyř pásek. Pak je k dispozici záloha z každého dne za uplynulý týden a zároveň zálohy z konce týdne za uplynulý měsíc.
Typicky se počítá s kancelářskou pracovní dobou, tj. přes den, 5 dní v týdnu. Jestliže se jedná o nepřetržitý provoz či jiná odlišnost, je nutné celý systém navrhnout jinak.

Hanojská věž

Je to alternativa zálohovacího schématu děd-otec-syn. Zde je ukázka pro zálohu na 16 dní. Poté se cyklus opakuje. Pásky A až D se používají cyklicky. Pásky D a E se vzájemně kříží, aby při přepsání jedné zůstal obsah druhé.

Virtuální pásky

  • VTape = virtual tape
  • VTL = VirtualTape Library

Datové pásky mohou být jak skutečné, tak předstírané (virtuální). Ty se používají tehdy, když fyzické pásky z nějakého důvodu příliš nevyhovují. Typickým použitím je zálohování více až mnoha počítačů na zálohovací server při použití zálohovacích schémat s přírůstkovým či rozdílovým zálohováním. Tam se využívá malé části fyzické pásky, přičemž pro každý zálohovaný počítač je určena jedna páska.
Pokud se počítače budou zálohovat na virtuální pásky, mohou se ty ukládat na pásky skutečné. Pro zálohování 100 počítačů se tak denně nespotřebuje 100 pásek, ale třeba jen jedna nebo několik. Může jít o stejný typ pásky, případně se místo více malých použije jedna s vysokou kapacitou. amozřejmě se ušetří na páskových mechanikách.
Místo výsledného ukládání na skutečné pásky se může použít diskové pole či jiná metoda ukládání dat.

Obnova

Obnova = recovery

Vytvořit zálohovací mechanismus je jedna věc, ale skutečná obnova dat v případě potřeby nemusí být ani snadná, ani úspěšná. Pro mnohé zálohovací programy může být problémem změna operačního systému. Doporučuje se občas jako test zkusit obnovu dat, jen je třeba pamatovat na to, aby se nesmazala nová data.
Ideální je mít dvě sestavy – jednu „ostrou“ pro práci a druhou pro testování. Tato strategie se používá např. pro kritické servery, kde je nepřípustné na „ostrých“ datech dělat jakékoli pokusy.

OBDR™

  • OBDR = One Button Disaster Recovery

Jedná se o mechanismus obnovy dat po pádu disku. Jestliže je celý disk (či alespoň systém) zálohován se zapnutou funkcí OBDR, stačí vložit správnou pásku a stisknout tlačítko na streamerové mechanice (typicky přidržet tlačítko na vysunutí média). Mechanika poté všechna data vrátí zpět. Podmínkou je, že vadný disk je nahrazen IDENTICKÝM modelem!
Technologie je chráněna (Hewlett Packard).

Cena – vyplatí se pásky?

Ceny páskových mechanik bývají tradičně velmi vysoké, jen málokdy klesají pod 10.000 Kč, ovšem leckdy se vyšplhají až na půl milionu Kč. Naopak RAID pole z pevných disků jsou stále nižší, takže se začíná uplatňovat trend, kdy se místo páskové mechaniky (či robota) použije RAID pole. To je neporovnatelně rychlejší a tudíž pružnější, ovšem bez specializovaného softwaru nedovede časovou zálohu. Tím je myšlen fakt, že datové pásky již z principu není problém použít pro některý ze zálohovacích systémů (páska je výměnné médium, RAID pole nikoli). Je však možné na jednom RAID poli mít více záloh (např. co adresář, to záloha z jednoho dne v týdnu).
Především pro vyšší kapacity a větší množství pásek se jejich použití finančně vyplatí (tj. kapacita od desítek až stovek pevných disků).

Robotizace zálohování

Ruční výměna pásky je jedna z nejkritičtějších míst v páskovém zálohování. Proto je lepší, když se o výměnu pásky postará počítač, řídicí výměnný mechanismus.
Autoloader je nejmenší varianta. Jedná se o jednu mechaniku s podavačem, schopným obsloužit prostor pro několik pásek. Někteří výrobci tento termín používají i na rozsáhlejší celky, spadající do kategorie robotická knihovna.
Termín robotická knihovna se používá pro větší celky s počtem pásek v desítkách (a vyšším). Také počet mechanik v jedné knihovně bývá vyšší než jedna. Angličtina zná termíny „tape library“, „tape silo“ nebo „tape jukebox“.
Mezi výrobce patří firmy BDT AG, IBM, Overland Storage, Quantum (+ ADIC od roku 2006), Spectra Logic, Sun (+ StorageTek od r. 2005) a Tandberg Data (+ Exabyte od roku 2006).

 
referaty/hardware/pasky_-_zaloha_x_obnova_dat.txt · Last modified: 2008-12-04 14:10 by kuznes1
 
Recent changes RSS feed Creative Commons License Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki