Keresés a blogban és máshol

2012. február 3., péntek

calibre - kindle - ebook - OCR - III.


Ha értesz a pdf vagy a html készítéshez, akkor megfelelő programokkal ezt közvetlenül is megteheted. A szép könyveknek (mármint majd a konvertálás utáni kinézetre utalok) a lehető legjobban elkészített kiindulási fájl az alapjuk.
(Sok helyen már eleve úgy találod az ebook fájlokat, hogy azok át vannak konvertálva. Mobiba, epubba vagy bármibe. Azok készen vannak, mehetnek az olvasóra. A feltöltők általában két megoldást választanak: ha úgy ítélik meg, hogy a munkájuk megüt egy bizonyos mértéket, vagy egy általános – minden olvasóra megfelelő formátumot adnak közre - akkor feltöltenek egy fájlt (könyvet), mondjuk: könyv_neve.mobi.


  (Sok szerveren ezt egy .zip, vagy .rar fájlba csomagolva teszik meg, ennek megvan az oka, ez technikai jellegű. Itt rtf és mobi van becsomagolva.)


 Aki viszont gondosan jár el, vagy nem biztos benne, hogy tökéletes munkát végzett, vagy speciális –csak egy olvasóra való – fájlformátumot tölt fel, vagy pusztán odafigyelésből, az többszörözi a fájlt, valahogy hasonlóképp:

Mint láthatod, itt a feltöltő rendelkezésre bocsátotta a kiindulási alapot is. Ez figyelmes dolog tőle. Ugyanis ha nem felel meg neked, amit ő művelt, neki kezdhetsz te magad is. Néhány formátumot eléggé körülményes szerkeszteni, javítani. Aki nincs otthon a témában, valószínűleg jobban teszi, ha a kiindulási fájlból ő maga újra kezdi az egészet.

A MEK-ben és egyéb helyeken általában sok pdf (és html) kiterjesztésű könyvet találsz. Azokkal nincs sok probléma, viszonylag gondosan el vannak készítve. Azt ne feledd, hogy a nagyüzemben gyártott pdf dokumentumok általános paraméterek szerint vannak létrehozva. Így aztán bárki, bármit kezdhet vele. Viszont épp az általános jellemzők miatt az olvasóra való egy az egyben áttöltésük nem jó ötlet. Néhány olvasó át tudja méretezni, de a többségük nem, így nagyítóra vagy az olvasó folyamatos állítgatására lesz szükséged. Az pedig bosszantó. (Emlékeztetlek, hogy én általában a kindle olvasóra utalok.) Arról nem is beszélve, hogy ezek a fájlok ebben a formában nem kereshetőek (szöveget, fejezetet nem tudsz keresni). Tehát ezeket is konvertálni kell, de ezek már legalább készen vannak.
A html könyvek állhatnak egy fájlból, de lehetnek fejezetenként elkészítettek. Ha a html közvetlen piszkálása nem tartozik a kedvenc hobbijaid közé, azért van más megoldás is. Ha egy .html kiterjesztésű fájlra kattintasz, akkor az egy böngésző ablakban nyílik meg. De kinyithatod a wordben is. Ott lesz szépen, rendezetten. Ha a worddel lemented pdf fájlba, akkor kész is van. Ha több részből áll, akkor jöhet a másolgatás/beszúrás  – a formátum megőrzésével. Lementheted alap pdfbe és majd később foglalkozol vele, vagy ha már úgyis a wordben van, akár rögtön változtathatsz az oldalbeállításon és egyéb dolgokon. Ne feledd, szét fog esni az egész és jöhet a formázgatás és rendrakás.

Pdf fájlra szert tehetsz úgy is, hogy fogsz egy könyvet, folyóiratot,albumot és beszkenneled.
 Minden bizonnyal szkenneltél már be fényképet, hivatalos iratot, poénból képet vagy esetleg iskolai dolgozatot. Ez eddig oké. A bökkenő az, hogy a könyvek túlnyomó többsége százas nagyságrendű lapból áll. Ráadásul össze is van fűzve.

 (Amíg eszembe van, a képregények egy külön világ. Azért külön világ, mert míg a könyvek követnek bizonyos tipográfiát -blokkokban, hasábokban jól elkülöníthetően van kép és szöveg -, addig a képregények nem ilyenek. Ha érdekel ez téged, esetleg itt kezd a nézelődést. A link a canadahun oldalon, a képregények fórumba visz. Olvasni tudsz, de regisztráció nélkül kérdezni és hozzászólni nem, illetve bizonyos illusztrációkat, képeket sem látsz Regisztráció nélkül magától értetődően letölteni sem tudsz. Ha szétnézel a canadahun oldalain láthatod, hogy sok ebook-témával foglakozó topicja van..)

A régebbi, percenként egy-két oldalt beolvasni képes szkennerekkel azt hiszem kár próbálkozni. Már csak azért is, mert sok dolgot nem is tudnak. Az újabbakkal azért lehet nyomni a dolgot.
Tisztában kell lenned azzal, hogy a szkenner honnan indít – hova kell tenni a lemásolni akart lapot és merre van a fel, le és jobb- bal. A lap szót értsd jól. Néhány dolgot be kell állítani és rögzíteni ajánlatos rajta. A színárnyalatot, a felbontást például. A felbontást elég 300 dpi környékén tartani. Ne feledd, ha emeled, meredeken nő a kimeneti fájl nagysága, de érdemben nem feltétlenül lesz eredményes a dolog. A színárnyalat … az OCR programok a szürke árnyalatos beállításban érzik a legjobban magukat. Ha viszont színes a könyv, akkor színeset kell jelölni. A képeket később ki is hagyhatod, de egy bizonyos csekély mértékben szerkesztheted is.
A szkennerek a melléjük adott programokkal –amiket a driverrel nagy valószínűséggel fel is telepítettél -, képesek rögtön pdf-be másolni. Némelyiken külön dedikált gomb is van, ha megnyomod, a szkenner rögtön pdf-be másol. 
Szerencsésebbnek tartom, ha a számítógépről intézed a dolgot – a szkenner vezérlő szoftverével -, mert több a játék lehetőség. És állítgatni dolgokat úgyis csak ott tudsz. Mindenféleképp ügyelj a mentés helyére és nevére. A szkennerek nagy többsége, az utoljára használt mentési nevet megtartja és azt használja tovább. Ezt úgy értsd, hogy ha valamikor bemásoltál valamit és azt mondjuk „vackor kutya” néven tetted, ha bekapcsolod a szkennert és beolvasol valamit, ha nem javítod ki, akkor azt „vackor-kutya + szám” néven fogja, igen nagy valószínűséggel lementeni. Ebből nehézségeid lesznek, ha kapkodva dolgozol és hirtelen szükséged lesz fájlokra. Fogalmad sem lesz, melyik melyik.



Ahogy cserélgeted a lapokat és másolsz, feltéve, hogy a ’pdf több oldal’ opciót választottad a beállításoknál, a szkennelés során a beolvasott lapok szépen egymás után a pdf fájlba kerülnek. Semmi gond, ha abbahagyod, száz oldalakat úgysem lehet egyszerre lenyomni. A szkenner segédprogramjaival később megoldható, hogy összefűzd a több darabban beolvasott könyvet. Ha ezt nem tudod ott megoldani, van rá egyéb lehetőség is.

(Ami a kétoldalas beolvasást illeti (- értsd ezt úgy, hogy a szkennerbe berakott szétnyitott könyv két oldalát egyszerre olvasod be). A szkennerekhez adott segédprogramok azt tudják, amit. Amennyire ismerem őket úgy vélem nem nagyon alkalmasak az oldalak szétválogatására, tehát oldalanként kell velük másolni. Erről persze meg kell győződni. Ha – mint ahogy én is tervezem itt majd a továbbiakban – viszont a kész pdf fájlt másik programba visszük, akkor nyugodtan lehet dupla oldalt másolni, ez semmi gondot nem fog okozni.)
(A speciális, átütő vagy hártyapapír szkennelése türelemjáték. Ott meg kell találni azt a felbontást és a szkenner fényerejének és színének –már ha a szkennereden tudod szabályozni- azt az optimális együttesét, hogy ne látszódjanak át a betűk a hátoldalról. A modern szkennerek filmet, negatívot, diát, tükörnyomatot is be tudnak olvasni, végső soron pedig akár lefényképezheted egy nagy felbontású digitális géppel is, mert a képet beemelheted majd később,szóval semmit se kell rögtön feladni, de erre most ne kanyarodjunk el.)

A sokadik lapozás és pár tíz oldal után az ember már hajlamos belezavarodni a dolgokba. Ha nem vagy biztos abban, hogy beolvastál egy oldalt, inkább olvasd be mégegyszer. Sokkal könnyebb kitörölni egy felesleges lapot, mint majd később beilleszteni egy hiányzót. Természetesen az sem az ördögtől való mutatvány.
Ami a technikát illeti. A másolandó lapnak illik egyenesen állni. Ezt úgy értem, hogy a ferdén bemásolt lapokkal később súlyos problémák lesznek. Egyrészt az OCR (karakter felismerő) programok egy része nem bír mit kezdeni a ferde oldalakkal, másrészt a képeket cseszheted. A képek kiigazgatása utólag nem valami nagy élmény. Ilyen dolgok kiküszöbölése érdekében, mindenki egyedi megoldásokat alkalmaz. Van, aki fekete kartonból maszkot készít és odarögzíti a szkenner üvegére, hogy mindig abba tudja rakni a könyvet. Van aki ragasztó-szalag csíkokkal jelöli meg, hová kell tenni a könyvet. A ragasztók nyomot hagynak, azért a szkenner üvegét időnként takarítani kell.  (Ügyelj rá, hogy olyan üvegtisztítót válassz, ami nem fogja tönkre vágni a szkenner műanyag részeit. Soha, de soha ne nyúlj a szkenner másoló területe fölé úgy, hogy a kezedben olyan dolog van, ami csikarja az üveget - ez a köves gyűrűre is vonatkozik. Próbáld ne összekenni olajos-zsíros dologgal, mert a másolt képeken csodálatos fénytörési jelenségekben lesz részed -vagy ha így érthetőbb: a szkenner mellett nincs sült-krumpli csipegetés és egyéb hasonló elvetemült dolog. (Ha épp színes - fényes lapú - albumot másolsz, ügyelj rá, hogy ne tapizd össze az albumot, azon is ott marad a friss ujjlenyomatod.) Szárazon sose töröld le a szkenner üvegét- a por is képes csikarni.) A ragasztó nyomát az OCR programok előszeretettel értik idézőjelnek és más írásjelnek. Ha pedig a képre másolódik a maszat, az igen randa.
A könyv lapozás közben változtatja a súlypontját, ahogy az oldalak egyik felől a másikra kerülnek. Valami építmény kell majd alá, mert kézzel nem tudod megtartani, kár erőlködni. Keress könyveket és a szkenner magasságáig építs neki emelvényt. A fényes-csúszós borítójú dolgokat kerüld, mert a legrosszabbkor fog megnyalatni. A szkenner tetejét általában le kell csukni. És a könyv gerincét – a kötési margó – is oda kellene nyomni, hogy jó legyen a másolat. Ha másképp nem megy, engedd látszani a másik oldal egy darabját, később ki lehet korrigálni. A nyomással óvatosan, ne feledd a szkenner lapja üveg.
Szokj rá, hogy a könyvet egy bizonyos irányba forgatod. Az, hogy négy oldal négyféleképpen van beszkennelve nem túl bölcs dolog. A szkennerrel kapott segédszoftverek ezt biztos feladják. A profibb szoftverek rájönnek és forgatnak, de ott se mindegyik, ráadásul növeli az értelmezési időt. Az értelmezési idő az, amíg az épp aktuális szoftver megemészt egy pdf oldalt. Kitalálja a nyelvet, felismeri a kép és szöveg blokkokat, miután kisakkozza, hogy egyáltalán jól van-e tájolva az oldal. Utána beolvassa a szöveget és beazonosítja  a karaktereket.)
Még annyit, hogy a szkenner megszabott területet képes beolvasni. A másolni kívánt oldal akkora, vagy kisebb lehet. A szkenneren állítható, hogy a felület mekkora darabját vagy melyik részét szkennelje. Némelyik érzékeli az üres területet és a másolandó anyag széle után leáll.
Ha állítgatsz a szkenneren, az előnézeti kép kérésével ellenőrizheted az eredményt. Az előnézeti kép csak a monitorra kerül, a valós beolvasáshoz általában újra be kell olvastatni.
Ezt nem ragozom tovább. Bemásoltad a cuccot, van egy pdf fájlod.





I. II. IV. V. VI.


Nincsenek megjegyzések:

Megjegyzés küldése