Keresés a blogban és máshol

2012. február 3., péntek

calibre - kindle - ebook - OCR - IV.


Ha szerkeszthető szövegbe szeretnél beszkennelni.
A mostanság használt szkennerek túlnyomó többségéhez adnak OCR (Optical Character Recognition) programot is. Az optikai karakter felismerő programok a képről leolvassák a szöveget, felismerik és egy szerkeszthető szöveg fájlba mentik.

szkenner feladat kijelölő
 Ez itt egy szkenner indító panelja. Mint látod, OCR is rögvest indítható rajta. Túlságosan ne merüljünk bele, de pár dolgot jegyezz meg róla. Ha OCR funkcióban indítasz, akkor a szkenner a bemásolt szöveget értelmezi és valamilyen –megszabott – szöveges fájlba menti. De a képet nem menti le, mint a pdf-nél. És bármit akarsz ismételni, újra kell olvastatni az oldalt. A másik lényeges dolog, hogy ezek általában nem valami jó hatásfokkal működnek. Tömve lesz a végeredmény hibákkal és ezek a fapados szoftverek általában az elrendezés megtartásában sem jeleskednek. Természetesen ez a te választásod. Ha nincs a szkenneredhez OCR, akkor segítségül hívhatod az office-ban elrejtett OCR programot. (Az Office – 2010 - OneNote programjában használhatod, a neve: Microsoft Office Document Imaging. Képes bármit felismerni, képet, lementett képernyőt, pdf fájlt, saját magával indítható szkennelés is. Túl sokat ne várj tőle. Formázást nem ismer és rengeteget hibázik. Mint mondtam, csak a onenote alól elérhető, és csak akkor, ha az office úgy lett feltelepítve, hogy tartalmazza ezt a modult.) Vagy az interneten utána vetődhetsz egyéb ingyenes vagy költségkímélő megoldásnak…

Tegyünk most egy kitérőt.
Van egy nagyon jó választás, a pdf készítéshez (később látni fogod, hogy akár a pdf különálló készítését is feleslegessé teheti, egy bizonyos értelemben). Nevezetesen az, hogy ha a dokumentum beolvasását eleve egy erre kihegyezett szoftverből indítjuk. És itt jönnek a képbe, a már említett abbyy és társai szoftverek. (Ezek a pdf készítésen túl bőven tudnak egyéb dolgokat is, de vannak olyanok is, amik ’ csak ’ pdf fájl készítésre alkalmasak.) Azokat a dolgokat most ugorjuk át, hogy drágák vagy sem, honnan lehet beszerezni kéz alól és ilyesmi. És arról se nyissunk most vitát, hogy melyik program a jobb. A könyves dolgaimhoz calibrét, az ilyen szkennelős-pdfes-wordös dolgokhoz abbyyt használok. Ezeket kedveltem meg. A többit nem tartom a gépen, mert az csak ahhoz vezetne, hogy egyik használatát se tanultam volna meg, csak mindből egy kicsit, ráadásul előbb-utóbb összekutyulnék mindent.
ABBYY FineReader

Az Abbyy nem egyszerű program. Később esetleg majd kitérünk rá, most csak pár gondolat.
(Az abbyy finereadernak van egy kistesója. ABBYY PDF Transformer a neve.Távolról sem tud annyit mint a finereader - képernyőt tud szkennelni, pdf fájlba tud dokumentumokat egyesíteni,  pdf-be tud dokumentumot átváltoztatni (tehát ha wordben vagy egyéb úton-módon összehoztál egy szöveges fájlt és tényleg tisztességesen megcsináltad, jól formáztad, ezzel nagyszerűen át tudod változtatni) és pdf dokumentumot tud átalakítani kereshető és szerkeszthető formákba. Az ára is jóval szerényebb.)
Az abbyy (és a továbbiakban  az „abbyy” szót értsd: ABBYY FineReader valamelyik változatának), mint a program indító ablakán látod, közvetlenül a szkennerhez tud fordulni. Rajta keresztül a szkenner tökéletesen beállítható és vezérelhető. (A már említett omnipage és egyéb komolyabb szoftverek erre ugyanúgy képesek. És a tudásuk is hasonló.)
Ez a program - többek között -azért nagyon jó (és a társai), mert mentesít egy sor dolog alól. Az abbyyt nem érdekli, hogy milyen helyzetbe szkennelsz. Helyre forgatja az oldalt. Ha kissé ferdén tetted be a könyvet/lapot, egy bizonyos mértékig van tűréshatára az OCR moduljának (az átlagos OCR programok a ferdén bemásolt szöveget általában nem kezelik). Lazán boldogul az egyszerre beolvasott két/több oldallal és ráismer a véletlenül vagy bármi okból az aktuális oldalhoz másolt tört oldalra  (vagy ha bizonytalan, pár kattintással rendezheted). Felismeri és külön választja a kép és szöveg blokkokat. Van egy bizonyos fokú képszerkesztő funkciója, de azt is megengedi, hogy lecseréld a reménytelen képet. Ha kívánod, tartja, az eredeti tördelést/elrendezést, de azon változtatni is képes. És ha valahol fennakad, akkor –mivel osztott ablakú a munkaterülete – tág lehetőségek között kiteszi eléd a problémát, hogy bele tudj avatkozni.
(Az OCR programok tesztjében az abbyy és az OmniPage szoftver vezet. Természetesen abból a szemszögből nézve, hogy a megetetett magyar szöveggel mit tud kezdeni - az Adobe Acrobat hiába kerül 200 ezer forintnál is többe, a magyar szövegben túl sokat téved, meglepő módon még a Google Docs-nál is többet. Tíz oldalon az OmniPage és az abbyy általában 3-3 hibát vét. - Ez a szám nem azt jelöli, hogy hányszor fordult hozzád bizonytalanság miatt.- A többi versenyző általában sok hibát vét, a free szoftverek pedig rengeteget. Az office (OneNote) beépített OCR-je rengeteg,  a Google Docs OCR-je nagyon sok hibát vét. Hogy melyik jobb, vagy mire van szükség azt neked kell eldönteni. Érv az ingyenesség, de mellé jár a sok javítani való. Az abbyy tud magyarul -magyarítható a program kezelőfelülete - az OmniPage nem. Az abbyy e-mailben el tud küldeni bármit, az OmniPage viszont Dropbox és Evertone támogatással rendelkezik.)
oldal értelmezve


Az abbyy feltérképezi az oldalt. Kép és szöveg blokkokat különít el.(Ezen a képen egy képzőművészeti album egy oldalát látod. Az abbyy automata funkcióban (miután a szkennerről beolvasta az egész albumot – persze lapoznom azért kellett) felmérte az oldalt, megjelölte a kép modulokat (piros), megjelölte a szöveg blokkokat (zöld) és rögzítette az elrendezést. Ezeket felülbírálhatod, illetve a képbe lógó feliratokat is kijelölheted, mint szöveg. A szükségtelen részeket figyelmen kívül lehet vele hagyatni. (A díszes szegélynél hibázott is, mert szövegnek próbálta értelmezni.))










A szöveg modulokat az OCR funkciója értelmezte. (A szegély téves felismerése okán hozta létre az első két kék sort.) Ahol bizonytalan, ott egy munka ablakban kiemeli színnel a megfelelő karakter(eke)t, a nevezett rész eredetijét kinagyítja és tetszésed szerint javíthatod. Ha végzel az összes oldallal, utána már csak a megfelelő kimeneti formában le kell vele mentetni. (A pdfnek több formája van. A zárttól a vízjelesig. Ennek nézz utána.) Ha nem mentesz kimeneti fájlt, a munkát (értelmezett és javított oldalak) akkor is le kell menteni, különben kezdheted elölről a melót!







Az abbyy nem csak pdf-be, hanem word formátumba is tudja produkálni a beszkennelt fájlt, de egy már létező és megnyitott pdf fájlt is képes word fájllá változtatni. És fordítva. (De boldogul csv, rtf, xls, pptx és még néhány formátummal is. És amint a kiterjesztések sugallják, valóban elboldogul a névjegykártyákkal is, beszkennelhetőek és tovább küldhetőek névjegyzékbe, telefonra.)
 (Említettem, hogy ha egy könyv lapjával végképp nem boldogulsz, mert nem tudod begyűrni a szkennerbe, akkor esetleg fényképezd le az oldalt. Itt most látod a fényképezőgép jelet, ott lehet vele ügyeskedni.)

És mivel tudom, hogy megakadt a szemed az E-könyv menüponton, azért ide emelem azt is:

közvetlenül epubba

Ennek az a lényege, hogy a beszkennelt/ fényképezett,vagy fájlból megnyitott dokumentumokat – csak pdf/kép megnyitásról lehet szó-, az abbyy minden további szoftver segítségül hívása nélkül a látható ebook formátumba képes menteni. Rögtön mehet az olvasóra. (A háttérben a pdf fájlt természetesen létrehozza, hiszen abból dolgozik - és ha problémába fut ott tudsz javítani - és le is menti.)
(Mivel néhány dolog időigényes - és a számítógép jellemzői is befolyásolják -, az abbyynak létrehozhatsz egy olyan könyvtár-mappát, ahová ha -megfelelő -fájlokat helyezel, akkor azt majd valamikor értelmezi/konvertálja, úgy és akkor, ahogyan azt megszabod. Valamint képes a kész anyagot email formában az olvasóra továbbítani.) 
Gyorsan megjegyzem, hogy a fentebb sorolt funkciók egy része, csak a finereader legújabb és teljes változataiban érhető el.


Szóval ott tartunk, hogy valahonnan szereztél egy fájlt, ami egy könyvet tartalmaz. Ha az már eleve egy az olvasóra való kiterjesztéssel rendelkezik (mobi, epub, azw és a többi), akkor túl sok tennivaló nincs vele: mehet az olvasóra de valahogy azért katalogizálni kellene.
Ha van egy pdf fájlod, amiről tegyük fel, hogy tisztességesen el van készítve (kereshető, taratlomjegyzékes), akkor amennyiben az olvasód kezeli, akkor mehet az olvasóra, egyéb esetben konvertálni kell.
Ha szöveges fájlod van (doc, rtf, text) akkor néhány olvasóra azt is átteheted, de ezeket általában konvertálni kell.

Ahhoz, hogy elfogadható eredmény köszönjön vissza rád az olvasó kijelzőjéről, vagy tisztességesen megcsinált fájlt kell feltölteni rá, vagy egy precízen megcsinált fájlt kell átkonvertálni és azt rátölteni. Mivel a szöveges fájlok egy része szinte nem hordoz egyéb infót a betűkön kívül némelyiket pedig nem lehet könnyen konvertálni, ezért abban maradtunk, hogy a pdf jó alapnak ígérkezik. (A DjVu is tökéletes megoldás, de nem akarom most ide keverni.)
A pdf fájlt, ha nincs meg készen, így vagy úgy, de össze tudod varázsolni. Akár a worddel való ügyeskedéssel, akár egyéb úton, más szoftverekkel. Ha lemondasz a színes-képes végeredményről, akkor persze az rtf vagy a txt is járható út.

Biztosan megvagy a bölcselkedésem nélkül, ám fontolj meg pár dolgot. Senki sem csinál elektronikus könyvet (ebook, ekönyv) nemhogy 10 perc, de még egy óra alatt sem. Csak gondold végig: ha begépeli az vicc, ha beszkenneli, ott a lapozás- könyv forgatás maga tekintélyes idő és még igazgatni, javítgatni  kell. (Aki meg valahonnan leszed egy fájlt, belejavít, kicsit megpofozza, és azt mondja ő csinálta, az meg szimplán hazug.) És a korrektúrázásról eddig nem is beszéltem (nagyjából azt jelenti, hogy a kész munka szövegét össze kell vetni az eredeti szöveggel).  Ez nagyon sok idő. Aki ilyenekkel foglalkozik, annak persze gyorsabb. De a megfelelő időt akkor is rá kell áldozni.
Aztán ott van még az a probléma, kinek milyen lehetőségei vannak. A vagyont érő szoftverekkel könnyű jobb eredményt elérni, de azt nem mindenki engedheti meg magának. Ráadásképp azok használatát meg is kell tanulni, egyébként lópikulát sem ér a méreg drága szoftver.
A fő cél az, gondolom, hogy szépen nyugodtan olvashass az elektronikus olvasódon egy nem összevissza hanem épeszűn megjelenő szöveget. Ha kezdetben nincs benne kép, hát nincs. Ha nem színes, hát ne legyen. Majd alakul.
Fogd a Wordöt vagy bármilyen rendelkezésre álló programot, nézd át amit át kell benne, és próbálkozz: címsorral, bekezdéssel, formázással. Válts oldalméretet formázd újra és  mentsd le pdf-be vagy ami épp szimpatikus. Előbb-utóbb sikerülni fog olyan eredményre jutni, ami tűrhető.
Próbálgatás közben ne feledd, bölcs dolog, ha egyszerre csak egy paraméteren változtatsz, mert csak úgy látod, mi mivel függ össze. Az pedig magától értetődő, hogy ne egy teljes könyvnek ess neki, míg kísérletezgetsz, hanem csak pár lapjának.






I. II. III. V. VI.


Nincsenek megjegyzések:

Megjegyzés küldése