Sisteme de recunoaștere a textului sau sisteme OCR. Sisteme optice de recunoaștere a documentelor

Sisteme de recunoaștere a textului sau sisteme OCR. Sisteme optice de recunoaștere a documentelor

OCR & ICR Technology White Paper

  1. Introducere.
    1.1 Sisteme OCR și ICR. Criterii de evaluare a sistemelor de recunoaştere.

    Sistemele actuale de recunoaștere optică a caracterelor (OCR) pot fi împărțite mental în două categorii. Sistemele Vlasne OCR au devenit o sarcină clasică de recunoaștere alții simboluri tipărite pe hârtie pentru ajutorul unei imprimante, a unui plotter sau a unei mașini de scris Drukarska (când aveți nevoie de ajutor, dacă sistemul de recunoaștere funcționează cu o imagine electronică a unui document, ar trebui să solicitați ajutor de la un scanner). În plus, ei văd clasa de sisteme ICR (recunoaștere inteligentă a caracterelor), care includ procesarea documentelor umplute cu alte litere și numere sub formă de mâini, altfel, aparent, recunoașterea imprimat manual simboluri.

    În ambele cazuri, funcționarea sistemului de recunoaștere poate fi evaluată în funcție de o serie de parametri. Cu toate acestea, majoritatea parametru important sisteme, fie el de orice tip, acuratețea recunoașterii

    A REC \u003d 100% * N OK / N 0; (1,1)

    de N OK і N 0 є numărul de simboluri recunoscute corect și numărul capital de simboluri din document este acceptabil. Este destul de firesc ca specialiștii în OCR \\ ICR-systems în primul rând să își concentreze atenția pe optimizarea algoritmilor de tastare din punct de vedere al acurateței recunoașterii.

    1.2 Tehnologii ABBYY.

    În restul celor șase ani, pe piața mondială există sisteme OCR \\ ICR, bazate pe compania de tehnologie ABBYY. În această zi, duhoarea este bună în casă și crustă cu o băutură stabilă. Zokrema, motorul ABBYY FineReader OCR este licențiat și operat cu succes de companii precum Cardiff Software, Inc., Cobra Technologies, Kofax Image Products, Kurzweil Educational Systems, Inc., Legato Systems, Inc., Notable Solutions Inc., ReadSoft AB, Saperion AG, SER Systems AG, Siemens Nixdorf, Toshiba Corporations.

    În cadrul acestui document vor fi descrise principiile de bază ale tehnologiilor ABBYY și, în plus, vor fi examinate în detaliu procedurile de recunoaștere a caracterelor (OCR) și a caracterelor imprimate manual (ICR) implementate în produsele ABBYY.

  2. Principii de bază ale tehnologiei de recunoaștere a textului ABBYY.
    2.1 Principiile IPA.

    Transformarea documentului într-o vedere electronică este procesată de sistemele OCR în etape: scanarea și procesarea înainte a imaginii, analiza structurii documentului, recunoașterea, verificarea rezultatelor, apoi reconstrucția (reconstrucția vederii externe) a documentului se efectuează și export. Metode, scho zastosovyatsya când rozpіnavannі, velmy raznomanіtnі.

    Dar, după cum se pare, natura este cea mai bună din lumea sistemelor de recunoaștere optică. Atașamentele la sistemul nervos, care furnizează semnale detaliate organelor zorilor, sunt pliabile, astfel încât sarcina de a modela „recunoașteri” vii într-un aspect sălbatic nu a fost încă depășită de știință. Cu toate acestea, principiile de bază ale funcționării lor sunt bune și pot fi puse în practică. Sunt trei dintre ele:

      Principiul integrității, Zgіdno z yakim obiectul este privit ca un întreg, care este format din părți povyazanih. Sunetul părților se manifestă în spațiile deschise dintre ele, iar părțile înseși bordează întunecarea doar în depozitul întregului transportat, adică în cadrul ipotezei despre obiect. Avantajul sistemului, care descrie în mod ofensiv mai mult decât regulile, se manifestă în capacitatea de a clasifica mai precis obiectul, inclusiv prin analizarea ipotezelor impersonale, care ar dori să se suprapună principiului.

      principiul scopului(Finalitate): Fie că este vorba de o interpretare a acestor date, urmați metafora următoare. Otzhe, recunoașterea poate fi un proces de ipoteze despre numărul de obiecte și scopul reverificării lor. S-a înțeles că sistemul, în ceea ce privește principiul scopului, nu numai că economisește bani la numărarea etanșeității, dar este și mai semnificativ.

      Principiul adaptabilității poate fi la dispoziția construcției sistemului pentru autopornire. Otriman la recunoașterea informațiilor este comandat, salvat și câștigat până la anul când sarcini similare sunt anulate. Avantajul sistemelor de auto-învățare este de a „îndrepta” căile reflecțiilor logice în construcție, în spirală pe cunoștințele acumulate anterior.

    Tehnologii de recunoaștere dezvoltate de ABBYY, inspirate de aceste principii. adjunct nume noi principii trăiesc adesea abrevierea IPA, Îndoit de la primele litere ale cuvintelor englezești. Este evident că sistemul de recunoaștere, așa cum este practicabil la principii IPA, Bude funcționează cât mai mult posibil gnuchko și precis, la granița unui diї înțeles.

    ABBYY, bazându-se pe rezultatele realizărilor istorice, a implementat principiile IPAîn cadrul tehnologiilor sale de recunoaștere optică a caracterelor. ABBYY FineReader este singurul sistem OCR din lume, deoarece respectă principiile descrise mai sus în toate etapele procesării documentelor.

    Zocrema, în stadiul de recunoaștere, un fragment de imagine, dreapta principiul întregii, Va fi interpretat ca un fel de obiect (simbol), doar ca prezent pe noul toate părțile structurale ale obiectului, iar aceste părți se găsesc în aceleași ape. De aceea ABBYY FineReader nu încearcă să ia o decizie, sortând mii de referințe în căutarea celor mai potrivite. În schimb, există o serie de ipoteze despre cum arată imaginea, apoi ipoteza pielii îndreptată spre scop sunt depășite. Mai mult, este necesar să ne gândim prea mult, de ce ipoteza este falsă, sistemul va fi învingător principiul adaptabilității, Spiryuchis despre informațiile anterioare acumulate despre posibilitatea botezării simbolului în documente.

    2.2 Analiza bagatorie a documentului. MDA.

    În etapa de analiză și procesare înainte a imaginii, există două sarcini principale în fața sistemului OCR: în primul rând, pregătiți imaginea înainte de procedurile de recunoaștere, într-un alt mod, dezvăluie structura documentului - apoi, în viitor, aceasta este posibil să îl creați în formă electronică. Procedurile de procesare forward vor fi revizuite în secțiunea următoare, trecând imediat la sarcina de a analiza structura.

    Cea mai mare extensie a nabulei este numele metodei și analizei structurii ієarkhіchnoї a documentului. Când se analizează structura în cadrul acestor metode, se observă o stropire de egalități logice organizate arhic. Obiectul celui mai mare egal este doar unul - partea superioară, la următorul pas al ierarhiei, sunt sortate un tabel, un bloc de text și o imagine și așa mai departe (Fig. 1). Mi-a dat seama că ar putea exista un obiect care ar putea fi prezentat ca o colecție de obiecte de nivel inferior.

    Fig.1. Structura ierarhică a documentului

    Majoritatea sistemelor OCR actuale pot analiza un document conform unuia dintre următoarele principii: de sus - în jos ("de sus în jos") sau de jos - în sus ("de jos în sus"). Analiza documentului după principiul de sus în jos, ca și cum ar fi un nume, se realizează direct de sus în jos. Sistemul împarte partea în obiecte, їх, în propria sa linie - în obiectele rivnіv inferioare și așa mai departe, până la simboluri. Sistemele care se bazează pe un principiu diferit, pe de altă parte, încep analiza de dragul caracterelor individuale. Vom forma apoi o declarație despre acestea, deoarece simbolurile cunoscute au fost împăturite în cuvinte și așa mai departe, până la formarea unui analog electronic complet al părții.

    Pentru a accepta soluția unui alt obiect, mecanismul așa-numitului „vot”, votul, este adesea câștigat. Esența acestei metode constă în dezvoltarea paralelă a unui număr de ipoteze despre modul în care obiectul este transferat către „expert”, bloc logic, ca și cum una dintre ele ar fi selectată.

    Această metodă a fost practicată pe scară largă pentru restul deceniului; zokrema, іsnuyut OCR-sisteme, literalmente pliate din două sau mai multe mecanisme independente de recunoaștere de la „expertul” principal la ieșire. Vtіm, după cum a arătat practica, este mai bine să fii mai amabil în situații de liniște, dacă programul OCR este victorios „străin”, mecanisme de recunoaștere licențiate. Într-o situație în care informațiile despre toate subtilitățile dispozitivului de recunoaștere a pielii nu sunt disponibile pentru managerul de program, o astfel de soluție pare a fi cea mai convenabilă. Ei bine, dacă scribul extinde recunoașterea de la sine, atunci gradul de recunoaștere poate fi crescut mai mult moduri eficiente. Foarte despre ei și mova în acest document.

    Retailerii ABBYY au creat un algoritm unic pentru analiza unui document MDA(Analiza documentelor pe mai multe niveluri) - vă permite să combinați importanța ambelor principii descrise mai sus. cadru U MDA structura paginii este vizualizată într-un mod similar înainte de a urma metoda de sus în jos, iar crearea documentului în formă electronică după finalizarea recunoașterii se realizează „de jos în sus”, similar cu cea de jos în sus metodă. Când adăugați la algoritm, mecanismul zvorotny zv'azku, Scho ohoplyuє toate analizele egale, care a permis reducerea bruscă a severității grațierilor nepoliticoase, din cauza recunoașterii incorecte a obiectelor de egali mari.

    Fezabilitatea noului algoritm a apărut mult mai largă, mai mică în prototipuri. Este demn de respectat faptul că obiectele oricărui tip de sistem ABBYY OCR sunt recunoscute în conformitate cu principiile IPA: Ipotezele despre tipurile de obiecte dezvăluite sunt atârnate în prima linie, apoi duhoarea este corectată intenționat. În cazul în care, cunoașterea particularităților acestui document de mai devreme este protejată, precum și toate informațiile noi sunt salvate.

    Să aruncăm o privire la caracteristicile algoritmului MDA pe exemplul ofensiv. Desigur, în lateral se văd o serie de obiecte, unul dintre ele fiind identificat ca un bloc de text. Totuși, în procesul de construire a structurii blocului, se arată o modificare specifică, analiza scăde cuvintele intervalelor, arătând că blocul nu ripostează la textul consoanei, pentru a face posibilă admiterea că greșelile sunt tastat cu o descărcare. Pe baza informațiilor acumulate, se decide să se analizeze rezultatele analizei anterioare: prețul nu este un bloc de text, ci un tabel fără linii împărțite. Dacă recunoașterea blocului este în cea mai înaltă ordine, dar acum se va desfășura practic fără grațieri, iar în documentul de sub geantă masa va fi creată ca masă în sine.

    Într-un cuvânt, datorită faptului că rezultatele analizei pe unul dintre nivelurile inferioare pot fi întotdeauna utilizate pe alte obiecte de niveluri mai înalte, este disponibilă o creștere mai mare a preciziei recunoașterii în perechi cu algoritmi tipici.

    Am analizat pe scurt principiile principale ale tehnologiilor de recunoaștere optică a simbolurilor ABBYY. După cum s-a ghicit, recunoașterea oricărui document ar trebui efectuată în etape, cu ajutorul unei proceduri minuțioase analiza documentelor bagatorii (MDA). A recunoscut laturile de pe obiectele nivelurilor inferioare, până la ultimele simboluri, recunoscând simbolurile și „selectând” un document electronic ABBYY FineReader integritate, finalitateі adaptabilitate (IPA).


    Vishchenavedene i-a descris pe marii și pe marii zagalno. Ne-am uitat la principiile de bază fără a avea o viziune clară asupra procesului de recunoaștere. Ca parte a viitoarei diviziuni, toate etapele lucrării vor fi descrise în detaliu cu obiectele diferitelor niveluri ale documentului până la ultimele simboluri.
  3. Descrierea procedurii OCR.
    3.1 Procesarea imaginii frontale.

    Prelucrarea documentului începe cu eliminarea imaginii grafice (imaginea) laterală. Sistemele OCR moderne suportă principalele metode de procesare a imaginii, din fișier și de la scaner. Interacțiuni cu sunetul scanerului bazat pe protocolul universal TWAIN. Așadar, datele de intrare pentru programele OCR servesc ca culoare (adâncimea culorii 24 de biți) sau ca ton (adâncimea culorii 8 biți) a imaginii documentului.

    3.2 Recunoașterea obiectelor altor râuri. Binarizarea.

    Mai întâi, treceți la structura paginii, vedeți și identificați blocurile, sistemul OCR vibrează binarizare, Pentru a transforma o imagine color sau nap_vtone într-una monocromă (culoare de culoare 1 bit). Cu toate acestea, documentelor moderne lipsesc adesea elemente de design precum texturi de fundal sau imagini. După o procedură tipică de binarizare, dacă textura este mare, numărul de puncte „curbate” este mare, numărul de simboluri este extins în câteva moduri și claritatea recunoașterii este redusă drastic. Binarizarea imaginilor de fundal pentru a produce rezultate similare. Din acest motiv, construirea sistemului pentru a încorpora corect textul sub formă de texturi și imagini „fundamentate” este și mai importantă.


    Fig.2. Procesarea prin procedura IBF a unui document cu o textură de fundal.

    O ilustrare a restului tezei poate servi drept exemplu, mărturia din Fig.2. După cum arată experimentele numerice, un sistem OCR care începe procesarea fie de aceeași parte a procedurii tipice de binarizare arată un rezultat foarte scăzut. În medie, precizia pe părțile laterale de tip similar devine pentru sisteme diferite de la 31,1% la 62,7%, ceea ce este de fapt egal cu media în ceea ce privește recunoașterea.

    Cu toate acestea, ABBYY FineReader procesează corect documente similare în ansamblu; după cum arată experimentele, acuratețea medie a recunoașterii părților de acest tip este bună 98,7% . Rezolvarea cu succes a problemei descrise mai sus este rezolvată prin procedură intelectualfiltrarea texturii de fundal,(Filtrare inteligentă de fundal, IBF). Se rulează atunci când este necesar, în fundalul rezultatelor analizei înainte a laturii, această procedură vă permite să încorporați textul într-un fundal perfect pliabil. Mai mult decât atât, și vizualizarea altor obiecte - blocuri de text, tabele etc. - pe părțile laterale ale structurii pliabile după procesare prin procedură IBF vikonuetsya mult mai precis.

    Cu toate acestea, prezența imaginilor de fundal sau a texturilor este departe de a fi singura caracteristică a unui document care reduce claritatea recunoașterii. De exemplu, partea laterală, prezentată în Fig. 3, nu răzbune elementele de fundal clar pronunțate. Cu toate acestea, testul de procesare cu ajutorul sistemelor OCR mari a fost adus la rezultate inacceptabil de scăzute. Motivul pentru aceasta este lipsa de contrast cu originalul și, de asemenea, tinde să întindă mai multe rânduri pentru a comemora schimbarea luminozității pe fundal. Sistemul Zvichayna OCR, parametrii de binarizare pіdbravshi pentru documentul odnієї dіlyanki, nu este posibil să vedeți obiecte pe sіdnіh dіlyankah - duhoarea apare fie „iluminată”, fie „înnegrită”.


    Fig.3. Fără procesare prin procedura de binarizare adaptivă, întregul document este prost recunoscut.

    Tehnologiile, dezvoltate de facsimile ABBYY, permit rezolvarea acestei probleme. procedură binarizare adaptivă(binarizare adaptivă, AB) Este bine să alegeți parametrii optimi pentru acest plot (un fragment dintr-un rând sau un cuvânt) parametrii de binarizare. Trecând la binarizarea adaptivă, ABBYY FineReader menține luminozitatea fundalului și bogăția culorii negre prin întinderea întregului rând și alegerea parametrilor optimi de transformare pentru fragmentul de piele okremo. Ca rezultat, ca un rând, astfel încât cuvintele vor fi văzute corect, ceea ce va crește acuratețea generală a recunoașterii A REC.

    Foarte ilustrative sunt rezultatele unei investigații secvențiale efectuate pe baza unor imagini similare cu cele prezentate în Fig.3. Se pare că tehnica de testare este descrisă în, rezultatele sunt prezentate în tabelul de mai jos.

    tabelul 1
    Îmbunătățirea calității recunoașterii
    pentru dezvoltarea binarizării adaptive.

    După cum se poate observa din tabel, binarizarea adaptivă permite îmbunătățirea cu precizie a acurateței recunoașterii. Din punct de vedere al viziunii tehnice, al ideii AB, Ce face parte din algoritmul amănunțit MDA; Diagrama algoritmului procedurii de binarizare adaptivă este prezentată în Fig. 1. 4.


    Fig.4. Este prezentată diagrama bloc a algoritmului procedurii de binarizare adaptivă.

    3.3 Recunoașterea simbolurilor. Clasificatori.

    Rozpodіl rânduri în cuvinte și slіv în litere în nucleul programului ABBYY FineReader, așa-numita procedură de subdiviziune a liniilor. Procedura se finalizează după ce se ajunge la capătul rândului și se trimite spre prelucrare ulterioară o listă de ipoteze, suspendând cât mai multe opțiuni posibile. Cu această ipoteză a pielii se atribuie un vag cântător; pentru zmіstom tsya valoare vіdpovіdaє numeric vislovy vpevnennostі. În funcție de ipotezele pielii de tastare a obiectelor grafice, „simbolul” este inclus în intrarea mecanismului de recunoaștere a simbolului. Restul este o combinație a unui număr de recunoaștere elementare, titluri clasificatoare.


    Fig.5. Schema clasificatorului robotizat a fost simplificată.

    Schema din fig.5 este ilustrativă pentru robotul cu aspect infam al clasificatorului. După cum se arată, după finalizarea procesării, clasificatorul generează o listă de ipoteze privind validitatea imaginii negre pentru acea clasă inferioară sau - în acest caz, dacă datele de intrare sunt deja în listă - în ordinea modificării dintre ipotezele evidente, pіdtverzhuє Vihіdniy listează clasamentele zavzhdi pentru vag (incredibilitate).

    Una dintre cele mai importante caracteristici ale clasificatorului este poziția medie a ipotezei corecte. Acest lucru se datorează particularităților procedurilor de verificare contextuală și a vocabularului, care sunt implicate în etapele procesării ulterioare a listelor de ipoteze. Ghicirea procedurii va crește semnificativ acuratețea generală a recunoașterii, cu toate acestea, este mai puțin probabil ca opțiunea corectă din lista de recunoașteri să nu fie prea profundă. Pentru a evalua poziția medie a opțiunii corecte, puteți utiliza diferite criterii, de exemplu, acurateţea pentru primele trei variante de recunoaştere, Deci o sută de simboluri, pentru care ipoteza este corectă, au apărut nu mai jos decât luna a treia din listă.

    Cremă de adaos, mijlocie caracteristici importante Clasificatorul se numește acuratețe după prima versiune de recunoaștere, swidcode, ușurință de implementare, precum și durabilitate la diverse ocazii, deoarece este prins în documente reale (rozirvani, inundat, și-au schimbat puternic forma de simboluri).

    Sistemele de recunoaștere bazate pe tehnologii ABBYY au următoarele tipuri de clasificatoare: raster, indicativ, diferențial indicativ, contur, diferențial structural și structural. Să aruncăm o privire la puterea și particularitățile pielii lor.

      Clasificator raster.
      Principiul împărțirii fundațiilor pe o corespondență directă între imaginea simbolului și standardul. Stepin vіdminnostі at tsimu sunt numărate ca număr de nezbіzhnyh pіkselіv. Pentru a asigura acuratețea acceptabilă a clasificatorului de registru, este necesară o procesare frontală a imaginii: normalizarea dimensiunii, nahilo și trunchiul cursei. Standardul pentru clasa de piele va suna cu o imagine medie a simbolurilor selecției inițiale.

      Acest clasificator este simplu în implementare, practic, stabil, până la defecte vizuale și poate fi văzut a fi de precizie scăzută. Pe scară largă vikoristovuєtsya în sistemele moderne de recunoaștere a simbolurilor. În sistemul ABBYY FineReader, la etapa inițială de recunoaștere pentru generarea rapidă a listei de ipoteze înainte, este atribuit unul dintre diferiții clasificatori de registru. Precizia comenzii rozvyazannya, estimată pentru primele trei poziții din listă, depozit 99,29% 97,57% .

      Clasificator indicativ.
      Principiul dezbaterii: imaginea este pusă sub forma unui semn vectorial N-lume. Vlasne klassifikatsiya polygaє în povnyanynі yogo cu un set de vectori de referință în tієї și razmіrnostі. Tipul și numărul de semne într-o mică măsură determină gradul de recunoaștere. Formarea vectorului (calculul coordonatelor sale în întinderea lumii N) se efectuează cu o oră înainte de analiza imaginii pregătite anterior. Procesul danez este numit o insignă de onoare. Standardul pentru clasa de piele este marcat cu un model al unui model similar de simboluri ale selecției inițiale.


      Fig.6. Diagrama bloc a clasificatorului de atribute robotizate.

      Diferența de paritate a pielii a vectorului este calculată în calcul, care caracterizează diferența dintre punctele din spațiul N-lume (un punct este o manifestare geometrică a unui astfel de vector). Un exemplu care ilustrează metoda dată, Indicat în Fig.7; pentru acuratețe în această aplicație, este important să N \u003d 2, astfel încât vectorii să fie în splendidul spațiu din două lumi. Coordonatele X0, Y0 ale vectorului de referință sunt calculate ulterior, când se pornește clasificatorul, apoi X1, Y1 sunt eliminate în etapa de eliminare a semnului. Zrozumіlo, scho chim valoare mai puțin aparentă a valorii estimate | L |, mai precis, analiza imaginii este confirmată de acest standard, iar apoi vaga mai mare va fi atribuită de către clasificator ipotezei. Sălbaticul arată ca o pârghie, pentru care unul este semnificat | L |, se scrie în această ordine:

      Principalele avantaje ale clasificatorului indicativ sunt ușurința de implementare, construcția generală bună, rezistența bună la schimbarea formelor de simbol, numărul redus de tipuri de recunoaștere, codul de securitate ridicat. Cel mai grav defect de yoga este inconsecvența cu diferite defecte de imagine. În plus, semnele clasificatorului pot fi deficiențe și mai grave - în etapa de eliminare a semnului, este necesară o pierdere irevocabilă a unei părți a informațiilor despre simbol. Semnul erou se realizează independent, astfel încât sunt utilizate informații despre extinderea reciprocă a elementelor simbolului.

      Acuratețea lucrării clasificatorului indicativ este puternic depusă în calitatea semnelor ascultătoare. În acest fel, este posibil să înțelegem cât mai exact construcția acesteia, și nu superficial, pentru a caracteriza simbolul botezului. Nu există reguli exacte pentru alegerea unui semn, astfel încât clasificatorii din diferiți comercianți cu amănuntul operează cu seturi diferite de semne.

      Acest tip de clasificator este foarte popular printre comercianții cu amănuntul de sisteme OCR. În sistemul ABBYY FineReader, este selectat un clasificator indicativ cu numărul de caractere N \u003d 224. Cealaltă recunoaștere este aceeași cu cea a clasificatorului de registru - este similară cu lista de ipoteze directe. Acuratețea variabilității victorioase pentru primele trei variante ale listei de ipoteze care urmează să devină 99,81% , Precizie după prima opțiune 99,13% .

      Clasificator de contur.
      Variația clasificatorului indicativ. Arată ca în restul timpului, care este un semn al conturului vicorist, care se vede în fața simbolului imaginii. Principiile de funcționare, principalele avantaje și neajunsurile trec dincolo de nume.

      Clasificatorul scopului sarcinilor pentru recunoașterea textului, tastat în fonturi decorative (de exemplu, stil gotic, stil rusesc vechi etc.). Pratsyuє trohi mai mult decât marea întindere este semnul clasificatorului. Precizia clasificatorului de contur pentru primele trei opțiuni 99,30% , Precizie după prima opțiune 95,10% .

      Clasificator diferenţial indicativ.
      Programări pentru distribuirea obiectelor care sunt similare unul la unul, cum ar fi, de exemplu, litera „m” și același „rn”. Analizați doar acele zone ale imaginii, unde puteți încerca informații care vă permit să alegeți una dintre opțiuni. Deci, în cazul „m” și „rn”, cheia pentru vіdpovіdі este prezența și lățimea deschiderii în locul de întoarcere a literelor transcrise.

      Un clasificator diferenţial de caracteristici (GDK) este un set de clasificatori de caracteristici. Qi nu mai funcționează cu standarde, eliminând simboluri similare pentru pariuri cu piele. Pentru toate perechile de victorii, se folosește unul și același set de semne, care este similar cu semnul clasificatorului care este evident în întinderea clară. GDK sună ca un swedcode bun. Câștigă în diferite sisteme de recunoaștere a simbolurilor.

      În procesul de instruire a clasificatorului, se efectuează o analiză a imaginii de la baza inițială. Calcul cu ce valoare semnul este interpretat ca coordonatele unui punct din spațiul N-lumi. Aparent, pentru două simboluri diferite, există două puncte „sumbre”, ciufulite pe deakіy vіdstanі un tip de unul. Dacă se acumulează informații despre un număr suficient de puncte, se calculează coordonatele hiperplanului. Este de vină pentru împărțirea spațiului în așa fel încât „sumbra” opinile pe diferite părți și aproximativ pe o parte a hiperplanului.


      Fig.8. Modelul geometric al studiului a fost simplificat
      clasificator diferenţial.

      Un set de valori, similar cu coordonatele hiperplanului, este punctat la recunoașterea ca standard pentru această paritate de simboluri. Pentru otrimanih atunci când se analizează imaginea, se calculează valoarea, al cărei sens geometric este locația punctului hiperplanului. Trebuie remarcat faptul că pentru perechea de simboluri de piele este necesar să selectați cu atenție zona în care vor fi numărate semnele (inoduri în aceste scopuri sunt luate similar semnelor primare din clasificatorii indicativ și contur). Prin ce pobudova etaloniv pentru GDK este super laborios, iar numărul total al acestora este împrejmuit.

      Nu numai imaginile, ci și o listă de ipoteze, formațiunile aflate într-un stadiu incipient al recunoașterii servesc drept date de intrare pentru GDK. În plus, într-un anumit spațiu și pe o anumită suprafață din hiperplan va apărea un punct, cădere, a cărui ipoteză va fi o creștere a clasificatorului. GDK-ul propriu-zis nu dezvoltă noi ipoteze, ci le schimbă pe cele care sunt deja în listă, în acel caz, în mijlocul reprezentărilor din listă apar perechi de ipoteze, pentru care se stabilesc standarde. Când se face acest lucru, se folosește algoritmul așa-numitei sortări bulboase. Ipotezele sunt sortate de la sfârșitul listei și „unește” secvenţial după potrivirea cu modificări mai mici, cu care se realizează corectarea vag-ului. Un astfel de algoritm garantează că ipoteza este corectă să apară în primul rând, și o singură dată, dacă alinierea diferențială cu celelalte ipoteze dă un rezultat pozitiv.

      Precizia HDC nu poate fi calculată prin metoda utilizată pentru speciile descrise mai sus, dar poate fi evaluată unul lângă altul. Figura 9 prezintă schema de recunoaștere care este utilizată în sistemele ABBYY. Clasificatorii raster (RK) și semne spațiale (PC) sunt victorioși pentru generarea rapidă a listei de ipoteze. În acest caz, deoarece relevanța ipotezei pentru cel mai mare vag P 1 nu depășește pragul de valoare de prag dat P, clasificatorul de contur (KK) elaborează un număr de ipoteze suplimentare. Lista se află la intrarea în GDK, care se rezolvă. Pardoseala este o schemă de pliere pentru lansarea clasificatorului, care permite optimizarea vitezei și calității recunoașterii. Precizia care problema de rozvyazannya pentru primele trei opțiuni să devină 99,87% , Precizie după prima opțiune 99,26% .


      Fig.9. Diagrama algoritmului de recunoaștere (primul rând) a fost actualizată.

      Clasificator structural-diferențial.
      Buv razrazrobleniya și zastosovuvavsya pentru prelucrarea textelor scrise de mână. Ca și p rіznakovo-diferențial, tsey klаsifіkator vіrіshuє zavdannya razrіznennya simiіny ob'єktіv. Datele de intrare pentru clasificatorul structural-diferențial (KFOR) sunt, de asemenea, o listă de clasare a ipotezelor și un simbol de imagine.

      Pentru împerecherea de piele a ipotezelor, SDK-ul calculează valoarea semnului, analizând fragmentele vizuale ale imaginii. Semnele, în spatele cântecelor retailerilor, vă permit să separați pielea unei anumite perechi de simboluri, în spirală pe punte, acumulate când a fost predat clasificatorul. Cu aceasta, acuratețea recunoașterii este crescută, dacă pentru pariul de piele simbolurile sunt selectate sub formă de semne individuale.

      De exemplu, pentru retail Cі G clasificatorul analizează zona imaginii, potrivind marginea din dreapta jos cu simbolul. Unul dintre semne, individual pentru acest pariu, va fi prezența (sau prezența) a două creste orizontale, care diverg de la marginea animalului spre fundul arcului. Arcul în sine, ca un bachiti incomod, este prezent în ambele simboluri.

      Clasificatorul structural-diferențial este mai practic, mai mic toate denumirile superioare, iar procesul de pregătire a acestuia este mai laborios, mai scăzut pentru GDK. Prin urmare, SDK-ul este vikorat în principal pentru procesarea acestor perechi de simboluri, deoarece nu a mers suficient de departe pentru a distinge spațiul cu un clasificator diferențial. O prioritate importantă a KFOR este precizia foarte ridicată. Similar cu GDK, acest clasificator folosește algoritmul de sortare bulbos pentru listă. Mayzhe constant până când toate vipadkovym creează un simbol, sigilat în spatele unei vignete.

      Funcționează numai în sistemele de recunoaștere ABBYY. Precizia recunoașterii (Fig. 9) atunci când se adaugă un clasificator structural-diferențial la ieșire crește la 99,88% pentru primele trei opțiuni și până la 99,69% pentru prima varianta.

      Clasificator structural.
      Una dintre evoluțiile revoluționare ale ABBYY. O grămadă de scrisori de creații și victorii pentru recunoașterea textului tipărit manual (ICR), apoi compunerea cu succes și procesarea.

Vă rugăm să rețineți că trebuie să digitalizați un articol de jurnal sau un contract. Evident, poți petrece o viață întreagă revizuind un document și corectând grațierile. În caz contrar, puteți converti toate materialele necesare într-un format editabil pentru un șprot de puf, un scanner vicorist (sau o cameră digitală) și un program de recunoaștere optică a caracterelor (OCR).

Ce se poate face cu tehnologia recunoașterii optice a caracterelor

Recunoașterea optică a caracterelor (OCR) este o tehnologie care vă permite să convertiți diferite tipuri de documente, cum ar fi documente scanate, fișiere PDF sau fotografii dintr-o cameră digitală, în format de editare ca o glumă.

Să presupunem că aveți un document pe hârtie, de exemplu, un articol într-un jurnal, o broșură sau un contract în format PDF, trimis de un partener în e-mail. Evident, pentru a elimina posibilitatea editării unui document, nu este suficient să-l editați pur și simplu. Singurul lucru pe care îl poate face un scaner este să creeze o imagine a unui document, care nu este altceva decât o colecție de pete alb-negru sau colorate, care este o imagine raster.

Pentru a copia, a desena și a edita date, aveți nevoie de un program de recunoaștere a simbolurilor, astfel încât să puteți vedea literele din imagine, să le puneți în cuvinte și apoi să combinați cuvintele în propoziții, ceea ce vă va permite în viitor să eliminați accesul la document.

Care sunt principiile care stau la baza tehnologiei FineReader OCR?

Cele mai avansate sisteme de recunoaștere a caracterelor, precum ABBYY FineReader OCR, se concentrează pe cele mai variate mecanisme create de natură. Aceste mecanisme se bazează pe trei principii fundamentale: integritate, intenție și adaptabilitate (principiile IPA).

Imaginea, bazată pe principiul întregii, va fi interpretată ca un fel de obiect, dar numai pe de altă parte, toate părțile structurale ale obiectului și aceste părți se găsesc în apă. În caz contrar, ABBYY FineReader nu pare să fie capabil să accepte soluții, sortând mii de standarde în căutarea celor mai potrivite. În schimb, există o serie de ipoteze despre cum arată imaginea. Apoi se corectează ipoteza pielii. Eu, presupunând că cunoașterea obiectului poate fi litera A, FineReader vă va putea spune aceleași caracteristici, de parcă s-ar datora imaginii literei. Cum și lângă reparație, urmând principiul scopului. Principiul adaptabilității înseamnă că programul este de vină pentru că este auto-pornit, deci dacă ipoteza este corectă, sistemul va fi, bazându-se pe informațiile acumulate anterioare despre posibilitatea de a boteza un simbol într-un anumit document.

Ce tehnologie stă la baza OCR?

ABBYY, bazându-se pe rezultatele realizărilor istorice, a implementat principiile IPA în program de calculator. ABBYY FineReader Optical Character Recognition System este singurul sistem OCR din lume, care urmează principiile descrise mai sus în toate etapele procesării documentelor. Este important să facem programul cât mai flexibil și intelectual, învecinat cu robotul în măsura în care acesta recunoaște simbolurile persoanei. La prima etapă de recunoaștere, sistemul de post-înregistrare analizează imaginea, din care este pliat documentul, determină structura părților laterale, vede blocurile de text, tabelele. În plus, documentelor moderne lipsesc adesea toate elementele de design: ilustrații, anteturi și subsoluri, fundal colorat sau imagini de fundal. Nu este suficient ca el să cunoască și să recunoască pur și simplu manifestările textului, important este să semnifice de la bun început, ca și cum puterea de a privi documentul: ce este, în cel nou, că copilul a fost distribuite, puterea și vinul, tabele și grafice, zmist, puneți numerele laturilor, etc. rândurile sunt văzute în blocuri, rândurile sunt împărțite în cuvinte, cuvintele în simboluri.

Este important de menționat că viziunea simbolurilor și recunoașterea lor este implementată și în părțile din depozitul vizual ale unei singure proceduri. Tse permite lumii să câștige principiile IPA. Vederea imaginilor simbolurilor ar trebui văzută prin mecanismele de recunoaștere a literelor, titlurile clasificatoarelor.

În sistemul ABBYY FineReader sunt instalate clasificatoare de tipuri avansate: raster, indicativ, contur, structural, indicativ-diferențial și structural-diferențial. Un semn raster și extins al unui clasificator analizează imaginile și trasează câteva ipoteze despre acestea, ceea ce este un simbol pentru noile reprezentări. În cursul analizei ipotezei pielii, se atribuie un singur scor (așa-numitul vaga). Pentru subbagurile reverificării luăm o listă de ipoteze, pentru a le ierarhizat după vag (adică după gradul de loialitate față de faptul că avem în față un astfel de simbol). Se poate spune că în acest moment sistemul deja „ghicește” cum arată un simbol cu ​​aspect similar.

Prin urmare, înaintea principiilor IPA ABBYY FineReader, este necesar să se efectueze o revizuire a ipotezelor. Tse să lupte pentru ajutorul unui clasificator indicativ diferenţial.

În plus, rețineți că ABBYY FineReader acceptă recunoașterea filmelor 192. Integrarea sistemului de recunoaștere cu dicționare pentru a ajuta programele în analiza documentelor: recunoașterea este mai precisă și solicită o reverificare ulterioară a rezultatului din îmbunătățirea datelor despre documentul principal și reverificarea vocabularului alocației okremy. După prezentarea unui număr mare de ipoteze, programul acceptă o decizie și oferă un scurt text.

Recunoașterea fotografiilor digitale

Imaginile realizate cu ajutorul unei camere digitale sunt revizuite din documente scanate sau PDF, care este o imagine.

Ele pot avea adesea mai multe defecte, de exemplu, crearea de perspective, iluminarea dintr-o spatule fotografice, rânduri virgine. Atunci când lucrați cu mai multe completări, astfel de defecte pot complica semnificativ procesul de recunoaștere. Conectarea la alte versiuni de ABBYY FineReader ar trebui să se facă folosind tehnologii avansate de procesare a imaginii pentru a converti cu succes sarcinile de pregătire a imaginii în recunoaștere.

Cum se utilizează programele OCR

Tehnologia ABBYY FineReader OCR este simplu de utilizat - procesul de recunoaștere în general constă din trei etape: decriptarea (sau scanarea) documentului, recunoașterea și salvarea în cel mai potrivit format (DOC, RTF, XLS, PDF, HTML, TXT, etc.) Sau transferul de date fără întrerupere în programele de birou precum Microsoft® Word®, Excel® sau instrumentele de revizuire PDF.

În plus, versiunea rămasă de ABBYY FineReader vă permite să automatizați sarcina de recunoaștere și conversie a documentelor folosind programul suplimentar ABBYY Hot Folder. Pentru ajutorul unuia nou, puteți crea același tip sau repeta sarcini în funcție de procesarea documentelor și crește productivitatea muncii.

Cum câștigi munca cu programele OCR?

Tehnologia de recunoaștere a textului de înaltă calitate ABBYY OCR asigură conversia precisă a documentelor pe hârtie (scanări, fotografii) și a documentelor PDF de orice tip în format editabil. Stagnarea tehnologiilor moderne OCR vă permite să economisiți mult efort și timp atunci când lucrați cu orice document. Cu ABBYY FineReader OCR puteți scana documente pe hârtie și le puteți edita. Puteți cita din cărți și reviste și să le citați fără probleme. Cu ajutorul unei camere digitale și al ABBYY FineReader OCR, puteți captura instantaneu o fotografie a unui poster, banner spart, precum și a unui document sau a unei cărți, dacă nu aveți un scanner la îndemână, și să recunoașteți imaginea. În plus, ABBYY FineReader OCR poate fi utilizat pentru a arhiva documente PDF cu posibilitatea de a căuta.

Întregul proces de conversie dintr-un document pe hârtie, o imagine sau un PDF durează mai puțin, iar documentul de recunoaștere în sine arată exact ca originalul!

Situații apar adesea în activitățile practice, dacă este necesară transformarea unui document într-un format electronic, încălcări pe hârtie. În acest fel, poți pur și simplu să tastați un document pe computer, ceea ce va fi laborios, sau să accelerați cu un scanner și un sistem OCR.

Sistemele de recunoaștere optică a caracterelor (OCR) sunt utilizate pentru a introduce automat alte documente într-un computer.

Programele actuale de recunoaștere a textului nu sunt doar grațiate, dar persoana este încă în viață, dar se ocupă și de ortografie, formatare automată a textului și o mulțime de alte detalii suplimentare.

În restul anului, poziția de lider pe piața rusă a programelor de „recunoaștere” este dominată de programele FineReader și CuneiForm. Indiferent de numele tale viclene, jignit de programele de producție industrială și întreg calitate bună.

Un scaner plat este cel mai potrivit pentru scanarea vicory, deoarece este cel mai accesibil pentru un coristuvach obișnuit. La scanare, este necesar să tăiați melodiile vimogi , Vіd yakikh se află înaintea recunoașterii textului:

1. Atunci când alegeți un original pentru scanare, este necesar să rețineți că, cu cât este mai bună calitatea originalului, cu atât mai bune vor fi rezultatele scanării și recunoașterii ulterioare.

2. Revizuiți dacă imaginea (pentru o recunoaștere la distanță) este mai bună în nuanțe de gri - culoarea imaginii la recunoaștere dă erori suplimentare. Adâncimea culorii nu poate fi de mare importanță, alegeți mai degrabă 8 biți, astfel încât, cu o adâncime mai mare, dimensiunea fișierului va crește și, de asemenea, viteza de procesare a imaginii de către programul de recunoaștere se va schimba.

3. Dozvіl este vinovat, dar nu mai puțin de 300 dpi

În prezent, există peste 20 de programe, a căror funcție principală este recunoașterea textului.

Unul dintre cele mai populare programe comerciale de recunoaștere optică a textului FineReader(Http://www.abbyy.ru/finereader/), creat de ABBYY Software House.

FineReader- sistem independent de font de recunoaștere optică a textelor. Tse înseamnă că permite recunoașterea textelor, tastarea cu fonturi practice. Particularitățile programului FineReader sunt precizia ridicată a recunoașterii și sensibilitatea scăzută la defecte, care pot fi ușor atinse prin tehnologie. recunoaștere adaptativă orientată către întregul corp.



Programul este capabil să țină pasul cu noile sisteme de operare Microsoft, Macintosh, Linux și alte sisteme de operare.

Tabelul 9 Asemănarea funcționalității moderne a produselor FineReader pentru diferite sisteme de operare

Programul vă permite să recunoașteți texte cu mare precizie în 198 mov. Printre acestea se numără limbajul natural (rusă, engleză și internațională), limbajul Piece (Ido, Interlingua, Occidental, Esperanto), programarea limbajului (Basic, JAVA, Pascal, Fortran, C/C++, formule chimice simple). Versiunea programului pentru Mac OS nu acceptă mov individual și oferă cel mai mic număr de mov pentru muncă. Numărul maxim de mov este dat de versiunea programului pentru sistemul de operare bazat pe nucleul Linux. Programul vă permite să afișați imaginea și să recunoașteți textul de pe cealaltă parte a ecranului, să salvați imaginea scanată în diferite formate, să reglați barele de instrumente ale programului.

La gândul retailerilor, includerea în cea de-a unsprezecea versiune a software-ului a făcut posibilă creșterea vitezei de procesare a documentelor cu 20%, claritatea procesării a patru elemente (imagini, grafice, coduri de bare, tabele, subsoluri, titluri, text în margini și etc.) a fost îmbunătățită.

Tehnologie Zavdjaki zastosuvannuyu Tehnologie adaptativă de recunoaștere a documentelor ( recunoaștere adaptativă solidă orientată spre scop) ABBYY FineReader 11 păstrează în mod miraculos structura documentelor bogate, inclusiv aspectul textului, tabelele, anteturile și subsolurile, note, numerotarea părților, modificarea, modificarea și altele.

Noua versiune are capacitatea de a formata documente fără intermediar în program. Schimbarea modului de reverificare a rezultatului recunoașterii vă permite să corectați rapid grațierile din text.

În noua versiune a formatelor primare din Crimeea, a devenit posibilă salvarea rezultatelor recunoașterii în formatul popular de cărți electronice (fb2, ePub și în.), care va ajuta la crearea unei copii electronice pentru un dispozitiv portabil - carte cititor, tabletă, smartphone etc.

Crimă pentru un produs care trebuie instalat pe un computer pe net serviciu care este disponibil pe site-ul web al comerciantului (http://finereader.abbyyonline.com/ru). Este necesară înregistrarea pe site. În prezent, este posibil să recunoașteți fără costuri pe 4 părți pe zi. Pe acest site de spectacole este o resursă sumbră ABBYY Cloud OCR SDK, dam posibilitatea recunoasterii documentelor pe serverul firmei. (http://www.ocrsdk.com/). Sperăm să avem o perioadă de probă (90 de zile) cu care serviciul îl puteți folosi fără costuri, puteți testa pentru cel mult 50 de părți. Dacă trebuie să cunoașteți un număr mai mare de laturi, atunci pachetele comerciale sunt promovate pe site.

tehnologie de recunoaștere

Pliabilitatea recunoașterii automate a textelor se datorează faptului că este imposibil să urmați un algoritm clar, dorind să folosiți una și aceleași litere pentru a scrie una sau mai multe litere (font, litere). Pentru a obține rezultatul corect, sistemul trebuie să le „înțeleagă”. Cu alte cuvinte, pentru recunoașterea textului, este necesar să se modeleze oglindirea oamenilor într-o situație similară și se obișnuiește să se desemneze termenul de „piesa de inteligență”.

Principiul Vihodyachi z integritate imaginea de recunoscut este privită ca un singur obiect, care este alcătuit din părți, conectate între ele prin spivvidshennymi spațioase. În spatele principiului recunoașterii direcționate către scop, va exista un proces de elaborare și îndreptare a scopului a ipotezelor despre obiect și principiul adaptabilitate poate fi la dispoziția construcției sistemului pentru autopornire.

Pentru ipotezele vysunennya despre cele care pot fi o imagine, sunt numite așa-numitele semne ale unui clasificator. Există o serie de semne, pe baza unor programe, calculează gradele de proximitate ale imaginii și disting clasa ei de imagini, după care vedeți o listă de clase relevante, adică ipoteza despre apropierea obiectului de acea altă clasă. În plus, caracteristicile clasificatorului sunt folosite și pentru a îmbunătăți acuratețea recunoașterii unei imagini cu defecte.

Tastarea claselor este respinsă secvențial de un clasificator structural, așa cum este analizat un simbol de piele. Să spunem doar că FineReader îi pasă ca litera „F” să fie afișată pe lateral și să fie transcrisă special semnelor, de parcă ar fi vina literei „F”, și nu la litera „F”, ci nu la litera „F”, care este un standard structural. Standardul structural desemnează un simbol ca o combinație de elemente structurale (sârmă, arc, inel, punct), care se găsesc în cântece între ele. Procesul de recunoaștere este împărțit în etapele de a vedea elementele structurale din imagine și de a le stabili cu un standard.

Ca rezultat, mai multe ipoteze au fost adăugate la lista reziduală și se împerechează în perechi cu clasificatoare diferențiale suplimentare. Ca clasificator structural, la recunoașterea simbolurilor, nu este posibil să se selecteze fără echivoc una dintre cele două litere de ortografie similară, între ipoteze concurente pentru a lupta pentru o alegere diferențială. De exemplu, există două ipoteze: simbolul este recunoscut ca o literă mică „b” sau „b”. Pentru a selecta o alegere, FineReader analizează în mod intenționat tăietura din stânga sus a literei, de є un singur detaliu între litere.

După finalizarea lucrărilor clasificatorului diferenţial, recunoaşterea va fi finalizată şi va începe etapa de reverificare a listei sub-bag de ipoteze. Etapa rămasă de recunoaștere este determinată de sistem în funcție de context - cu evidenta numărului individual de recunoaștere a literelor din cuvintele programului, dicționarul vicorist, puteți „ghici” care este cuvântul.

Principiile de bază ale integrității, scopului și adaptării rămân neschimbate de la o versiune la alta a programului FineReader, chiar dacă duhoarea în sine permite computerului să se apropie de logica gândirii umane.

Crim este descris de mai multe programe și alte programe.

Microsoft le propune corupțiștilor software, deoarece poate ajuta la traducerea textului într-o versiune electronică: Microsoft Office Imagistica documentelor intră în depozitul pachetului Microsoft Office, permițându-ți să recunoști documentele scanate. Chi nu este disponibil în versiuni Microsoft Office 2010. Software-ul poate citi imagini mici în format TIFF. Precizia recunoașterii nu este mare, prezentând valori și mai mari acurateței și orientării documentului scanat.

Vіlno rozpovsyudzhuvana vіdkrita OCR-sistem Cuneiform(Http://www.cuneiform.ru/), care este partea frontală a sistemelor de recunoaștere industrială și recunoaștere a documentelor. O mulțime de inovații tehnologice, rezultate ale cercetării științifice, care stau la baza CuneiForm, sunt stabilite și îmbunătățite cu succes în produsele comerciale ale Tehnologiilor Cognitive. Până în 2009, rock-ul se extindea ca o reclamă, moment din care procesul de reînnoire a început să crească.

Rezultatele programelor robotizate pot fi editate în programe de birou și fișiere text și salvate în formate populare, iar pe acestea se poate efectua o căutare full-text. Recunoașterea documentelor este posibilă pe 20 mov. Pentru a îmbunătăți calitatea recunoașterii în program, există o re-verificare a vocabularului. Dacă da, dicționarul standard poate fi extins prin importul de cuvinte noi din fișierele text.

Rozmir: px

Începeți să afișați din partea a treia:

transcriere

1 Curs 1 3 SISTEME DE RECUNOAȘTERE OPTICĂ A INFORMAȚIILOR În activitatea practică, deseori apar situații, dacă este necesară transformarea unui document în format electronic, instruirea lucrărilor. În acest fel, puteți pur și simplu să tastați un document pe un computer, care este important de arhivat, sau să utilizați un atașament de scaner, care este potrivit în special pentru transferul documentelor într-un vizualizator electronic. Pentru organizarea scanării imaginii Crimeei fără mijlocul scanerului, este necesar unul dintre programele speciale ale sistemelor de recunoaștere optică a textului. Sistemele OCR cu recunoaștere optică a caracterelor sunt utilizate pentru a introduce automat alte documente într-un computer. Programele actuale de recunoaștere a textului nu sunt doar grațiate, dar persoana este încă în viață, dar se ocupă și de ortografie, formatare automată a textului și o mulțime de alți aditivi. Rămâi stâncos Pozițiile de lider pe piața rusă a „recunoașterilor” sunt dominate de programele FineReader și CuneiForm. Numiți-o fără importanță în numele vostru cu viclenie înțelept, insultând programele producției vicisiale de o calitate întreagă. Pentru capacitatea și serviciul lor, duhoarea este aproximativ egală. POSIBILITĂȚI FINEREADER Unul dintre cele mai populare programe optice de recunoaștere a textului este programul FineReader, creat de ABBYY Software House. Sistem omnifont FineReader pentru recunoașterea optică a textelor. Tse înseamnă că permite recunoașterea textelor, tastarea cu fonturi practice. Particularitatea programului FineReader este acuratețea ridicată a recunoașterii și sensibilitatea scăzută la defecte, ceea ce face posibilă capturarea tehnologiei de „recunoaștere adaptivă solidă”. Програма дозволяє розпізнавати з високою точністю тексти більш ніж на 175 мовах, виводити на друк вихідне зображення і розпізнаний текст, зберігати відскановане зображення в різних форматах, налаштовувати панелі інструментів програми, а також відповідає вимогам сумісності з новими операційними системами Microsoft і Macintosh. Versiunea de FineReader 6.0 Professional este compatibilă cu Windows-2000, -XP, iar FineReader 5.0 Pro pentru Mac este aprobată pentru computerele Apple Macintosh. În plus, un fișier scanat poate fi descărcat și trimis pe o foaie electronică sau poate fi descărcat în browser pentru a vizualiza pagina Web. De departe a apărut programul FineReader, începând cu cea de-a treia versiune, care a câștigat o largă recunoaștere atât în ​​Rusia, cât și în străinătate. Odată cu intrarea sa pe arena mondială, compania și-a luat noul nume ABBYY, numit anterior Bit Software. Produsele software ABBYY FineReader sunt reprezentate în prezent de următoarele programe: FineReader Sprint, FineReader 6.0 Professional, FineReader 6.0 Corporate Edition și ABBYY FineReader 5.0 Pro pentru Mac. FineReader Sprint vine cu un set de scanere. Acest produs este pentru cei care abia încep să lucreze cu sisteme de recunoaștere OCR. Versiunea Volodya este echipată cu funcționalități în același mod ca edițiile profesionale și corporative. FineReader 6.0 Corporate Edition a fost extins pentru a susține nevoile clienților corporativi și acceptă funcții precum un robot într-o zonă locală, căutare în loturi și

2 indexarea, recunoașterea codurilor de bare și defalcarea imaginilor. FineReader Scripting Edition vă permite să creați soluții de integrare care vă permit să utilizați toate caracteristicile Corporate Edition. Interfața ABBYY FineReader 5.0 Pro pentru Mac, inclusiv panouri de control, pictograme și ferestre de dialog, concepute direct pentru Mac OS. Acceptă toate tehnologiile Apple majore, inclusiv QuickTime, Speech, Drag and Drop și Servicii de navigare. Distribuit de ABBYY Software House și Sound & Vision.Inc. Pentru a automatiza introducerea documentelor de plată în sistemele bancare, este emis programul FineReader Bank, care vă permite să creșteți semnificativ eficiența muncii. La închiderea unui document de plată, programul generează și un alt cod de bare, care vă permite să identificați în continuare datele atunci când retrageți documentul de la bancă și scanați codul. CD-ul de distribuție ABBYY FineReader 6.0 Professional include o taxă de licență și un acord de licență. Pentru a instala programul, aveți nevoie de un computer care vă va ajuta să începeți: PC cu procesor Pentium 200 sau mai mult; sistem de operare Microsoft Windows XP / 2000 / NT 4.0 (SP6 sau mai mult), Windows ME / 98/95 (pentru lucrul cu o interfață localizată, sistemul de operare este responsabil pentru furnizarea suportului necesar); Dimensiunea RAM pentru Windows XP / MB, Windows ME / 98/95 / NT MB; 160 MB spatiu liber pe un hard disk, inclusiv 90 MB pentru instalarea sistemului în configurația minimă și 70 MB pentru un sistem robotizat; browser Microsoft Internet Explorer 5.0 sau mai mult (CD-ul conține distribuția MS IE 5.5); Scaner 100% Twain-crazy, cameră digitală sau modem fax; Unitatea CD ROM; unitate de disc de 3,5 inchi sau posibilitatea de a activa produsul prin Internet, prin e-mail sau prin telefon. Expertul de instalare FineReader este extrem de simplu și prompt să selecteze interfața mov, opțiunea de instalare și directorul pentru fișierele de program. Pentru instalare pe disc, sunt necesari doar 90 MB. Pentru programele de la distanță de pe computer, trebuie să dezinstalați. TEHNOLOGIA RECUNOAȘTERII Pliabilitatea recunoașterii automate a textelor se datorează faptului că este imposibil să se urmeze un algoritm clar, dorind să se folosească o literă pentru a scrie una și aceeași literă fără variante de scriere. Înseamnă că computerul, după ce a citit corect simbolurile, se face vinovat că le-a „înțeles”. Cu alte cuvinte, pentru recunoașterea textului, este necesar să se modeleze oglindirea oamenilor într-o situație similară și se obișnuiește să se desemneze termenul de „piesa de inteligență”. Anterior, duhoarea a fost formulată și pusă în practică la sfârșitul anilor 80. secolul XX A. Shamis în sistemul de recunoaștere „Graphite”. Pe baza principiului integrității, imaginea de recunoscut este privită ca un singur obiect, care este compus din părți care sunt interconectate prin simpatii spațioase. Urmând principiul scopului, recunoașterea va fi ca un proces

3 vysunennya și re-verificarea direcționată spre obiectiv a ipotezelor despre obiect, iar principiul adaptabilității transferă construirea sistemului la auto-pornire. Ce rang va fi recunoașterea simbolurilor? Pentru ipotezele vysunennya despre cele care pot fi o imagine, sunt numite așa-numitele semne ale unui clasificator. Există o serie de semne, pe baza unor programe, calculează gradele de proximitate ale imaginii și disting clasa ei de imagini, după care vedeți o listă de clase relevante, adică ipoteza despre apropierea obiectului de acea altă clasă. În plus, caracteristicile clasificatorului sunt folosite și pentru a îmbunătăți acuratețea recunoașterii unei imagini cu defecte. Tastarea claselor este respinsă secvențial de un clasificator structural, așa cum este analizat un simbol de piele. Să spunem doar că FineReader îi pasă ca litera „F” să fie afișată pe lateral și să fie transcrisă special semnelor, de parcă ar fi vina literei „F”, și nu la litera „F”, ci nu la litera „F”, care este un standard structural. Standardul structural desemnează un simbol ca o combinație de elemente structurale (sârmă, arc, inel, punct), care se găsesc în cântece între ele. Procesul de recunoaștere este împărțit în etapele de a vedea elementele structurale din imagine și de a le stabili cu un standard. Ca rezultat, mai multe ipoteze au fost adăugate la lista reziduală, acestea fiind împerecheate în perechi pentru clasificatori diferențiați suplimentari. Deoarece un clasificator structural, atunci când recunoaște simboluri, nu poate selecta fără echivoc una dintre cele două litere cu ortografii similare, atunci o alegere diferențială se va lupta între ipotezele concurente. De exemplu, există două ipoteze: simbolul de recunoscut este o literă mică „semn dur” sau „semn moale”. Pentru a selecta o alegere, FineReader analizează în mod intenționat tăietura din stânga sus a literei, de є un singur detaliu între litere. După finalizarea lucrărilor clasificatorului diferenţial, recunoaşterea va fi finalizată şi va începe etapa de reverificare a listei sub-bag de ipoteze. Etapa rămasă de recunoaștere este determinată de sistem în funcție de contextul cu evidența numărului individual de recunoaștere a literelor din cuvintele programului, dicționarul vicorist, puteți „ghici” care este cuvântul. Principiile de bază ale integrității, scopului și adaptării rămân neschimbate de la o versiune la alta a programului FineReader, chiar dacă duhoarea în sine permite computerului să se apropie de logica gândirii umane. ORGANIZAREA LUCRĂRII ÎN FINEREADER Baza muncii FineReader este așa-numitul pachet, care elimină toate informațiile despre recunoașterea documentelor. Pachetul este o colecție de părți ale documentului și poate fi umplut cu aproape o mie de fețe. Într-un singur pachet pentru comoditatea lucrării, se recomandă combinarea imaginilor care apar în mod logic între ele, de exemplu, părțile laterale ale unei cărți. Import Koristuvach în pachetul de imagini din partea laterală a scanerului sau direct din fișiere în formate grafice. În fereastra pachetului, puteți vedea lista părților care pot fi incluse în pachet. Pentru a revizui partea, trebuie să faceți clic pe imaginea її sau pe număr, când deschideți fișierele, care sunt reprezentate de \u200b\u200b în pachet. Laturile din fereastra Pachetul poate fi reprezentat prin pictograme sau imagini laterale modificate. Imaginile importate sunt acceptate design grafic. Chiar dacă imaginea este negativă, ea poate fi inversată, dată

4 pentru a efectua curățarea sub formă de „înlăturare” a altor defecte din imagine. Dacă nu aveți nevoie de culoare, atunci culoarea imaginii este redusă la alb-negru, pentru a economisi spațiu pe disc și pentru a accelera procesul de recunoaștere. Următorul pas este analiza aspectului părților laterale ale pachetului, adică vederea zonelor care fac recunoașterea. În această etapă, FineReader analizează orientarea laterală și inversează imaginea, după caz, și vede și blocurile zonei, care, în cazul unei analize ulterioare, vor fi interpretate ca text, tabele sau mici. După analiza aspectului părților care sunt incluse în pachet, se efectuează analiza textului și a tabelului. Însăși tehnologia recunoașterii este „inima” FineReader și unicitatea sa, cu toate acestea, procesul său este absolut de neînțeles coristuvachevі vіn bachit trăiesc numai în conformitate cu textul viziunii și rândul standard voi deveni, ce doriți, câte informații este omis, dar câte. Apoi s-a verificat din nou ortografia, după care sunt aduse în judecată cuvintele care nu sunt în dicționarul sistemului, precum și simbolurile, a căror recunoaștere exactă nu este recunoscută de program, atunci când astfel de cuvinte și litere sunt văzute. in culoare. Etapa finală a programului de economii robotizate și exportul rezultatelor recunoașterii. De fapt, în salvarea rezultatelor, nu este nevoie, dar toate informațiile, inclusiv recunoașterea textului și formatarea, sunt salvate automat într-un pachet deodată cu imaginile externe și informații despre aspectul laturilor. Koristuvach poate doar închide FineReader, nu vă fie teamă să cheltuiți bani, dar economisiți bani, textul poate fi importat în diferite formate pentru a lucra în continuare cu el în alte suplimente. Tse tsikavo Kozhen z descrie importul de imagini scurte, analiza și recunoașterea documentelor, verificarea ortografică și salvarea rezultatelor prezentate de butoanele din bara de instrumente a programului, ceea ce simplifică foarte mult munca. Să aruncăm o privire la principalele etape ale lucrului cu programul FineReader pe versiunea aplicației FineReader 5.0 pentru Windows. PROGRAMUL FINEREADER Programul este foarte simplu în vikoristanni (mai ales că ajută la corectarea complexității sarcinii pe care a făcut-o). Panourile de instrumente sunt pornite pentru siguranța indicii de îmbinare, voi explica la rând recunoașterea tuturor elementelor de management și există un sistem dovidkova exhaustiv. După lansarea programului FineReader (Start / Programe / ABBYY FineReader), apare ecranul principal (fig. 9.1) al programului. În partea de sus a ferestrei Head există un meniu de sistem, sub acesta este o bară de instrumente. Programul are patru bare de instrumente: Standard, Format, Imagine și Scan & Read. Puteți activa sau dezactiva afișarea barelor de instrumente prin meniul View / Toolbars sau pentru ajutorul meniului contextual, așa cum se arată făcând clic butoanele din dreapta soareci pe unul dintre panourile instrumentale. Panourile care sunt vizibile pe ecran vor fi marcate cu o bifă. În partea de jos a ferestrei se află un panou de informații, pe care îl voi numi pe rând. Afișează informații despre program și operațiunile acestuia, precum și un scurt rezumat despre funcțiile elementelor și butoanelor din meniu. Ultimul spațiu al sediului central este ocupat din lume de apariția programelor de lucru:

5 aspectul mărfurilor și în depozit) w ^ computer Yakshcho vy kerivnik, apoi o problemă cu privire la furnizarea computerului intestinal la chelner, având în vedere un motiv întemeiat, motivul ar putea fi: tastarea textelor pentru s , atunci este firesc , auth: este posibil să existe un motiv pentru care să vină la ks I obov'yazkovo există computere, dar vor fi mirosuri de diferite lucruri. Așa că, să începem să ne chinuim la vânzare. Vezi computere Toate computerele pot fi distribuite pe NOT calculatoare mobile- kishenkovі bloc * calculatoare și computere de telefonie, computere de bază - universal Vіkna іz izobrazhennym storіnkі vzaєmopov'yazanі: două pokazayut zagalny i grand plan imagini, al treilea text de răzbunare. Dacă plasați cursorul pe un simbol într-o fereastră de text, programul va vedea automat detaliul relevant în prim plan. Dacă găsiți probleme cu recunoașterea FineReader, puteți cere o explicație, puteți modifica parametrii de scanare sau puteți specifica mai precis limba documentului. Fereastra de text vă permite să formatați și să editați documentul. În fereastra Prim-plan din spatele ecranelor, o imagine alb-negru este afișată independent, în ciuda faptului că imaginea în sine poate fi culoarea originală, gri sau alb-negru. Chiar dacă imaginea ta este colorată și vrei să fie afișată în fereastră. Pentru această fereastră Parametri (meniul Instrumente / opțiuni) din fila Vizualizare, selectați pictograma pentru opțiunea paletei alb-negru din fereastra Prim-plan (Fig. 9.2). Puteți modifica numărul de ferestre de pe ecran în același timp. Procesul de introducere a unui document într-un computer constă în etapele de scanare și recunoaștere a imaginii, după care se realizează verificarea și salvarea documentului electronic capturat.

6 9.5. CUM SĂ INTRODUCEȚI UN DOCUMENT ÎNTR-O SINGURĂ VORȚIE Înainte de a scana cob, trebuie să porniți scanerul, dacă este posibil, să porniți computerul și să porniți programul FineReader. În fața ta sunt programe vikno. Introduceți partea laterală în scaner, așa cum doriți să o recunoașteți, faceți clic pe săgeata din dreapta de pe butonul Scan & Read 3 s \\ - în meniu, selectați elementul Scan & Read Mag. Programul solicită un mod special Scan & Read, când întregul proces de scanare este însoțit de solicitări de sistem (Fig. 9.3). Meister Scan & Read vă permite să scanați și să recunoașteți o parte sau să recunoașteți și să recunoașteți o imagine grafică. În prima etapă, scanerul joacă rolul „ochiului” computerului dumneavoastră în procesul de editare a imaginii, nimic altceva, cum ar fi un set de pete negre, albe sau de culoare, o imagine, editorul nu poate . FineReader interoperează cu scanerul prin drivere standard, ceea ce asigură că complexitatea aproape tuturor scanerelor moderne este sigură. Pentru a scana o imagine a unui document, puneți-o pe partea laterală a scanerului cu text sau o carte și apăsați butonul Scanare sau, în meniul Fișier, selectați elementul Scanare. După o oră în fereastra principală a programului FineReader, va apărea fereastra Imagine cu „fotografie” feței introduse în scaner. Yak_st rozp_znavannya bogat în ce să mintă, de fapt, naskolki imagine granat luat în timpul scanării, care se realizează prin setarea parametrilor principali de scanare, tipul imaginii, dimensiunea clădirii și luminozitatea (Fig. 9.4). Scanarea într-un tip de imagine gri (256 de gradări) este modul optim pentru sistemul de recunoaștere, iar selecția luminozității este setată automat. Tipul de imagine alb-negru asigură un nivel mai ridicat de claritate a scanării, dar, în același timp, se utilizează o parte din informațiile despre litere, ceea ce poate duce la o îmbunătățire a calității recunoașterii pe documente de mediu și scăzut. claritate unul față de celălalt. Dacă doriți ca elementele de culoare (imagini, culoarea literei și fundal) să apară în documentul pentru a fi transferate în documentul electronic pentru a salva culoarea, trebuie să selectați tipul de culoare al imaginii. În alte cazuri, selectați un tip de imagine gri pentru textele cu un font mai mic (9 sau mai puține puncte) puncte pe inch. Pentru majoritatea valorilor la scanare, este adecvată o valoare medie a luminozității de 50% și numai pe anumite documente atunci când scanați în modul alb-negru, poate fi necesară o ajustare suplimentară a parametrilor de luminozitate. Pentru confortul scanării unui număr mare de părți în programul de transfer, există un mod special Scanați un număr de părți. Vă permitem să scanați numărul de pagini dintr-un ciclu, apoi le vom recunoaște dintr-o singură mișcare și le vom salva în format invers. Chiar dacă nu ai scaner, poți recunoaște obiectele grafice în următoarele formate: BMP, PCX, JPEG, TIFF, PNG. Se știe că poate fi foarte „încețoșat”, astfel încât să poți răzbuna o mulțime de pete ondulate, care au fost blamate ca urmare a scanării unui document de o calitate medie sau urâtă. Pentru a modifica cantitatea de pete ondulate, puteți accelera opțiunea Șterge aspectul neclarității din meniul Imagine. Un număr de Nalastuvan este capabil să facă un botez în fața scanării scannanului în miei este capabil să în programele programului de ziconnya, curățarea yogo VID „SMITTYA”, orientări automate la textul de pe zone / parametrii privind așezarea scannovanny / vidkritte sabotage / vydkritte

7 De asemenea, puteți modifica imaginea color sau imaginea gri (până la 100 dpi), ceea ce vă permite să modificați foarte mult dimensiunea pachetului pentru dimensiunea imaginii, reducând luminozitatea imaginii. Când recunoaște imaginea, mama se face vinovată de o orientare standard, adică textul este vinovat că a fost citit fiarei în jos, iar rândurile vinovaților sunt orizontale. Când blocați programul, când îl recunoașteți, acesta va afișa și corecta automat orientarea imaginii și, de asemenea, puteți roti imaginea manual. Când scanarea imaginii este finalizată, aceasta va fi inclusă la sfârșitul pachetului, deoarece opțiunea Solicitați numărul lateral al datei de adăugare a її la pachet nu este activă, iar pictograma acesteia va fi afișată pe panoul pachetului ( panoul de afișare este vertical pe ecran). Dacă dați clic cu mouse-ul pe această pictogramă, puteți face clic pe toate ferestrele FineReader, cu care spațiu principal de pe ecran veți ocupa fereastra de imagine și text, în partea stângă a imaginii imaginea este extinsă, iar în partea din dreapta textul va fi cunoscut. Pielea celor două părți ale ferestrei de cap este furnizată de program cu instrumente standard de control al scării, iar vizualizarea ferestrei de imagine este, de asemenea, mică. Pentru a-l admira cu respect, apoi pe partea imaginii poți desena un mic cadru punctat cu o lupă. Acea parte a imaginii, parcă ar fi pus-o într-un cadru, apare la începutul marelui plan. Faceți clic cu mouse-ul pe partea melodiei din imagine pentru a muta centrul zonei mai mari în locul indicat. ANALIZA ASPECTULUI LATERAL Persh nizh FineReader să înceapă înainte ca textul să fie recunoscut, este responsabilitatea „nobilimii”, deoarece aceleași galere sunt responsabile de recunoaștere, deoarece rândurile sunt aranjate. Când este setată opțiunea implicită, orientarea textului va fi setată automat, deși este posibil să se schimbe manual orientarea imaginii afișate. Vizualizarea zonelor de recunoaștere a textului depășește două sarcini: în primul rând, în blocuri, se pot vedea tabele și micuții care nu permit recunoașterea; într-un alt mod, vizualizarea clară a blocurilor vă permite să salvați aspectul primei pagini cât mai corect posibil atunci când transferați documentul recunoscut în addendu-urile corespunzătoare (cum ar fi MS Word și Adobe Acrobat). Apoi, apăsând butonul Recunoaște, cu toate părțile diferite ale imaginii noastre, pentru a curăța textul, tabelele sau micuții, acestea au apărut înconjurate de rame de diferite culori și marcate cu numere în pielea cadrului. Culoarea este folosită pentru a identifica tipul de bloc în setările standard: culoare verde pentru text, culoare roșie pentru tipărituri mici și culoare albastră pentru tabele. Codul de culoare poate fi schimbat dacă îl schimbați. Blocurile sunt luate în cadrele complotului imaginii. Blocurile sunt văzute pentru a afișa programele, precum fișierele de pe partea scanată, este necesar să le recunoașteți într-o anumită ordine. De asemenea, potrivit acestora, nu există nicio formalizare a laturii. La procesarea unei imagini se văd blocuri de tipuri ofensive: zonă de recunoaștere, text, tabel, imagine și cod de bare (doar pentru versiunea Office). Începeți analiza automată a aspectului paginii pentru a fi procesată corect, proteinele ar trebui să fie corectate de FineReader. De cele mai multe ori, este necesar, deoarece este necesar să recunoaștem doar o parte din text, ascunsă pe lateral, altfel nu toți cei mici ar trebui să fie incluși în documentul final. Uneori este posibil să editați aspectul blocurilor tabulare, fragmentele tabelelor par prea pliabile pentru structura lor. Din alt motiv, felul în care layout-ul este încurcat, aspectul este mic, astfel încât textul poate fi șters, de exemplu, grafica cu semnăturile axelor. În astfel de moduri, FineReader vede textul și vede semnătura ca pe un bloc de text, blocând graficul în sine fără respect sau văzându-l ca pe cei mici, indiferent dacă face parte din el.

8 Soluțiile naturale ale problemei vor vedea întreaga diagramă ca un bebeluș fără a recunoaște semnăturile. Tip mai specific de editare manuală a aspectului - pliere formule matematice sau chimice. Formatul intern al textului în FineReader este încă apropiat de formatul RTF, deci nu poate fi procesat corect cu textul, nu îl punem pe rând (ele fac simboluri și litere superscript). Când lucrați cu documente, pentru a scrie astfel de formule, le puteți vedea ca pe cei mici. Ei bine, am zovsіm okremo să fac față originalului murdar. FineReader este conștient de dificultățile naturale atunci când vede un aspect inexact pe imagini inexacte, ceea ce elimină o mulțime de elemente terțe. Zokrema, FineReader nu-i plac comentariile scrise de mână în marginile originalului, cioburi reușesc să vadă acolo simbolurile familiare, să vadă ^ ca un bloc de text și să-l recunoască, ceea ce distruge structura textului principal. Multe grațieri similare pot fi corectate singure în stadiul de lucru cu un aspect, cioburi sunt mai ușor de creat, iar textul pregătit poate fi editat cu ușurință. Puteți schimba forma blocurilor de bază trăgând mouse-ul de marginile acestuia. Schimbarea tipului blocului permite meniul „splicing”, care apare după ce faceți clic cu mouse-ul pe pictograma din colțul blocului, care indică tipul acestuia. Pentru o editare mai pliabilă a aspectului, există panouri de instrumente, roztashovanі zlіva vіd vіkna izobrazhennia. Acestea vă permit să pictați blocuri noi de un anumit tip, să adăugați sau să vedeți o parte a blocului, dacă doriți să vedeți blocul, puteți folosi și ajutorul tastaturii pentru a apăsa tasta după ce l-ați văzut. De asemenea, cu analiza automată a aspectului laturilor, imaginile originale sunt împărțite corect în blocuri. Inexactitățile, pe care programul le permite încă, pot fi corectate cu ușurință folosind bara de instrumente de ajutor. RECUNOAȘTEREA TEXTULUI După crearea aspectului și editarea, puteți trece la recunoaștere. Sarcina recunoașterii este de a converti imaginea scanată în text, având grijă de designul lateral. În primul rând, de dragul de a urmări recunoașterea limbii, chiar și FineReader acceptă mai mult de o sută de limbi. Mova, pe care se va efectua recunoașterea, este selectat în bara de instrumente principală. Crimeea la original, modulul de recunoaștere a vrakhovu și tipul celuilalt, care este atribuit automat blocării, dar dacă este necesar, îl puteți introduce manual. Când recunoașteți texte care sunt comandate pe o imprimantă matriceală în modul negru sau pe o altă mașină, puteți obține o calitate mai bună a recunoașterii setând tipul corect pentru un prieten. Există două tipuri specifice de prieten: imprimantă matricială și tipul de imprimantă (Service / Parametri / Tip de prieten). Simbolurile, gravate pe o imprimantă cu matrice de puncte, sunt compuse din patru puncte, uneori bine amintite ca fiind desenate pe ochi, iar simbolurile unei mașini de scris Drukarska, de regulă, sunt de aceeași lățime (monospațiate). Este responsabilitatea FineReader de a-l despăgubi pe FineReader atunci când îl recunoaște. Pe fonturile native Druk, tipul Druk este responsabil pentru unele dintre setările din Auto.

9 REPARAREA ORTOGRAFII ȘI SALVAREA REZULTATELOR LUCRĂRII Modulul de recunoaștere analizează nu numai câteva simboluri, ci și întregul cuvânt, vikoristovuyuchi în același timp în vocabular. În plus, acest modul are un rang special care desemnează simboluri „incomplet recunoscute”. Lucrarea cu cuvinte, sisteme necunoscute și cu simboluri nerecunoscute este inclusă în modulul de verificare ortografică. Câștig este apelat de butonul Ortografie inversă. Pe fig. 9.5 Verificați ortografia FineReader la locul de muncă. Dacă doriți să afișați opțiuni, trebuie să selectați una dintre ele și să apăsați butonul Înlocuire. Puteți corecta iertare chiar în fereastra lui Speller, sau puteți elimina cuvântul, așa cum este, este mai corect, dacă nu cunoașteți cuvântul lui Speller, și apoi rapid cu butonul Skip. Tot textul de cunoștințe poate fi văzut în textul principal al programului. Vono este un editor de text neîndemânatic care vă permite să schimbați în mod liber fontul fontului și celălalt nume. Până atunci, în secolul următor, simbolurile vor fi marcate color. După finalizarea verificării ortografice, selectați formatul în care să salvați rezultatele (butonul Salvare), de exemplu RTF, DOC, PDF, HTML, DBF, XLS (Fig. 9.6). După cum puteți vedea din lista plasată, FineReader vă permite să transferați rezultatele recunoașterii practic într-o gamă largă de aplicații, precum MS Word, MS Excel, precum și să introduceți automat textul pentru publicare pe Web și pentru umplerea bazelor de date. O astfel de versatilitate pare uneori pur și simplu de neînlocuit.


Sisteme optice de recunoaștere a caracterelor. Practic stagnantă. Cu privire la aplicarea programului FineReader Vikonala student 111gr Asmalovskaya I.P. Aprilie 2014 Necesitatea sistemelor de recunoaștere a caracterelor

Lucrări de laborator 6 TEMA: Sistem optic de recunoaștere a simbolurilor PUTEREA INIȚIALĂ: 1. Zagalni vіdomostі despre sistemul de recunoaștere optică a caracterelor. Bare de instrumente și meniuri. 2. Otrimannia

Garanția corespondentului Introducere ... 1 NOTE IMPORTANTE ... 1 Informații oficiale ... 2 Instalare și configurare ... 3 Suport de sistem... 3 Instalare ... 3 Activare ... 6 Actualizare automată ...

Lecție introductivă Tema: Sisteme de recunoaștere optică a documentelor. Lucrare practică 4 „Scanarea unei lucrări și recunoașterea unui document text electronic”. Vor fi prezenti: - uchnі: Berezhnov

În loc de ajutorul Microsoft Aspectul de modă veche al programelor Microsoft este actualizat în mod regulat în Excel 2003, iar ker_vnitstvo poklikane accelerează familiarizarea cu noua versiune a programului. citeste dane

INSTALARE ȘI LICENȚARE RasterID 3 CSoft Development 2010 Modificare Instalare RasterID ... 3 Suport de sistem ... 3 Protecție software și hardware ... 3 Instalare RasterID ... 3 Licențiere

Lucrări de laborator 12 TEMA: „Sisteme de introducere în masă a documentelor pe hârtie” Meta lucru: să stăpânească tehnologia de scanare și recunoaștere a documentelor text. Capacitatea teoretică a celei mai importante părți a electronicului

SERVICIUL ADMINISTRATORULUI ABBYY MONITORING PENTRU ABBYY HEALTH CARE Monitorizare ABBYY 2017 ABBYY. Toate drepturile rezervate. Ajutor danez pentru a prelua informații despre platforma de monitorizare ABBYY

MINISTERUL STUDIILOR ȘI ȘTIINȚEI DIN UCRAINA UNIVERSITATEA TEHNOLOGICĂ DE STAT SKHIDNO-SIBERIANĂ Centrul regional Buryat al Federației Educației pe Internet

1. Inserarea și crearea tabelelor în Word 2007 Tabelele Word sunt oprite pentru structură în locul lateralului. În plus, tabelele sunt vikorate pentru calcul. Cuvântul câștigă tehnologia de inserare și pliere

Lucrul cu ABBYY FineReader Bank 7 ABBYY 2013 Procesarea documentelor bancare Procesarea documentelor în ABBYY FineReader Bank constă în mai multe etape:

Numirea de către programul Automatizarea tuturor tipurilor de texte. Funcții de creare, editare, formatare, salvare, conversie și afișare pentru alții. Editor de text profesional Word2007,

Numirea de către programul Automatizarea tuturor tipurilor de texte. Funcții de creare, editare, formatare, salvare, conversie și afișare pentru alții. Editor de text profesional Word 2007,

Lecția 1: Interfața Excel * Versiunea 2010 * 1.0 Introducere Datele în Excel sunt sortate în „mijloc”, ca și cum în propria lor linie coloanele și rândurile sunt decontate. Acestea ne ajută să înțelegem mai bine aceste date și să permitem

O.V. Spiridonov ROBOT ÎN MICROSOFT WORD 2010 Curs 1. Interfața Microsoft Word 2010 Curs pentru a afla despre interfața Microsoft Word 2010. Prezentarea principalelor elemente ale interfeței. Respect deosebit

Lucrul cu procesorul de foi de calcul Microsoft Excel

LUCRU CU DOCUMENTUL ÎN WORD 2010 Retailerul a făcut câteva modificări la Microsoft Office Word 2010, deși numele interfeței yogo sunt ușor diferite în Word 2007.

Lucrați cu șabloane de documente standard Curriculum vitae Tehnologii cognitive Moscova, 2015 2 REZUMAT De cine aveți nevoie pentru a crea un document despre cotație în complexul software „E1 Euphrates”

TELEVIZOR. Glotova Introducerile metodice pentru munca practică și independentă au fost împărțite Fundamentele muncii cu suita de birou OpenOffice.org 3.2 Partea 6 Istoria OpenOffice.org. Platforme și instrumente de sistem

Widget Servicii Web pentru scanarea pe măsură ce mergeți (Windows Vista SP2 sau mai vechi, Windows 7 și Windows 8) Protocolul Servicii Web permite koristuwacham Windows Vista (cu pachet

Întreținerea manualului de service Introducere ... 1 NOTE IMPORTANTE ... 1 Informații oficiale ... 3 Instalare și configurare ... 5 Asistență sistem ... 5 Instalare ... 5 Activare ... 7 Actualizare automată ...

Un scurt ajutor al unui koristuvach Acest scurt ajutor vă va ajuta să instalați suplimentul Readiris TM și să începeți să lucrați cu el. Div. Rapoarte despre toate posibilitățile Readiris TM în fișierul de finalizare

Ajutor scurt Copiere Copiere Copii Ştergere Copiere accelerată în jos pe panta 2 Verificaţi direct dacă există hârtie înainte ca documentul să fie încărcat în ADF. Notă. mergi mai departe

Completarea formularului cu programul StForm. 1.1 Lansare. Scenarii de lucru Pentru a rula programul calculator local accesați meniul Start -\u003e NIPIstatinform -\u003e Statistical Forms (Enterprise). Vikno principal

2.4.2. Document Druk Înainte de a edita tabelul, este necesar să setați parametrii laturii din spatele filei suplimentare „Aspect lateral”. Parametri laterali Setează orientarea și dimensiunea arcului de hârtie, scara

În loc de ajutorul Microsoft Aspectul de modă veche al Microsoft OneNote 2010 este revizuit în mod regulat de OneNote 2007 și merită apelat pentru a accelera familiarizarea cu noua versiune a programului.

Microsoft Office Word este o aplicație populară pentru crearea și editarea documentelor text, deoarece nu există posibilități pentru un sistem de vizualizare pe desktop pentru a lucra cu texte.

ABBYY FineReader 14 Abi Production LLC, 2017. Toate drepturile rezervate. Informațiile conținute în acest document pot fi modificate fără notificare prealabilă și ABBYY

Manager de bibliotecă de componente standard CSoft Development, 2009. Toate drepturile rezervate Copyright Standarde Manager de bibliotecă de componente ... 2 Notă de siguranță ... 4 Lansarea Manager de bibliotecă

În loc de acest ajutor, aspectul vechi al programului Microsoft Word 2010 este exact același ca în Word 2003, iar ker_vnitstvo poklikane accelerează familiarizarea cu noua versiune a programului. citeste dane

Un scurt ghid de utilizare a sistemului de editare pentru site 1. Introducere ... 3 2. Cunoașterea principalelor elemente ale sistemului de editare ... 4 3. Panoul de control pentru comenzile principale ...

SISTEMUL DE INFORMAȚII SUPUTNIKOVA-POSHUKOVA Reef GSM 3000 Descrierea programului pentru determinarea locației mașinii ZMIST Peredmova ............................. .......................................................... ...

Ocupație practică 12 Lucrul cu un editor de text, inserarea obiectelor de la disciplina de bază „Informatică și TIC” Tematica: Înțelegerea sistemelor informaționale și automatizarea proceselor informaționale. meta:

TEXTE ONLINE - REDACTORI Vikonal: Beloborodova Maria LU-23 2014 TEXT buv i є PORTAȚIE TRADIȚIONALE

Lucrări de laborator 4 1. TEMA: „Îmbunătățirea procesorului de text Microsoft Word” 2. METODA COMPLETĂ DE LUCRU: faceți primii pași pentru îmbunătățirea editorului de text; familiarizarea cu elementele de rând

1 Programul recunoscut „Auzul” este recunoscut pentru procesarea, salvarea și afișarea pentru alte rezultate de obstrucție audiometrică, otrimani pe audiometrul AA-02 și obstem timpanometric, otrimani

Instrucțiuni pentru site-ul web al departamentului de Culturologie și Sociologie (Partea 2 „editor site web”) 1 Schimbați 1 Interfața editorului, ... 3 2 Schimbați dimensiunea editorului, ... 4 3 Bara de instrumente ...

Primiți un loc de muncă cu un instrument V_drіzok 1 Meta lucru: Sarcina 1. Robot 7 PRIIOMI ROBOTI CU UN INSTRUMENT CUT Invenția robotului deyaky priyomіv cu un instrument Vіdrіzok, prin metode de inducere și îndepărtare a vіdrіzkіv.

În loc de ajutorul Microsoft Aspectul vechi al programului Microsoft PowerPoint 2010 este exact același cu PowerPoint 2003 și merită să suni pentru a-ți grăbi cunoașterea cu noua versiune a programului.

Vmіst tskogo sibnik Programul vechi Microsoft Access 2010 іstotno vіdrіznyаєєєєі vіd Access 2003 și tse kerіvnitstvo poklikane accelerează familiarizarea cu noua versiune a programului. citeste dane

Stream scanning 1. SCHEMA TEHNOLOGICĂ DE LUCRU CU SISTEMUL „stream scanning” ... 3 2. ALTE CODURI DE BARE ... 3 3. PREGĂTIREA DOCUMENTELOR PENTRU SCANARE ...

Lucrări practice 15 Introducere, editare, formatare și salvare a textului. Liste meta-robotice: învață elementele de bază ale lucrului cu un document text, învață tehnici de editare de bază

Gestionarea contului în sistemul www.artsofte-lite.ru 1.0 I. Structura de gestionare a conturilor 3 1. Conectați-vă la sistem. 3 2. Încântarea părții logo 4 3. Partea cu statistici text.

Finereader 7 descărcare gratuită versiune nouă \u003e\u003e\u003e Finereader 7 descărcare gratuită versiune nouă Finereader 7 descărcare gratuită versiune nouă Lucrare fără costuri Navigați la cea care a fost folosită anterior cu ABBYY FineReader,

Despre tabelul de presă În Microsoft Excel, puteți edita toate datele foii sau doar intervalul de cântec al listelor. Cu un alt tabel grozav pe părțile laterale, puteți transfera numele rândurilor și coloanelor meselor

AiTiViGroup Manipulare pe roboți cu utilitarul ArpEdit Versiunea 1.4 Moscova, 2014 Zmist ZMIST ta ... 2 1 INTRODUCERE ... 4 1.1 Recunoașterea documentului ... 4 1.2 Recunoașterea utilitarului „ArpEdit” ... 4 2

Creațiile de pagini web MS Word pot fi etichetate pentru crearea paginilor web. Fără îndoială, dezvoltarea paginilor web este mult mai bună cu ajutorul unor editori speciali (de exemplu, Microsoft FrontPage),

Robot de laborator 8 Robot cu grafică. Crearea primitivelor grafice Partea teoretică Adăugarea unei imagini într-un fișier Când creați un document text cu ajutorul OpenOffice.org Writer, adesea

Curriculum bazat pe vikoristan editor vizualіnformatsiynogo napovnennya site http://pzi.ru P'yatigorsk plante Impuls. P'yatigorsk 2011 Schimbați 1 Interfața editorului, ... 3 2 Schimbați dimensiunea editorului ... 4

Lucrări de laborator 2 Forme ale bazei de date „apelator telefonic” În același timp, deoarece tabelele sunt folosite pentru salvarea datelor, formularele sunt folosite pentru a le afișa și manipula în tabele. forma є

2014 Electronics for Imaging. Informațiile din acest document sunt extinse prin Avizul juridic cu privire la oricare dintre acestea. Marți, 23. 2014 Zmist 3 Zmist ... 5 Acces la program ... 5

Robot de laborator 1 „Biroul Merezhevі. Editarea completă a documentelor „Partea 1. Introducere

Capitolul 3 Sistemul de control Access 2007

Capitolul 1 baza de informatii Zagalni priyomi ta

Lucrări de laborator 2 COLABORAREA FORMULARELOR ÎN ACCES MS Scopurile lucrării: dezvoltarea principalelor metode de creare a formularelor folosind MS Access; crearea de câmpuri de numărare în formularele MS Access. Modificarea minimului teoretic.

LUCRAZĂ ÎN PROGRAME LOCOBOOK Panfilov E.O. Vikladach de la Departamentul de Limbă și Științe Umaniste Ruse, Departamentul de Educație Umanitară a Studenților în Inginerie și Direcții Tehnice Igni, certificator și curator

Securitate software VISION Minte tehnologică 4 - Întreținere 4 - Ajutor sistem 4 - Instalare software 4 Descrierea software-ului 8 - Interfață

Software-ul universal DpuScan 4.21 pentru scanarea color și alb-negru DpuScan 4.21 este mai greu program zasib, Desemnat pentru scanare și permis să fie procesat

Curs-1. INTRODUCERE FUNCȚII, DEPOZIT ȘI ELEMENTE DE BAZĂ ALE INTERFEȚEI SOFTWARE-ULUI APLICAT PENTRU PRELUCRAREA INFORMAȚIILOR DILOVOY Nutriție: 1. Conceptul de securitate software și clasificare yoga

Crearea și editarea unui document text în Microsoft Word 2003 Un editor de text este un program care vă permite să creați un document cu date text. Procesorul de text este un program pentru introducerea,

Lucrează în SUFD. interfata. Interfața SUFD poate fi împărțită în decalcomanii ale elementelor principale. Partea din stânga (1) are un panou de navigare. În partea de sus a navigatorului există o listă de disponibile

BIBLIOTECA NAȚIONALĂ A REPUBLICII KOMI PRACTICĂ POSIBNIK Digitizare, prelucrare, machetare și înregistrare pe CD VIDAN Defalcat: Leonhard K.I.

Sisteme de gestionare a bazelor de date Microsoft Access 2003 Adăugarea Microsoft Access la prețul sistemului de gestionare a bazelor de date (DBMS), recunoscut pentru lucru pe un computer personal autonom.

Generarea de software OCR

Înainte de a începe să ne uităm la sistemele OCR, să începem prin a dori să le clasificăm minim pentru claritate. În acest moment există sisteme OCR, precum și sisteme ICR. Mai simplu spus, esența puterilor dintre ele, puteți înțelege că sistemele ICR sunt următoarea generație în dezvoltarea sistemelor OCR. ICR a etichetat mai activ și mai serios capacitatea de inteligență a piesei, zocrema, sistemele ICR sunt adesea etichetate pentru recunoașterea textelor scrise de mână, fonturilor decorative inconsistente și, de asemenea, ca cel mai frumos fund, stratul de bază al acelorași sisteme pentru protecția diferitelor spam captcha robotizate (captcha). Al treilea, încă doar nivelul teoretic al calității recunoașterii textului, adică IWR, în care nu numai caracterele/punctele sunt citite și recunoscute, ci frazele sunt citite și recunoscute ca întreg.

Іsnuє kіlka sisteme, yakі zarakhovuyut-te până la categoria ICR. Tse, persh for everything, FineReader, OmniPage Professional, Readiris Corporate, Type Reader Desktop. Să le comparăm pe toate și să aruncăm o privire asupra principalelor alternative.

Vіdomi vіtchiznyany produktov

În același timp, există peste 100 de motoare OCR cele mai manipulative din lume, am încercat să aruncăm o privire și să comparăm aici doar pentru a găsi câteva dintre ele. Printre acestea, există și programe OCR anonime și gratuite pentru colegii de primire, dar au și cea mai scăzută calitate de recunoaștere a omologilor lor comerciali. Pentru o afacere de succes (și alte afaceri serioase de zi cu zi) este mai bine să vă concentrați pe sistemele comerciale de clasă ICR.

 

 

Tse tsikavo: