Главная страница
Контакты

    Басты бет


Құжатты тану жүйелері

жүктеу 24.59 Kb.



жүктеу 24.59 Kb.
Дата12.05.2017
өлшемі24.59 Kb.

Құжатты тану жүйелері



Құжатты тану жүйелері

Сканердің көмегімен мәтіннің бейнесін графикалық файл ретінде қабылдап алсақ жеткілікті. Әлпетте, мұндай мәтінмен жұмыс жасау мүмкін емес, кез келген сканерленген бейне сияқты, мәтіні бар бет графикалық файл – жай ғана бейне болып ұсынылады. Мәтінді оқыға және баспаға шығаруға болады, алайда өңдеуге және форматтауға болмайды. Құжатты мәтіндік файл түрінде алу үшін, мәтінді тану жұмысыны жүргізу қажет, яғни, бейненің графикалық элементтерін мәтіндік символдардың тізбегіне айналдыру қажет.

Графика - (гр. graphein, тырнау, жазу, салу дегеннен) Жазуда қолданылатын таңбалардың (әріп және тыныс белгілерінін) жиынтығы. Жазу танбалары жүйесі мен тілдін фонетикалық жүйесінің ара қатынасын, байланысын білдіреді.

Символ (грекше symbolon - танымдық белгі, таңба, рәміз, пернелеу) лингвистика, логика, математика ғылымдарында таңба ұғымын береді; өнерде, философияда нәрсенің, құбылыстың қасиетін, сыр-сипатын бейнелеп, астарлап білдіретін әмбебап эстетикалық категория.

Мәтіндік файл Мәтіндік файл (текстовый файл; text file) - құрамында құрылымдалмаған түрдегі ақпарат мәтіні бар файл; әріптерден, цифрлардан және тыныс белгілері мен арнайы символдардан құрастырылған қарапайым мәтіндік файл; онда каретканы қайтару мен келесі жолға ауысудан өзге басқару (пішімдеу) таңбалары болмайды.

Графикалық бейнелерді мәтіге айналдыру үшін арнайы мәтінді тану программалары бар (Optical Character Recognition - OCR).

Қазіргі заманғы OCR көп әрекет жасай білуі керек: тек ғана терілген мәтінді танымай, сонымен қатар, қолдан жазылған жазбаларды да тану білуі керек.

Жазба, математикада - қисық сызықтың жазбасы - ұзындығы берілген қисық сызықтың ұзындығына тең болатын түзу кесіндісі. Мұндай кесіндіні іздеу қисық сызықты түзулеу деп аталады. Қисық сызықтың жазбасы деп кейде оның эвольвентасы түсініледі.

Құрамында бірнеше тілде жазылған мәтінді дұрыс тани білу, кестелерді дұрыс тану да жатады. Және де ең бастысы – тек ғана терілген мәтінді ғана емес, шынайылықтан алыс жатқан мәтінді тани білуі керек. Мысалы, сарғайып қалған газеттегі кеспелерді немесе үшінші машинажазбалардың көшірмесін тану сияқтылар. Сонымен қатар, алынған нәтижені ұтымды мәтіндік редаторда(ms word) да сақтау да аса маңызды болған жөн.

Яғни, терілген мәтіннің электронды, өңдеуге дайын нұсқасын алу үшін, OCR программасында жеке амалдардан тұратын тізбекті орындау керек.

Алдымен, беттегі мәтіннің орналасу құрылымын анықтау қажет: бағандарды, кестелерді, бейнелерді ерекшелеу.

Құрылым (лат. structura - түзіліс, орналасу, тәртіп) - объектінің тұтастығын, тепе-теңдігі мен негізгі қасиеттерінің сақталуын қамтамасыз ететін байланыстар мен қатынастар жиынтығы. Құрылым жүйе және элемент ұғымдарымен тығыз байланысты.

Ары қарай ерекшеленген фрагменттерді мәтінге айналдыру қажет.

Ең көп таралған оптикалық тану жүйелері ішінде мысалы, ABBYY FineReader и CuneiForm от Cognitive.

Салық декларацияларын толтыруда, халықты тіркеуді жүргізуде, т.б. түрлі өрістері бар бланктер қолданылады. Қолжазбалалы мәтіндер осы оптикалық тану жүйлереі арқылы танылып, компьютер базасына енгізіледі.

Қолжазбаларды тану жүйелері. Apple фирмасымен 1990 жылы шығарылған алғаш қалта компьютерлерімен қатар, қолжазбаларды тану жүйелері құрыла бастады. Мұндай жүйелер қалта компьютерлері экранына арнайы қаламмен жазылған мәтінді мәтіндік компьютерлік құжатқа айналдырады.

Қалта компьютері Қалта компьютері (орыс. Карманный персональный компьютер, коммуникатор, КПК, ағылш. Personal Digital Assistant, PDA - «жеке санды хатшы», және Handheld computer) - кең ауқымды мүмкіндіктері бар ықшам есептеу құрылғысы.

Мәтінді тану программаларын сканерді сатып алу кезінде немесе бөлек сатып алуға болады.

Ең танымал программасы ABBYY компаниясымен ұсынылған FineReader программасы.

FineReader – кез келген шрифтта терілген мәтінді тани алады. Прогрмма 176 тілдегі мәтінді дұрыс аудара алады.

FineReader программасының барлық нұсқаларының интерфейстері қарапайым, қолдануға түсінікті. Тану процесін бастау үшін, құрал –саймандар тақтасынан , Scan & Read батырмасына басу жеткілікті. Қалған амалдарды программа өзі автоматты түрде аяқтайды. Қолданушыға тек сканерлеудің параметрлерін ғана таңдау қалады

FineReader сканермен TWAIN-интерфейсі арқылы жұмыс істейді. Бұл бірегей халықаралық стандарт 1992 жылы компьютерге бейнені кірістіру үшін құрылғылармен байланыстыруды унификациялау мақсатында енгізілген.

(лат. unus - бір және facio - жасаймын) - бірыңғай мақсатқа пайдаланылатын объектілер санын тиімді түрде азайту. Унификация стандарттаудың тиімді және кең тараған әдісі. Оның негізгі мақсаты еңбек өнімділігін арттыру, өнімді өндіруге және пайдалануға жұмсалатын шығынды азайту, сапасын жоғарылату, бұйымдардың бір-бірін алмастыратындай болуын қамтамасыздандыру.

Мақсат - белгілі бір межеге қол жеткізуге бағытталған әрекеттің ой-санадағы көрінісі. Мақсат ойлау нәтижесінде болашақты алдын ала болжау арқылы туатын мұрат, ішкі қозғаушы күшті білдіреді. Мақсатқа жету үшін әр түрлі іс-әрекеттер мен қимылдар жасалады.

Тану сапасы көбінесе сканерлеу кезінде бейне қаншалықты жақсы алынғанына байланысты болады. Бейне сапасы сканерлеудің негізгі параметрлері арқылы орнатылады: бейне типі, кеңейтілімі және жарықтығы.

Сүр түсті сканерлеу тану жүйесі үшін оптималды режим болып табылады. Бұл режимде жарықтық автоматты түрге алынады. Егер сіз бейнедегі түрлі түсті элементтер электронды құжатқа сол күйінде берілсін десеңіз, онда сканерелеудің түсті типіне қою керек. Оптималды кеңейтілімі ретінде жай мәтін үшін 300 dpi және ұсақ шрифтісі бар мәтін үшін - 400-600 dpi кеңейтілімдер алынады.



Тану процесі аяқталған соң, FineReader программасы қолданушыға келесі нұсқаларды ұсынады:арық қарай сканерлеу және тану(көпбетті құжат үшін),немесе алынған нәтижесі белгілі бір мәтіндік форматтарда сақтау үшін, мысалы Microsoft Office-тан HTML-ге немесе PDF-ке.

Microsoft Corporation (/maɪkrəˌsɒft/) - дүниежүзіндегі ең ірі компаниялардың бірі. Бағдарламалық қамсыздандыру өндірісінің және сервер мен жеке компьютерлер үшін интернет технологияларды құруы мен қызметін көрсететін АҚШ-та тіркелген көпұлтаралық компания.

Немесе Word или Excel программасына өтіп, сол жерде өңдеу жұмыстарын жүргізу.


жүктеу 24.59 Kb.