Дата:   17.11.2017 г.
Время:
 
 
Профессионалам и любителям
ПРОСТО * ДОСТУПНО * ИНТЕРЕСНО
01796
Подписной
индекс
Опрос
Используете мобильный доступ в Интернет?
Погода
 
Архив - Файный чтец - удалой молодец - Журнал «Компьютер»
Файный чтец - удалой молодец
№ 3-4'2007     Владислав Демьянишин   сайт автора    Тема: Полезные программы     ( Прочитано 5771 раз )
 
ABBYY FineReader – совершенный инструмент для быстрого перевода печатных документов в электронную редактируемую форму. С помощью FineReader буквально за минуты газетные статьи, прайс-листы, договоры, письма или факсы можно сохранить в форматах TXT, MS Word, MS Excel, PDF, HTML или других текстовых редакторах или офисных приложениях.
ABBYY FineReader – на сегодня самая популярная система распознавания в СНГ. На мировом рынке за четыре года FineReader также добился значительных успехов, не только получив признание у профессионалов и прессы, но и заслужив любовь пользователей.
“В текущей версии FineReader вплотную приблизился к цели, которую мы ставили перед собой, когда еще только начинали заниматься разработкой OCR-систем: создать программу, которая способна не только точно распознать текст, но и сохранить макет документа при экспорте – шрифты, картинки, таблицы. Мы довольны результатом – FineReader демонстрирует лучшие характеристики, что подтверждается более 50 наградами, полученными в сравнительных тестах по всему миру за последние 50 месяцев. Особенно приятно, что FineReader столь популярен у простых пользователей, которые являются главными ценителями нашей программы. Мы работаем именно для них”, – сказал генеральный директор компании ABBYY Сергей Андреев.
 
Возможности системы ABBYY FineReader:
 
- Непревзойденная точность распознавания. Использование новых алгоритмов адаптивной бинаризации и фильтрации текстуры обеспечило повышение точности распознавания документов сложного дизайна. Теперь FineReader без труда справляется с текстами на цветном фоне, многоколоночными текстами, цветными шрифтами и т.д.
- Безупречное сохранение оформления документа. Улучшенная процедура анализа документа позволяет точно воспроизводить даже такие сложные элементы верстки, как картинки неправильной формы, обтекание картинок текстом, различные шрифты, таблицы
- Открытие PDF-файлов и сохранение в формате PDF. Работа с форматом PDF включает открытие PDF-файлов, распознавание, редактирование и сохранение, причем шрифты для сохранения многоязычных текстов уже встроены в программу.
- Полное сохранение оформления в формате HTML. Благодаря поддержке расширения CSS (Cascading Style Sheets) формата HTML FineReader абсолютно точно воссоздает оформление исходного документа при сохранении в HTML: колонки, картинки, шрифты, таблицы, – электронный документ будет точной копией бумажного.
- Многоколоночный WYSIWYG-редактор. В новой версии FineReader стало намного удобнее просматривать результаты распознавания: теперь в окне встроенного редактора колонки текста, таблицы и картинки отображаются точно так же, как они были расположены на исходном изображении. Это означает, что качество сохранения форматирования документа вы сможете проверить сразу, не дожидаясь экспорта документа в MS Word или веб-браузер.
- 177 языков распознавания
- Печать исходного изображения и распознанного текста.
- Настраиваемые панели инструментов
- Поддержка Windows XP и Windows 2000
 
FineReader полностью отвечает требованиям на совместимость с новыми операционными системами Microsoft.
 
Как дело было
 
Всё это можно прочесть в пресс-релизе на сайте компании. Проще говоря, данная программа позволяет с любого графического изображения таких форматов как BMP, JPG, PNG, PCX, TIFF, … на котором запечатлён отсканированный текст, распознать символы и воссоздать текст целиком в текстовом формате, пригодном для редактирования в любом текстовом процессоре, например, таком как MS Word.
Я бы ни в жисть не стал бы занимать у вас время на подобную тему, но, честно говоря, жизнь заставила. А дело было так. Моя любимая девушка открыла сайт, посвящённый комнатным растениям. Вернее, я открыл его для неё, а все необходимые материалы и веб-странички подготовила она. Она по части ботаники человек весьма продвинутый, так что по каждому цветку или пальме она нашлась что написать. Описала, таким образом, свыше 190 растений на своём сайте. Как по мне, так она проделала титанический труд. Но вот незадача, спустя год, когда народ прямо скажем повалил на её сайт сотнями в день, она решила добавить на сайт ещё несколько описаний цветов. Однако, описания она нашла в купленной недавно книге, а набирать вручную текст со страниц ей было не с руки.
 
Сканера нет – возьмите бубен!
 
Действительно, сканера под рукой не оказалось, да и тратиться на него не особо хотелось ради сканирования нескольких страниц текста. И тут я вспомнил, что месяц назад моя девушка приобрела цифровую фотокамеру Canon PowerShot A540. А что, ведь сканер слишком специфическое устройство, чтобы быть в каждом доме, в котором есть компьютер, да и цена хорошего сканера пока что чуть выше, чем хотелось бы, скажем, мне. К тому же эта хоть и не высокая, но довольно широкая бандурка занимала бы на моём компьютерном столе драгоценное место (я люблю простор). А цифровые фотокамеры завоёвывают всё больше поклонников и к тому же такое устройство уже есть под рукой.
Тогда я высказал идею, что если фотографировать страницы по частям в режиме макросъёмки, то, возможно, удастся распознать текст при помощи программы FineReader. Как говорится: мужик – не баба, сказал – сделал. В итоге, фотографируя с разрешением 2272x1704, и желательно при дневном свете без вспышки, поскольку вспышка создаёт блики отражения на белоснежной бумаге, удаётся получить весьма хороший материал для распознавания текста. При этом не страшно, если камера расположена чуть сбоку, а не над изображением. Но всё же лучше над изображением, чтобы угол съёмки был 90 градусов к снимаемой поверхности. Поскольку, фотокамера всё же не сканер, то рекомендую каждым снимком фиксировать не более 12 строк текста, как бы абзацами, и стараться не смазывать при съёмке. Иначе придётся дорабатывать полученный текст вручную.
 
Китайская грамота
 
И вот уже имеем готовые снимки. Запускаем FineReader, на панели инструментов жмём просто гигантскую кнопку Открыть, либо в меню Файл > Открыть PDF/изображение > выбираем сразу несколько снимков отснятого документа. Хе, прямо как шпиёны какие-то ;) В нашем случае это файлы IMG_1643.JPG, ..., IMG_1647.JPG . После этого сможем наблюдать на экране небольшое окошко с надписью “Идёт добавление в пакет”. Если необходимо прерваться, то созданный пакет можно сохранить на диск, чтобы потом вернуться к работе снова.
 
 
 
 
После того, как изображения добавлены в пакет, окно программы станет разделено на несколько фреймов. В левом вертикальном фрейме можно видеть загруженные изображения. Выбрав поочерёдно каждое изображение в левом фрейме, следует в центральном фрейме при нажатой левой клавише мыши выбрать нужный текст рамкой. Это удобно, если необходимо часть изображения исключить из процесса распознавания, поскольку на изображении могут находиться части иллюстраций отсканированных или отснятых страниц. Это немного сэкономит время распознавания.
Когда эта работа нами выполнена, можно приступать к распознаванию текста. Для этого жмём гигантскую кнопку Распознать > Распознать всё или в меню Процесс > Распознать > Распознать всё. Начинается процесс распознавания текста, проявляющийся в центральном фрейме выделением приятным зеленоватым цветом тех строк, которые были успешно распознаны, и красным и тёмно-синим, где возникли неоднозначности. Результат можно видеть на рисунке.
 
FineReader
 
Когда распознавание завершено, нажимаем гигантскую кнопку Сохранить > Мастер сохранения результатов или меню Файл > Сохранить результаты > Мастер сохранения результатов > Копировать в буфер обмена (для вставки в любой текстовый процессор) или Microsoft Word (для вставки в программу Word) и не забыть включить опцию Все страницы.
 
И ещё кое-что из ларца
 
В своём арсенале программа содержит некоторые, но весьма полезные инструменты по предварительной обработке изображений. Например, при необходимости можно развернуть изображение по часовой стрелке или против на угол 90 градусов через меню Изображение > Повернуть/Отразить изображение > Повернуть по часовой стрелке или Повернуть против часовой стрелки или Повернуть на 180 градусов. Последнее поворачивает по часовой стрелке на 180 градусов.
Довольно часто приходится сканировать изображение разворота книги, что приводит к тому, что на картинке отображаются две соседние страницы распознаваемого текста. Чтобы корректно распознать такой текст, необходимо разделить изображение на две страницы.
 
FineReader
 
Это можно сделать из меню Изображение > Разбить изображение > кнопка “Разбить на две страницы”, что выполняется автоматически и успешно, даже не приходится перетаскивать мышкой границу разбиения или кнопка “Добавить вертикальный разделитель” позволяет выполнить аналогичную операцию, но вручную.
 
Настройки
 
Все ниже упомянутые временные характеристики замерялись при установленном по умолчанию режиме “Тщательный”. Чтобы ускорить процесс распознавания, можно в меню Сервис > Опции > закладка “Распознать” указать режим распознавания “Быстрый”. При этом не будет лишним, если указать язык распознаваемого текста в меню Сервис > Опции > закладка “Распознать”, тогда программе будет легче и быстрее распознавать.
 
FineReader
 
Конечно же не могу не сказать о возможности бэкапа настроек. Об этом разработчик программы позаботился. В меню Сервис > Опции > закладка “Общие” кнопка “Сохранить опции” позволяет все установки сохранить в файл *.fbt, после чего при переустановке системы или программы можно восстановить все настройки, воспользовавшись кнопкой “Загрузить опции” (из той же закладки) всё из того же файла.
 
Теперь можем смело верстать недостающие веб-странички для нашего сайта.
Хочу выразить благодарность разработчикам программы FineReader за удобный и наглядный интерфейс. В нём практически невозможно заблудиться. А главное, можно легко и быстро выполнить работу.
Надо сказать, что на моём компьютере с конфигурацией Celeron 1700MHz/512Mb/WinXP добавление в пакет 5 изображений заняло 12 сек., а распознавание 94 сек. времени. Если предположить, что понадобилось бы “перегнать” книгу в 50 страниц на компьютер в цифровой вид, то понадобилось бы порядка 20 минут, что не так уж много. При этом надо учесть, что данные замеры времени справедливы для фотоснимков, на которых не так уж много текста. Отсюда вывод, что, имея сканер, работа может быть выполнена ещё быстрее, поскольку тогда на каждом изображении текст был бы освещён равномерно и был бы более чётким и в большом количестве. Это значит, что обрабатывать пришлось бы гораздо меньше изображений, а это в свою очередь положительно сказалось бы на времени выполнения работы.
Да, FineReader действительно удалой молодец и хороший помощник в офисных делах, да и в домашних тоже.
 

 
 
На главную страницу На предыдущую страницу На начало страницы
 
 
 
 
 
2009 - 2017 © СПД Зайцев А.Б.
Сайт является средством массовой информации.
При перепечатке и цитировании в печатных СМИ ссылка на журнал "Компьютер" обязательна.
При перепечатке и цитировании в Интернете обязательна активная гиперссылка на сайт Comput.com.ua, не закрытая для индексирования.
Украина онлайн Рейтинг@Mail.ru Рейтинг Сайтов YandeG