Языки распознавания abbyy finereader - Uchenik.top - научные работы и подготовка

Содержание

Полный набор технологий распознавания

ABBYY FineReader Engine — это полный набор технологий, которые позволяют распознавать печатный текст (OCR), рукопечатный текст (ICR), метки (OMR) и штрихкоды (OBR). ABBYY OCR поддерживает максимальное число языков распознавания, которые можно комбинировать. Ниже представлен список доступных технологий и варианты обработки документов.

Технология доступна для более чем 200 языков:

Технология доступна для более чем 120 языков:

Возможно распознавание рукопечатной информации на разных языках одновременно (многоязычный ICR).

Технология ABBYY OMR позволяет распознавать одиночные метки, группы меток, и метки, измененные вручную, например:

Режимы распознавания

Выбирайте режим распознавания, чтобы настраивать скорость и точность обработки. Пользователям доступны Normal, Fast и Balanced режимы OCR и ICR-распознавания.

Режим распознавания Normal

Наиболее точный режим для наилучшего качества распознавания. Рекомендован, если распознаваемая информация в дальнейшем будет использоваться для других целей или качество распознавания играет первостепенную роль.

Режим распознавания Fast

Предназначен для обработки больших объемов документов, когда приоритетной является скорость распознавания. Этот режим позволяет увеличить скорость обработки на 200-250%.

Режим распознавания Balanced

Устанавливает промежуточные значения параметров скорости и качества распознавания по сравнению с режимами Normal и Fast.

Полнотекстовое и зональное распознавание

Существуют два типа распознавания – полнотекстовое и зональное. Полнотекстовое распознавание использует технологию распознавания печатного текста (OCR) и применяется в сценарии конвертации документов. Зональное, то есть распознавание на уровне областей, использует не только OCR, но и технологию распознавания рукопечатного текста (ICR), а также другие технологии, которые могут быть востребованы для распознавания специфических данных, расположенных в той или иной области на документе.

В таблице указаны особенности использования каждого типа распознавания:

Спецификация	Полнотекстовое распознавание	Зональное распознавание
Где используется:	Конвертация документов, архивные сценарии	Распознавание областей
Анализ структуры документа:	Общий анализ структуры документа, анализ структуры бухгалтерских документов, анализ структуры документа для полнотекстового индексирования	Ручное указание областей для распознавания определенных блоков
Распознавание:	OCR с точностью 99%	OCR, ICR, OMR, распознавание штрихкодов с предопределенными типами и диапазоном значений данных позволяет достигнуть точности в 99,99%
Верификация:	Рекомендована для сценария переиспользования контента	Обязательна в большинстве случаев
Синтез:	Используется для воссоздания вида документа	Не используется
Экспорт результатов распознавания:	Файлы документов (RTF, DOC, PDF и пр.)	Экспорт в файлы XML или базу данных

Это базовый режим распознавания для самых разных задач, таких как:

Все эти задачи подразумевают распознавание всего текста на странице. Полученный текст может экспортироваться в виде простого текста или как готовый документ в заданном формате.

ABBYY FineReader Engine поддерживает распознавание на уровне областей (зональное распознавание), необходимое в таких бизнес-процессах, как ввод форм, классификация по ключевым словам, машинное зрение и роботизированная автоматизация процессов (RPA). К основным функциям относятся многоязыковое распознавание печатного (OCR) и рукопечатного текста (ICR), распознавание меток (OMR) и штрихкодов (OBR), а также целый ряд специальных возможностей, например:

Зональное распознавание также поддерживают специальные инструменты для разработчиков, среди которых Voting API и On-the-Fly Recognition Tuning.

Пользовательские языки

ABBYY FineReader Engine предоставляет API для создания и редактирования языков распознавания, создания копий уже заданных языков распознавания и их дальнейшего редактирования, добавления новых слов в пользовательские языки. Варианты применения:

Пользовательские эталоны

В большинстве случаев ABBYY FineReader Engine может успешно распознавать текст без предварительного обучения. Тем не менее, чтобы повысить качество распознавания декоративных и контурных шрифтов, может потребоваться обучение пользовательским эталонам.

Закажите эффективное решение задачи

Наши специалисты готовы подробно рассказать о технологиях и решениях компании ABBYY. Опишите задачи, которые вы хотите решить, и получите индивидуальное предложение с примерными сроками и ожидаемыми результатами.

Спасибо за интерес к продуктам компании ABBYY!

Ваш запрос находится в обработке. Наши специалисты свяжутся с вами в самое ближайшее время.

Источник

Если часть символов не удалось распознать

В процессе работы программа опирается на знание о языке, указанном в качестве языка документа. Если в документе много неестественных конструкций, например, артикулов, может оказаться, что язык распознавания не содержит часть символов, используемых в тексте. В этом случае возникают ошибки. Перед распознаванием подобного документа необходимо создать новый язык, который будет содержать все используемые в тексте символы. Вы так же можете объединить существующие языки в новую группу и при распознавании подключить именно их.

Как создать новый язык

Не подключать словарь к языку.

Используется словарь, поставляемый с программой.

Чтобы наполнить словарь или подключить старый пользовательский словарь или текстовый файл в ANSI-кодировке (слова должны быть разделены пробелами или другими символам, не включенными в алфавит), нажмите кнопку Свойства…

Замечание. При проверке орфографии словарные слова пользовательского языка не выделяются, если в тексте они встретились в том виде, в котором они заданы в словаре, или в стандартном виде: всеми маленькими, всеми большими буквами, с большой буквы.

Вы можете создать словарь пользовательского языка, используя регулярные выражения.

Подробнее см. в статье «Регулярные выражения».

В диалоге Дополнительные свойства языка вы можете указать:

Подробнее о выборе языка см. в статье «Языки документа».

По умолчанию пользовательский язык будет сохранен в папку документа FineReader. Вы также можете сохранить все пользовательские языки и эталоны в один файл в группе Пользовательские эталоны и языки на закладке Распознать диалога Настройки (меню Сервис>Настройки…).

Как создать новую группу языков

Если при распознавании текстов вы часто используете некоторое сочетание языков, для удобства можно объединить эти языки в группу.

В данном диалоге задайте имя группы и выберите подключенные языки.

Замечание. Вы можете указать символы, которые заведомо не встречаются в распознаваемом документе. Указание таких символов может существенно увеличить скорость и надежность распознавания. Для этого в диалоге Свойства группы языков нажмите кнопку Дополнительно… и в диалоге Дополнительные свойства группы языков введите соответствующие символы в поле Исключенные из распознавания символы.

Созданная группа появится в выпадающем списке Языки документа на главной панели инструментов.

По умолчанию пользовательская группа языков будет сохранена в папку документа FineReader. Вы также можете сохранить все пользовательские языки и эталоны в один файл в группе Пользовательские эталоны и языки на закладке Распознать диалога Настройки (меню Сервис>Настройки…).

Совет. Комбинацию языков вы можете указать непосредственно в выпадающем списке языков окна Страницы.

Источник

Параметры распознавания

Правильно установленные параметры распознавания помогут вам быстро получить качественный документ, пригодный для дальнейшего редактирования. Выбор параметров зависит не только от объема и сложности исходного документа, но и от того, как вы намерены использовать распознанный документ в дальнейшем. Вы можете указать следующие параметры:

Выбрать необходимые параметры вы можете на закладке Распознать диалога Настройки (меню Сервис>Настройки…).

Внимание! Распознавание страниц, добавленных в документ ABBYY FineReader, выполняется в автоматическом режиме с текущими настройками программы. Вы можете отключить автоматический анализ и распознавание добавленных изображений на закладке Сканировать/Открыть диалога Настройки (меню Сервис>Настройки…).

Замечание. Если вы изменили язык распознавания, выделили области на изображении вручную или изменили другие настройки программы, выполните распознавание заново.

Режим распознавания

В ABBYY FineReader 12 предусмотрено два режима распознавания:

Данный режим пригоден для распознавания как простых, так и сложных документов. Например, для документов, содержащих текст на цветном фоне, или для документов, содержащих таблицы, в том числе таблицы без линий сетки и таблицы с цветными ячейками.

По сравнению с Быстрым режимом распознавания, Тщательный режим требует больше времени, но обеспечивает лучшее качество распознавания.

Данный режим рекомендуется для обработки больших объемов документов с простым оформлением и хорошим качеством печати.

Определение элементов оформления

Укажите элементы оформления документа, которые будет определять программа: колонтитулы, сноски, содержание, нумерованные списки. Выбранные элементы оформления будут сохранены в виде интерактивных элементов, а не основного текста.

Обучение

Распознавание с обучением используется для распознавания следующих текстов:

По умолчанию режим Распознавание с обучением отключен. Для того чтобы в процессе распознавания проводилось обучение неизвестным символам, отметьте опцию Распознавание с обучением.

При распознавании вы можете использовать встроенные эталоны или создать собственный эталон. Для этого выберите нужную опцию в группе Обучение.

Пользовательские эталоны и языки

Вы можете сохранить настройки эталонов и пользовательских языков или загрузить ранее сохраненные.

Подробнее см. «Документ FineReader».

Шрифты

Выберите шрифты, которые будут использоваться при сохранении распознанного текста.

Чтобы выбрать шрифты:

Штрих-коды

Если ваш документ содержит штрих-код, и вы хотите передать его не картинкой, а перевести его в последовательность букв и цифр, выберите опцию Распознавать штрих-коды. По умолчанию эта опция отключена.

Источник