/pages/SciencePage.aspx science/business/technologies/

Научные разработки в бизнесе

Компьютерная лексикография

Все разработки компании ABBYY опираются на идеи, так или иначе опережающие своё время. Например, в первой версии электронного словаря Lingvo, вышедшей в 1990 году, до появления Windows, был реализован пользовательский интерфейс в виде «словарных карточек» – независимых окон со словарными статьями. Сегодня над новыми версиями Lingvo трудится целая команда профессиональных программистов, лингвистов и лексикографов, использующих самые современные технологии. Некоторые из них – машинная морфология, от версии к версии пополняемая новыми языками, собственная технология индексации и поиска – созданы и развиваются силами ABBYY.

Без постоянной научной работы, направленной на усовершенствование лингвистических технологий, вряд ли возможно развитие такого продукта как Lingvo , ведь «…компьютерная лексикография является особым направлением в практической лексикографии со своими собственными подходами не только к отображению, но и к содержанию словаря». («Компьютерная лексикография», Владимир Павлович Селегей, директор по лингвистическим исследованиям ABBYY).

Распознавание документов

Машинное распознавание визуальных образов – крайне сложная математическая задача. Её решение требует серьёзного научного подхода и применения современных наукоёмких технологии. Поэтому в компании ABBYY , создавшей знаменитый FineReader , существует особый департамент, занятый технологическим обеспечением задач распознавания. В результате исследований, ведущихся сотрудниками департамента с 1992 года, создан ряд технологических решений, обеспечивающих высочайшее качество распознавания.

В частности, в состав ABBYY FineReader 11 входит подсистема, устраняющая перекос, засветку, искажения перспективы и другие сложные дефекты исходного изображения. Другая технологическая подсистема – OCR – сопоставляя тысячи признаков, описывающих начертание символов на множестве языков, безошибочно различает набранные любыми шрифтами буквы, цифры и знаки пунктуации. А технология ADRT точно воссоздаёт в электронном виде исходную структуру многостраничного документа (оглавления, колонтитулы и т.п). Подробнее узнать о том, как работает ABBYY FineReader, можно на странице Технологий распознавания.

Массовый ввод данных

Наряду с печатными документами, современный бизнес оперирует значительными объёмами данных, находящихся на бланках, заполненных от руки, так называемых формах. Ввод форм, то есть распознавание и извлечение этих данных, их автоматизированное накопление в компьютерных базах – задача весьма непростая. Для её решения в компании ABBYY в 1997 году была разработана технология FlexiCapture.

За годы развития технология достигла мирового уровня; сегодня FlexiCapture успешно конкурирует с аналогичными решениями лидеров рынка ввода и обработки данных. Технология реализована в одноимённом продукте – ABBYY FlexiCapture, который применяется в сотнях проектов по всему миру, выполняемых как для целей бизнеса, так и на государственном уровне.

Возможности ABBYY FlexiCapture подробно описаны на странице Технологий автоматизированного ввода данных.

Синтаксический и семантический анализ

Научные исследования компания ABBYY ведёт со дня своего основания. За счёт этого уже удалось добиться впечатляющих практических результатов в таких областях как компьютерная лексикография, распознавание документов, ввод данных. Но ещё более впечатляюще выглядит универсальная лингвистическая технология Compreno . Это самая науко- и трудоёмкая технология из всех, созданных ABBYY . Достаточно упомянуть, что «…В мире сейчас не существует настолько универсальной технологии, позволяющей решить так много прикладных задач, требующих качественного лингвистического анализа текстов». 

Среди потенциальных возможностей Compreno можно назвать такие неординарные задачи, как полноценный машинный перевод с одного языка на другой; интеллектуальный поиск; многоязычный поиск (на вопрос на одном языке находятся ответы на всех поддерживаемых системой языках); классификация и фильтрация документов; защита от несанкционированного использования информации; автоматическое реферирование и аннотирование; распознавание речи.

Технология Compreno построена на базе иерархии универсальных семантических значений и отношений между ними; реализован полный синтаксический разбор текста. Сегодня на основе этой технологии уже создано несколько продуктов, выполняющих интеллектуальный анализ текстов. В частности, это ABBYY Syntactic and Semantic Parser (ASSP) – инструмент разработчика для лингвистического и смыслового анализа текстов на русском и английском языках, который предоставляет морфологическую, синтаксическую и семантическую характеристику каждого слова, разбирает синтаксические и семантические связи между словами и предложениями.  Подробнее о технологии ABBYY Compreno.