Сергей Андреев, генеральный директор ABBYY, рассказывает в своем интервью на habrahabr.ru о новой технологии синтаксического и семантического анализа текста ABBYY Compreno.
Центральным ядром создаваемой технологии служит универсальная иерархия понятий и модель отношений между этими понятиями (для специалистов: иерархия универсальных семантических значений и отношений между ними). Хотя все люди на земле говорят разными словами, но используют они очень похожую систему понятий. Люди в разных странах ходят на работу, сидят дома, работают на компьютерах, составляют договоры, летают на самолётах, ведут переговоры. Для них строятся похожие бизнес-центры. Они находятся в похожих помещениях и пользуются похожей мебелью. Все эти понятия и их взаимоотношения в разных развитых цивилизациях имеют гораздо больше общего, чем различного. В дальнейшем это семантическое дерево понятий я буду назвать английской аббревиатурой USH (Universal Sematic Hierarchy).
USH – это дерево понятий, универсальное для всех языков, толстые ветви которого являются более общими и универсальными понятиями (например, «путешествие»), а тонкие – более специфическими, но тоже универсальными понятиями (например, «командировка»). Древесная структура позволяет обеспечить наследование свойств от предков к потомкам, благодаря которому описание новых понятий происходит быстрее, так как, чтобы описать понятие «приказ», уже не надо перечислять все характеристики понятия «документ». Слова конкретного языка являются листочками на дереве USH. Мы получаем возможность снимать неоднозначности. Например, в русском языке разные значения слова «управление» соответствуют понятиям на разных ветвях этого дерева, поскольку есть значение «управление» как департамент, а есть значение «управление» как действие.
Семантическое описание какого-либо конкретного языка превращается в прикрепление «листочков» – слов этого языка – к веткам USH.
Второй, но не менее важной частью технологии является полный синтаксический разбор текста. Синтаксис – это способ «кодирования» смысла (для специалистов: семантических отношений) в конкретном языке. Сами семантические отношения универсальны, а способы их реализации в каждом языке – свои. В каких-то языках установлен линейный порядок, в других используются падежи, предлоги, специальные служебные слова, где-то используется всё сразу. Для каждого языка синтаксическое описание делается заново, но сами средства, которые разные языки используют для кодирования смысла, перечислимы. При описывании нового языка используется разные элементы конструктора (тот же линейный порядок, различные типы синтаксических преобразований, грамматические значения, предлоги, специальные конструкции).
Технология Compreno также успешно определяет и более сложные синтаксические связи, такие как замена слова «мальчик» на слово «он» в предложении (для специалистов: анафора): «Хоть мальчик и хотел поиграть, но он понимал, что у него мало времени». Или целые пропуски в сложносочиненных предложениях (для специалистов: эллипсис), например «он любит красное вино, а она – белое». Выделяемые системой связи между понятиями также выражаются в древесной структуре, фактически передают смысл написанного, и несут важную информацию для поиска или перевода. Таким образом, система стремится к определению смысла текста, написанного на обычном языке, позволяя машине «понять» этот текст и трансформировать его в универсальное представление, не зависящее от языка.
Используя USH, синтаксическое описание языка, а также статистику взаимоотношений между словами, технология Compreno производит полный анализ текста и при переводе его на другой язык использует слова, соответствующие правильным ветвям дерева USH и отношениям, выявленным при разборе исходного предложения.
Технология Compreno – это универсальная лингвистическая платформа для приложений, решающих множество прикладных задач по обработке текстов на естественном языке, таких как:
В мире сейчас не существует настолько универсальной технологии, позволяющей решить так много прикладных задач, требующих качественного лингвистического анализа текстов. И речь идет не только о традиционных задачах, таких как перевод, но и задачах, решение которых на качественно новом уровне было невозможно в прошлом (например, автоматический поиск фактов и связей в массивах информации).
Революционность ABBYY Compreno состоит в фундаментальности подхода. Над универсальной системой понятий и технологиями полного синтаксического и семантического анализа задумывались многие. В своей работе мы опираемся на труды ведущих российских учёных в этой области и классическое лингвистическое образование. Однако многие специалисты отступали перед колоссальной инженерной и лингвистической сложностью реализации этой идеи для реальных практических задач. Передовое российское лингвистическое образование и наука дали нам очень хороший фундамент для начала и развития этой большой работы.