Научные разработки в бизнесе

Сергей Андреев, генеральный директор ABBYY, рассказывает в своем интервью на habrahabr.ru о новой технологии синтаксического и семантического анализа текста ABBYY Compreno.

Центральным ядром создаваемой технологии служит универсальная иерархия понятий и модель отношений между этими понятиями (для специалистов: иерархия универсальных семантических значений и отношений между ними). Хотя все люди на земле говорят разными словами, но используют они очень похожую систему понятий. Люди в разных странах ходят на работу, сидят дома, работают на компьютерах, составляют договоры, летают на самолётах, ведут переговоры. Для них строятся похожие бизнес-центры. Они находятся в похожих помещениях и пользуются похожей мебелью. Все эти понятия и их взаимоотношения в разных развитых цивилизациях имеют гораздо больше общего, чем различного. В дальнейшем это семантическое дерево понятий я буду назвать английской аббревиатурой  USH (Universal Sematic Hierarchy).  

Второй, но не менее важной частью технологии является полный синтаксический разбор текста. Синтаксис – это способ «кодирования» смысла (для специалистов: семантических отношений) в конкретном языке. Сами семантические отношения универсальны, а способы их реализации в каждом языке – свои. В каких-то языках установлен линейный порядок, в других используются падежи, предлоги, специальные служебные слова, где-то используется всё сразу. Для каждого языка синтаксическое описание делается заново, но сами средства, которые разные языки используют для кодирования смысла, перечислимы. При описывании нового языка используется разные элементы конструктора (тот же линейный порядок, различные типы синтаксических преобразований, грамматические значения, предлоги, специальные конструкции). 

Технология Compreno также успешно определяет и более сложные синтаксические связи, такие как замена слова «мальчик» на слово «он» в предложении (для специалистов: анафора): «Хоть мальчик и хотел поиграть, но он понимал, что у него мало времени». Или целые пропуски в сложносочиненных предложениях (для специалистов: эллипсис), например «он любит красное вино, а она – белое». Выделяемые системой связи между понятиями также выражаются в древесной структуре, фактически передают смысл написанного, и несут важную информацию для поиска или перевода. Таким образом, система стремится к определению смысла текста, написанного на обычном языке, позволяя машине «понять» этот текст и трансформировать его в универсальное представление, не зависящее от языка. 

Используя USH, синтаксическое описание языка, а также статистику взаимоотношений между словами, технология Compreno производит полный анализ текста и при переводе его на другой язык использует слова, соответствующие правильным ветвям дерева USH и отношениям, выявленным при разборе исходного предложения.

Применение технологии Compreno

Технология Compreno – это универсальная лингвистическая платформа для приложений, решающих множество прикладных задач по обработке текстов на естественном языке, таких как: 

  1. Письменный и устный перевод с одного языка на другой;
  2. Интеллектуальный поиск, в частности: 
  • Поиск по смыслу, а не по ключевым словам;
  • Извлечение фактов и связей между объектами поиска (в т.ч. для конкурентной разведки);
  • Мониторинг компаний и персоналий и построение аналитических отчетов на основе параметров разного типа. Например, при подготовке отчета на тему «Какой тариф сотовых операторов является самым популярным?» важно не только верно идентифицировать все тарифы, обсуждаемые в СМИ, но и сравнить частотность.
  • Возможность получить ответы на запросы, заданные обычным языком (например, «Чем владеет Иван Иванович Бобров?»).
  1. Многоязычный поиск, т.е. когда на вопрос на одном языке находятся ответы на всех языках, поддерживаемых системой;
  2. Классификация и фильтрация документов;
  3. Защита от несанкционированного использования информации;
  4. Автоматическое реферирование и аннотирование документов;
  5. Распознавание речи;

В мире сейчас не существует настолько универсальной технологии, позволяющей решить так много прикладных задач, требующих качественного лингвистического анализа текстов. И речь идет не только о традиционных задачах, таких как перевод, но и задачах, решение которых на качественно новом уровне было невозможно в прошлом (например, автоматический поиск фактов и связей в массивах информации).

Революционность ABBYY Compreno состоит в фундаментальности подхода. Над универсальной системой понятий и технологиями полного синтаксического и семантического анализа задумывались многие. В своей работе мы опираемся на труды ведущих российских учёных в этой области и классическое лингвистическое образование. Однако многие специалисты отступали перед колоссальной инженерной и лингвистической сложностью реализации этой идеи для реальных практических задач. Передовое российское лингвистическое образование и наука дали нам очень хороший фундамент для начала и развития этой большой работы.

‹ Раздел Технологии

Оставить отзыв