ОСНОВНЫЕ ПОДХОДЫ К ИЗВЛЕЧЕНИЮ ТЕКСТОВОЙ ИНФОРМАЦИИ (ОБЗОР)

Авторы

  • В.В. Курейчик Южный федеральный университет image/svg+xml
  • П. С. Герасименко Южный федеральный университет image/svg+xml

Ключевые слова:

Полнотекстовый поиск, B-деревья, векторная модель пространства, обратный индекс, n-грамм индексирование, двухфазовый поиск текста, индексы, извлечение информации, ранжирование, нейронные сети, нечёткая логика, биоинспирированные алгоритмы

Аннотация

Данная статья посвящена обзору известных и современных подходов, методов и алгорит-
мов полнотекстового поиска. Описана краткая история решения задачи поиска в неструктуриро-
ванных текстовых данных, её развитие и актуальность. Сформулирована основная задача поиска
в текстовых данных. Приведено определение индекса базы данных. В общем виде определена целе-
вая функция поисковой информационной системы и описаны возможные компромиссные вариации
её параметров при решения различных прикладных задач. Приведена обобщённая архитектура
современной поисковой информационной системы с разделением задачи поиска на две фазы: пер-
вичное извлечение релевантных записей и их последующее ранжирование для формирования окон-
чательных результатов поиска. Даны базовые описания основных алгоритмов и методов полно-
текстового поиска, таких как: поиск по термам (логический поиск), поиск с помощью деревьев и
их разновидностей (B-деревья, UB-деревья, tries), поиск на основе n-грамм (в том числе поиск на
основе частотного представления), использование векторной модели пространства (VSM), поиск
на основе инвертированного (обратного) индекса, поиск с использованием аппарата нечёткой
логики и биоинспирированных методов. Приведены основные достоинства и недостатки этих
методов, описана их применимость в различных условиях, а также рассмотрены возможные ме-
тоды оптимизации поиска текстовых данных для улучшения точности, скорости поиска и эф-
фективности использования ресурсов. Представлены возможные перспективные направления в
области решения задачи первичного извлечения информации. Приведены некоторые способы опре-
деления сходства текстовых записей для решения задачи ранжирования на основе аппарата не-
чёткой логики. Затронуты вопросы повышения релевантности первичного извлечения с помощью
методов искусственного интеллекта, нейронных сетей, аппарата нечёткой логики и биоинспири-
рованных методов, в частности методы расширения поискового запроса и/или расширения обра-
батываемых текстовых записей. Описано влияние граничных условий построения поисковой сис-
темы на повышение её эффективности. В заключение статьи подводятся итоги обзора и обсуж-
даются перспективы дальнейшего развития различных методов полнотекстового поиска.

Библиографические ссылки

Загрузки

Опубликован

2024-10-08

Выпуск

Раздел

РАЗДЕЛ I. АЛГОРИТМЫ ОБРАБОТКИ ИНФОРМАЦИИ