Найти
Результаты поиска
-
ОСНОВНЫЕ ПОДХОДЫ К ИЗВЛЕЧЕНИЮ ТЕКСТОВОЙ ИНФОРМАЦИИ (ОБЗОР)
В.В. Курейчик , П. С. Герасименко2024-10-08Аннотация ▼Данная статья посвящена обзору известных и современных подходов, методов и алгорит-
мов полнотекстового поиска. Описана краткая история решения задачи поиска в неструктуриро-
ванных текстовых данных, её развитие и актуальность. Сформулирована основная задача поиска
в текстовых данных. Приведено определение индекса базы данных. В общем виде определена целе-
вая функция поисковой информационной системы и описаны возможные компромиссные вариации
её параметров при решения различных прикладных задач. Приведена обобщённая архитектура
современной поисковой информационной системы с разделением задачи поиска на две фазы: пер-
вичное извлечение релевантных записей и их последующее ранжирование для формирования окон-
чательных результатов поиска. Даны базовые описания основных алгоритмов и методов полно-
текстового поиска, таких как: поиск по термам (логический поиск), поиск с помощью деревьев и
их разновидностей (B-деревья, UB-деревья, tries), поиск на основе n-грамм (в том числе поиск на
основе частотного представления), использование векторной модели пространства (VSM), поиск
на основе инвертированного (обратного) индекса, поиск с использованием аппарата нечёткой
логики и биоинспирированных методов. Приведены основные достоинства и недостатки этих
методов, описана их применимость в различных условиях, а также рассмотрены возможные ме-
тоды оптимизации поиска текстовых данных для улучшения точности, скорости поиска и эф-
фективности использования ресурсов. Представлены возможные перспективные направления в
области решения задачи первичного извлечения информации. Приведены некоторые способы опре-
деления сходства текстовых записей для решения задачи ранжирования на основе аппарата не-
чёткой логики. Затронуты вопросы повышения релевантности первичного извлечения с помощью
методов искусственного интеллекта, нейронных сетей, аппарата нечёткой логики и биоинспири-
рованных методов, в частности методы расширения поискового запроса и/или расширения обра-
батываемых текстовых записей. Описано влияние граничных условий построения поисковой сис-
темы на повышение её эффективности. В заключение статьи подводятся итоги обзора и обсуж-
даются перспективы дальнейшего развития различных методов полнотекстового поиска.








