РАЗРАБОТКА ЧАТ-БОТА ДЛЯ КЛАССИФИКАЦИИ И АНАЛИЗА ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ С ИСПОЛЬЗОВАНИЕМ ЛОКАЛЬНЫХ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ
Аннотация
Исследуются локальные большие языковые модели (Local large language models, Local LLM) и их применение в задачах классификации текста, а также проводится сравнение их производительности с традиционными методами. Статья предоставляет всесторонний обзор ряда ключевых локальных LLM, уделяя особое внимание их архитектурным преимуществам, характеристикам и областям применения. В частности, рассматриваются модели с различным количеством параметров, их способность адаптироваться к специализированным доменам, а также требования к вычислительным ресурсам при их развертывании на локальном оборудовании. Особый акцент делается на компромиссах между производительностью и эффективностью использования ресурсов. В качестве практического вклада разработан чат-бот, использующий локальные LLM (такие как DeepSeek, Gemma и Llama2 через Ollama) для классификации входящих текстов по заранее заданным категориям, демонстрируя работу этих моделей без использования облачных вычислений. Система реализована с модульной архитектурой, позволяющей легко интегрировать новые модели и сравнивать их эффективность. Вычислительный эксперимент включает оценку точности и скорости вывода локальных LLM в сравнении с более простыми методами, такими как Sentence-BERT, TF-IDF и BoWC, выделяя сценарии, в которых локальные модели превосходят традиционные подходы или уступают им. Тестирование проводилось на основе эталонного набора данных BBC. Результаты показывают, что языковые модели (включая модели с 7 миллиардами параметров) демонстрируют сильную и логически обоснованную классификационную производительность при обработке текстов на естественном языке, однако их результаты не являются идеальными для эталонных наборов данных. В частности, обнаружены случаи, когда все тестируемые модели, включая традиционные методы, ошибочно классифицировали документы, что указывает на возможные проблемы в разметке данных. Полученные результаты указывают на необходимость пересмотра эталонных меток в стандартных наборах данных. Это особенно важно для доменов с субъективными категориями, где экспертные оценки могут значительно расходиться. С другой стороны, хотя локальные LLM уступают облачным в скорости, их преимущества в конфиденциальности данных и оффлайн-работе делают их пригодными для специализированных задач.
Список литературы
1. OpenAI, J. Achiam, S. Adler, S. Agarwal, L. Ahmad, B. Zoph [et al.]. OpenAI. GPT-4 Technical Re-port, 2024.
2. Baktash J.A., Dawodi M. Gpt-4: A Review on Advancements and Opportunities in Natural Language Processing, 2023.
3. Allahyari M., Pouriyeh S., Assefi M., Safaei S., Trippe E.D., Gutierrez J.B., Kochut K. A brief survey of text mining: Classification, clustering and extraction techniques, 2017.
4. Roumeliotis K.I., Tselikas N.D., Nasiopoulos D.K. Llama 2: Early Adopters’ Utilization of Meta’s New Open-Source Pretrained Model, 2023.
5. DeepSeek-AI., Guo D., Yang D., Zhang H., Song J., Zhang Z. [et al.]. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, 2025.
6. Zhang C., Deng Y., Lin X., Wang B., Ng D., Ye H., Li X., Xiao Y., Mo Z., Zhang Q., Bing L. 100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models, 2025.
7. Team G., Mesnard T., Hardin C., Dadashi R., Bhupatiraju S., Kenealy K. [et al.]. Gemma: Open Mod-els Based on Gemini Research and Technology, 2024.
8. Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, arXiv preprint arXiv, 2019, Vol. abs/1908.10084.
9. Mansour A., Mohammad J., Kravchenko Y., Kravchenko D., Silega N. Harnessing Key Phrases in Con-structing a Concept-Based Semantic Representation of Text Using Clustering Techniques, International Workshop on Artificial Intelligence and Pattern Recognition. Springer, 2023, pp. 190-201.
10. Mansour A., Mohammad J., Kravchenko Y. Text Vectorization Method Based on Concept Mining Us-ing Clustering Techniques, 2022 VI International Conference on Information Technologies in Engineer-ing Education (Inforino). IEEE, 2022, pp. 1-10.
11. Mansour A.M., Mohammad J.H., Kravchenko Y.A. Text vectorization using data mining methods, Izves-tia SFedU. Technical science, 2021, No. 2.
12. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., Kaiser Ł., Polosukhin I. At-tention is all you need, Advances in neural information processing systems, 2017, Vol. 30.
13. Franceschelli G., Musolesi M. Creative Beam Search: LLM-as-a-Judge For Improving Response Gen-eration, 2024.
14. Pryzant R., Iter D., Li J., Lee Y.T., Zhu C., Zeng M. Automatic Prompt Optimization with “Gradient Descent” and Beam Search, 2023.
15. Adeshina A.A. Building Python Web APIs with FastAPI: A fast-paced guide to building high-performance, robust web APIs with very little boilerplate code. Packt Publishing Ltd, 2022.
16. Giray L. Prompt engineering with ChatGPT: a guide for academic writers, Annals of biomedical engi-neering, 2023, Vol. 51, No. 12. pp. 2629-2633.
17. Marvin G., Hellen N., Jjingo D., Nakatumba-Nabende J. Prompt Engineering in Large Language Mod-els, Data Intelligence and Cognitive Informatics: Algorithms for Intelligent Systems, eds. I.J. Jacob, S. Piramuthu, P. Falkowski-Gilski. Singapore: Springer Nature Singapore, 2024, pp. 387-402. ISBN 978-981-9979-99-8.
18. Mahmoud Bsharat S., Myrzakhan A., Shen Z. Principled Instructions Are All You Need for Question-ing LLaMA-1/2, GPT-3.5/4, arXiv e-prints, 2023, pp. arXiv-2312.
19. Mann B., Ryder N., Subbiah M., Kaplan J., Dhariwal P., Neelakantan A., Shyam P., Sastry G., Askell A., Agarwal S. Language models are few-shot learners, arXiv preprint arXiv:2005.14165, 2020,
Vol. 1, pp. 3.
20. Sabbah T., Selamat A., Selamat M.H., Al-Anzi F.S., Viedma E.H., Krejcar O., Fujita H. Modified fre-quency-based term weighting schemes for text classification, Applied Soft Computing, 2017, Vol. 58, pp. 193-206.








