ПРИМЕНЕНИЕ ТОЧНЫХ И ПРЕДЕЛЬНЫХ ПРИБЛИЖЕНИЙ РАСПРЕДЕЛЕНИЙ ВЕРОЯТНОСТЕЙ ЗНАЧЕНИЙ СТАТИСТИК ПРИ РЕШЕНИИ ЗАДАЧИ ПО ОБРАБОТКЕ ТЕКСТОВ

  • А.К. Мельников НТЦ ЗАО «ИнформИнвестГрупп»
Ключевые слова: Вероятность, тестовая статистика, эталонное распределение, точное распределение, предельное распределение, относительная эффективность распределения, вычислительная сложность метода, производительность многопроцессорной вычислительной системы

Аннотация

Рассматривается применение предельных и точных приближений распределения ве-роятностей значений статистик для решения задачи по отбору текстов с определенными статистическими свойствами. Для отбора текстов с равновероятным распределением входящих в них знаков используется статистический критерий согласия, в котором в каче-стве эталонного распределения тестовой статистики используются его различные при-ближения. В качестве предельных приближений используются предельные распределения, а в качестве точных приближений - Δточные распределения, которые отличающиеся от точных распределений не более чем на заданную величину Δ. Приведены результаты расчета Δточных распределений, показаны их отличия от значений предельных распределений для разных статистик. Рассмотрено понятие эффективности обработки по выделению равно-вероятных текстов, отражающее долю ложно отобранных текстов. Проведено сравнение значений эффективности обработки при применении точных и предельных приближений эталонных распределений тестовых статистик. Показано, что значение эффективности обработки не уменьшается, а во многих случаях растет при применении точного приближе-ния вместо предельного. На основе анализа относительной эффективностью критериев и методов исследования их асимптотического поведение при различных ограничениях, для срав-нение статистических критериев, использующих одинаковую тестовую статистику но раз-ные её эталонные распределения вводится понятие относительной эффективности распре-деления, показывающее во сколько раз увеличится количество ложно отобранных текстов при применении в качестве эталонного распределения критерия того или иного распределе-ния. Показана функциональная связь между понятиями эффективность обработки и от-носительная эффективность распределений. В условиях доступности высокопроизводи-тельных вычислительных средств, позволяющих проводить расчеты Δточных распределений для интересующих параметров длины и мощности алфавита текстов, доказано утверждение об относительной эффективности распределений, позволяющее из множе-ства распределений тестовой статистики выбрать эталонное распределение критерия при котором эффективность обработки будет наибольшая. Приведены примеры значений относительной эффективности точных и предельных приближений.

Литература

1. Chepovskiy A.M. Informatsionnye modeli v zadachakh obrabotki tekstov na estestvennykh yazykakh [Information models in tasks of processing of natural language texts]. Moscow: Natsional'nyy otkrytyy universitet «INTUIT», 2015, 228 p. ISBN 978-5-9556-0176-2.
2. Ivchenko G.I., Medvedev Yu.I. Vvedenie v matematicheskuyu statistiku [Introduction to mathematical statistics]. Moscow: LENARD, 2017, 608 p. ISBN 978-5-9710-4535-9.
3. Ronzhin A.F. Effektivnost' tipa CHernova dlya kriteriev soglasiya, osnovannykh na empiricheskikh funktsiyakh raspredeleniya [Tchernov’s efficiency for fitting criteria based on empirical functions of distribution], Teoriya veroyatnosti i ee primenenie [Probability theory and its application], 1985, 30:2, pp. 378-381.
4. Borovkov A.A. Veroyatnostnye protsessy v teorii massovogo obsluzhivaniya [Stochastic pro-cesses in queueing theory]. Moscow: Nauka, 1972, 367 p.
5. Borovkov A.A. Matematicheskaya statistika [Mathematical statistics]. Novosibirsk: Izd-vo IM SORAN, Nauka, 1997, 772 p.
6. Kramer G. Matematicheskie metody statistiki [Mathematical methods of statistics]. Mos-cow: Mir, 1975, 648 p.
7. Mel'nikov A.K. Primenenie tochnykh raspredeleniy v protsedure dvukhetapnoy obrabotki tekstov [Application of exact distributions in the procedure of two-step text processing], Obozrenie prikladnoy i promyshlennoy matematiki [Review of applied and industrial math-ematics], 2018, Vol. 25, Issue 2. In print. Available at: https://tvp.ru/conferen/vsppmXIX/ repso051.pdf (accessed 19 July 2018).
8. Ivchenko G.I., Medvedev Yu.I. Matematicheskaya statistika [Mathematical statistics]. Mos-cow: Knizhnyy dom "LIBROKOM", 2014, 352 p. ISBN 978-5-397-04141-6.
9. Mel'nikov A.K., Ronzhin A.F. Obobshchennyy statisticheskiy metod analiza tekstov, osnovannyy na raschete raspredeleniy veroyatnosti znacheniy statistik [A generalized statis-tical method of analyzing texts based on the calculation of probability distributions of values of statistics], Informatika i ee primeneniya [Informatics and its applications], 2016, Vol. 10, Issue 4, pp. 89-95. ISSN 1992-2264.
10. Mel'nikov A.K. Slozhnost' rascheta tochnykh raspredeleniy veroyatnosti simmetrichnykh additivno razdelyaemykh statistik i oblast' primeneniya predel'nykh raspredeleniy [The com-plexity of calculating the exact probability distributions of symmetric additive-separated sta-tistics and the application of limit distributions], Doklady TUSUR [Proceedings of Tomsk State University of Control Systems and Radioelectronics]. Tomsk, 2017, Vol. 20, No. 4, pp. 126-130. ISSN 1818-0442.
11. Fisher R.A. Statisticheskie metody dlya issledovateley [Statistical methods for researchers]. Moscow: Gosstatizdat, 1958, 73 p.
12. Kendall M.G., St'yuart A. Teoriya raspredeleniy [Distribution theory]. Moscow: Nauka, 1966, 302 p.
13. Zelyukin N.B., Mel'nikov A.K. Slozhnost' rascheta tochnykh raspredeleniy veroyatnosti znacheniy statistik i oblast' primeneniya predel'nykh raspredeleniy [Slozhnost’ rascheta tochnykh raspredeleniy veroyatnosti znacheniy statistik i oblast’ primeneniya predelnykh raspredeleniy], Elektronnye sredstva i sistemy upravleniya: Materialy dokladov XIII Mezhdunar. nauch.-prakt. konf. (29 noyabrya – 1 dekabrya 2017 g.) [Electronic facilities and control systems: reports of the XIIIth International scientific and practical], 29th November – 1st December, 2017]: In 2 part. Part 2. Tomsk: V-Spektr, 2017, pp. 84-90. Available at: https://storage.tusur.ru/files/115115/2017-2.pdf (accessed 13 July 2018).
14. Mel'nikov A.K. Metodika rascheta raspredeleniy veroyatnostey znacheniy statistik, blizkikh k ikh tochnym raspredeleniyam [Calculation methodology of approximate-to-exact distribu-tion of statistics probabilities], Obozrenie prikladnoy i promyshlennoy matematiki [Review of applied and industrial mathematics], 2017, Vol. 24, Issue 5. Available at: http://tvp.ru/conferen/vsppmXVIII/kisso075.pdf (accessed 13 July 2018).
15. Mel'nikov A.K. Metodika rascheta raspredeleniya veroyatnostey znacheniy simmetrichnykh additivno razdelyaemykh statistik, priblizhennykh k ikh tochnomu raspredeleniyu [Pro-cessing complexity for exact probability distributions of symmetrical additively partitioned statistics and application area of limit distributions], Nauchnyy vestnik NGTU [Science bulle-tin of the Novosibirsk state technical university], 2018, No. 1 (70), pp. 153-166. ISBN 1814-1196. Doi: 10.17212/1814-1196-2018-1-153-166.
16. Pearson K. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables in such that it can be reasonably supposed to have arisen from random sampling, Philos. Mag. Ser. 5, 1900, Vol. 50, No. 302, pp. 157-170.
17. Neyman F., Pearson E.S. On the use and interpretation of certain test criteria for purposes of statistical inference, Biometrika, 1928, Vol. 20-A, pp. 175-240, 264-299.
18. Smith P.F., Rae D.S., Manderscheid R.W., Silbergeld S. Exact and approximate distributions of the chi-squared statistic for equiprobability, Commun. Statist., 1979, B. 8 (2), No. 1, pp. 131-149.
19. Matusita K. Decision rules, based on the distanse, for problems of fit tu o samples, and esti-mation, Ann. Math. Stat., 1955, Vol. 26, pp. 631-640.
20. Ronzhin A.F. Asimptoticheskaya lokal'naya otnositel'naya effektivnost' (ALOE) kriteriev soglasiya [Asymptotic local relative efficiency (ALRE) of fitting criteria], Tezisy dokladov Vsesoyuznoy konferentsii «Veroyatnostnye metody v diskretnoy matematike» [Reports of All-USSR conference “Probabilistic methods in discrete mathematics”]. Petrozavodsk, 1983, pp. 70-71.
Опубликован
2019-04-04
Выпуск
Раздел
РАЗДЕЛ III. МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ