Доклад №12-2 Rambler's Top100

УДК 519.2

О НЕНОРМАЛЬНОСТИ НОРМАЛЬНОГО ЗАКОНА РАСПРЕДЕЛЕНИЯ
(ВООБЩЕ И В ПРИЛОЖЕНИИ К МЕТАЛЛУРГИИ В ЧАСТНОСТИ)

Дубровский С.А. 1), Толстова Т.А. 1)

1) Липецкий государственный технический университет. 398600, г. Липецк, ул. Московская 30

E-mail: cius@stu.lipetsk.ru

Аннотация

      Классические предпосылки математической статистики редко выполняются в реальных ситуациях, но на них построена вся методология статистического анализа. Например, постулируется, что погрешности измерений имеют нормальное распределение. При этом предположении построены классические модели регрессионного, дисперсионного, факторного анализов, метрологические модели. Но опыт доказал, что теоретических оснований для такого предположения нет. Практика реальных приложений статистики (например, в металлургии) прямо доказывает несостоятельность использования нормального закона распределения. Данная статья исследует правомерность и перспективы применения распределения Гаусса.

Ключевые слова: нормальное распределение (распределение Гаусса), методы статистического анализа, распределения статистических величин в металлургии, устойчивые законы распределения.

      В практических приложениях статистики наиболее общий случай описания объектов и явлений – экспериментальные данные. Если случайные величины и события нельзя воспроизвести многократно, либо характеристики их поведения непредсказуемо изменяются во времени и пространстве, то такие случайные величины и события относят к нестатистическим и не рассматривают в качестве объекта статистического изучения. Статистические же экспериментальные данные обрабатываются методами статистического анализа.

      Классическая основа статистического описания и методов статистической обработки – нормальный закон распределения случайных величин. Специалисты-практики призваны профессионально применить положения теории к конкретной практической задаче. И тут возникает особый случай: слишком часто [1,2] уже на первых шагах обработки статистического материала вопиющим образом проявляются отклонения от “нормальности”. Что делать? – “Притянуть” ли исходные данные к классическим предпосылкам статистического анализа? (Не приходится ожидать, что при подобном исходном посыле результаты будут удовлетворительными и стабильными.) Стремиться ли отметить и осмыслить обнаружившуюся ситуацию (и как реализовать подобную стратегию)?

      Во-первых, необходимо снять определённый просто психологический прессинг:

  • если я получил “ненормальное” распределение, значит ли, что я допустил нечто ненормальное в ходе работы,
  • если я рискну разрабатывать далее имеющуюся ситуацию, то “насколько нормальным” будет применение других (не нормального, а прочих) законов распределений?

      Между тем, как отметил Бобров [1, стр.83], Пирсон назвал закон распределения Гаусса-Лапласа “условной нормой”, доказав близость этого эмпирического закона теории биномиальных предпосылок. Пирсон не преследовал цель выйти на механизм явлений и материальные факторы, которые формируют особенности распределения конкретного наблюдения, - он решал чисто интерполяционную задачу “подыскать аналитическую кривую, которая сглаживала бы погрешности наблюдения при заданных четырёх моментах”. Пирсон решил свою задачу исчерпывающе. А практические приложения статистики идут от небольших выборок и к моделированию реальных ситуаций, - “нормальность” может здесь быть как частный и редкий случай; распределение Гаусса является не нормой, а одним из многих (и, как уже доказано [1-5], совсем не лучшим распределением для моделирования подавляющего большинства реальных событий и явлений). Поэтому мы, не смея настаивать, но вполне убеждённо призываем не использовать далее слово “нормальное” как синоним распределения Гаусса и как “благословление” дальнейшего применения классических методов статистического анализа.

      Мы настаиваем на том, что одномерное распределение Гаусса является слишком частным практическим случаем, чтобы занимать центральное место в статистической теории. И что многомерное распределение Гаусса почти абсолютно несостоятельно для практического использования: Гауссовость предполагает линейную взаимосвязь составляющих, - но нелинейность как принцип объективной реальности, пожалуй, на данный момент уже признана бесспорно [2,6-8]. Хотя, конечно, жизнь многограннее любого принципа, и экстремально редкий случай многомерной выборки может быть порождён именно многомерным распределением Гаусса.

      Классический многомерный статистический анализ, будучи “Гауссовским”, очевидно в принципе не применим ни к какому практическому исследованию.

      Напомним, что условиями, исходно обеспеченными в статистической выборке, в традиционной статистике считаются:

  • независимость испытаний (это условие рождает проблему перехода от одного протокола к ансамблю, проблему множественных проверок статистических гипотез),
  • постулат существования (и даже конкретного вида) распределения для рассматриваемых случайных величин,
  • постулат существования распределения для выборочных оценок,
  • Гауссовость распределения результатов наблюдений или некоторых функций от них.

      Таким образом, во-первых, многообразие и мощность методов математической статистики базируется на априорном принятии выполнения довольно строгих ограничений в экспериментальных данных, во-вторых, отсутствует универсальность и прозрачность приложений методов математической статистики.

      Свойства статистических процедур при их “незаконном” применении теряют практическую ценность [3-5] (например, отклонения от распределения Гаусса исходных данных приводят к неустойчивости процедур). На фоне подобной туманности неудивительно, что практические применения естественных наук (физики, химии, астрономии) неуклонно избегали использования стандартных методов математической статистики.

      Очевидное направление попытки решения проблемы – сбор данных с обеспечением требуемых классических условий в получаемых выборках и проверка выборок на обладание требуемыми свойствами. Реализация подобного сбора часто не в силах исследователя. Реализация необходимых проверок зачастую тоже оказывается практически неприемлемой, так как проверка на нормальность требует большое количество наблюдений (>2000) , что в большинстве технических, биологических, экономических исследований невозможно. Нами был проведён следующий модельный эксперимент по оценке регрессионной зависимости.

      Было взято уравнение: y=b0+b1x1+b2x2+b3x3. С помощью генератора случайных чисел формировалась выборка независимых, распределённых по закону Гаусса с нулевым средним величин y, x1, x2 и x3 (объёмом 50 наблюдений). Так как y не зависит от x1, x2 и x3, то истинные значения коэффициентов b1,b2 и b3 должны быть равны нулю, а b0 равен нулю вследствие центрированности переменных. По сгенерированной выборке методом наименьших квадратов оценивались коэффициенты регрессии. Процесс генерации и расчёта продолжался 500 раз, по результатам были построены гистограммы для коэффициентов регрессии (рис. 1).

Рис.1


      Затем классическими методами математической статистики определяли значимость каждого коэффицента с 95%-ной доверительной вероятностью (5%-ным уровнем значимости) и сравнивали с фактически полученным из гистограмм для вычисленного доверительного интервала. Имело место существенное искажение доверительной вероятности, что отражено в таблице 1 (a т - теоретический уровень значимости, a г – уровень данных из гистограмм).

Таблица 1

 

b0

b1

b2

b3

a т

5%

5%

5%

5%

a г

0,2%

10,5%

8,4%

10,0%


      Так как все коэффициенты регрессии нулевые, то сведение данных по каждому коэффициенту в единую выборку равноценно описанию исходного явления выборкой объёма 2000 наблюдений. Гистограмма этой выборки представлена на рис. 2.

Рис.2.

      Большой объём выборки позволил приблизиться от эмпирического уровня значимости (5,15%) к теоретическому (5%). Хотя ни большой объём, ни выполнение всех предпосылок классического статистического анализа (независимость случайных величин, однородность выборок, распределение по закону Гаусса) не дали однозначного совпадения теоретической (порождающей) и эмпирической (модельной) ситуации. В частных же (в малых) выборках проверка гипотезы наличия Гауссова закона распределения не идентифицировала его абсолютно (даже зрительно – см. Рис. 1 – формы гистограмм не близки к симметричной колоколообразной форме распределения Гаусса).

      Если замалчивать проблему правомочности применения аппарата математической статистики, то лучше отказаться от его применения в естественных науках (оставив только фундаментальные разделы статистической физики (интересно мнение специалистов соответствующего прикладного приложения), где рассматриваются колоссальные коллективы частиц и огромные количества сравнительно простых актов взаимодействия между частицами, то есть там, где стабильность объекта изучения явно высока, чего нет ни в технике, ни в экономике) [6,7]. Например, в Липецком государственном техническом университете активно ведутся работы по исследованию и моделированию технологий металлургического производства. “Живые” данные Новолипецкого металлургического комбината служат типичным примером выборок с реальных технологических объектов – и по объёму, и по “кососимметричности” законов распределения статистических признаков. Отличие от Гауссова распределения объяснимо материальными факторами:

  1. температура чугуна (объём выборки 680) имеет распределение со смещением вершины “колокола распределения” вправо из-за случающихся простоев чугуновозного ковша (см. рис. 3),

    Рис.3.

  1. температура стали (объём выборки 540) “отклоняется вправо” от распределения Гаусса (см. Рис. 4) вследствие строгого соблюдения конкретного режима и технологии (более того – проявление для подобных технологических величин на гистограмме Гауссова закона распределения как раз свидетельствует о том, что исходные данные поставлялись при смешении различных режимов и технологий, и, значит, “внутренняя” информация об изучаемом явлении оказалась “заретушированной”, - очевидна некорректность исходных данных).

Рис. 4.

      Однако руководства по математической статистике не разъясняют вопросы статистической устойчивости, обходят проблемы эмпирического исследования статистической устойчивости.

      Конечно, работы в этом направлении велись и ведутся: разработаны “нетрадиционные” методы математической статистики [8-16], “методы обработки данных” [17] и др.

      Расширение арсенала методов оказывается теоретически и практически важным, но их правильное использование опять-таки остаётся самым неясным (хотя и едва ли не самым решающим) моментом.

      В заключение остановимся подробнее на некоторых стратегических положениях.

      Проблема представительности выборок (на неё математическая статистика главным образом нацеливает свой аппарат) должна быть отнесена к проблеме выбора исходных интуитивных посылок. Это неформальная по своей сути проблема. Её решение вряд ли когда-то будет оформлено.

      В прикладной статистике исторически сложилось (Гаусс) и до сих пор часто принимается, что погрешности измерений имеют нормальное распределение. При этом предположении построены классические модели регрессионного, дисперсионного, факторного анализов, метрологические модели. Но многолетний опыт доказал, что теоретических оснований для такого предположения нет [1,8]. Вообще, основы статистического метода построены на теории ошибок Гаусса: Кетле [1], получив ряд показаний о росте большого числа индивидов, получил кривую распределения, близкую к кривой Гаусса, что и послужило основанием для проведения аналогии между распределением случайных ошибок и распределением статистического признака. Но схема Кетле может быть применима только тогда, когда мы по той или иной причине постулируем относительную однородность распределения. ( А что касается роста людей, то неприемлемость закона Гаусса для распределения этого статистического признака доказана нашим достаточно обширным (на выборке более 1500 измерений) экспериментальным исследованием.

      Значит, с одной стороны, распределения погрешностей следовало бы изучать экспериментально. А с другой – признать “ненормальность” огульного применения в практических исследованиях статистических схем на основе распределения Гаусса. Реальные события и объекты далеки от подобной “нормальности”. Бобров [1] показал, что в экономической статистике распределение Гаусса является не столько правилом, сколько исключением. Впрочем, экономическая статистика (особо отмечена американская школа) вообще чётко определила различия между применением статистических характеристик в статических и динамических совокупностях.

      Отсутствие “Гауссовости” требует разработки устойчивых (учитывающих наличие отклонений от распределения Гаусса) и свободных от распределения процедур (например, уже широко применяется такой метод построения доверительных интервалов, как бутстреп: предположение о нормальности или об ином параметрическом виде функции распределения не требуется).

      Проблемы множественных проверок статистических гипотез связаны с влиянием результатов предыдущих проверок на оценки характеристик (на уровень значимости, на мощность). Дело в том, что результаты последовательно проводящихся проверок не являются независимыми. И как итог - в большинстве случаев статистические свойства процедур анализа данных, основанных на множественных проверках, неизвестны.

      Сама по себе проблема множественных проверок статистических гипотез есть часть более общей проблемы “стыковки” (сопряжения) статистических процедур. Каждая процедура может применяться лишь при некоторых условиях, а в результате применения предыдущих процедур эти условия могут нарушаться. Проблема “стыковки” обсуждается давно [18], но окончательных результатов пока не получено.

      Конечной целью практически любого статистического анализа является получение новой информации, полезной для управления анализируемым объектом либо его аналогом. Такая постановка вопроса требует комплексного системного подхода с использованием методологии системного анализа. Обязательный этап системного подхода - проверка соответствия собранного статистического материала тем ограничениям, которые лежат в основе выбранной математической схемы и статистических методов.

      Привязка методологии к схеме закона распределения Гаусса неоправданно сужает сферу приложения статистики.

      Проблемы, лежащие перед современной прикладной статистикой, и многочисленны, и многообразны. Первая важная посылка в их решении - отказ от гипотезы наличия Гауссова распределения, создание методов устойчивого, стабильного оценивания в альтернативе к классическому подходу. Пример перспективности подобной стратегии – разработка и применение “ближайших родственников” закона распределения Гаусса [19]: устойчивые законы распределения (законы Коши, Леви и др.) родственны семействам нормальных и вырожденных распределений (они выросли из ослабления требований к независимости случайных величин и расширения понимания центральной предельной теоремы на аппроксимацию не только нормальным законом, но и другими распределениями определённой аналитической структуры). Опустим здесь изложение свойств устойчивых законов (соответствующие математические сведения хорошо поданы в [20]) и проиллюстрируем их ценность следующими примерами приложений:

  1. Модель точечных влияний оказалась удачной в виде распределения Хольцмарка случайных флюктуаций гравитационного поля звёзд; распределения напряжений в кристаллических решётках; распределения магнитного поля, порождаемого системой элементарных магнитов, рассеянных в пространстве; распределения температуры в ядерном реакторе;
  2. Модель вырождающихся ветвящихся процессов объяснила закон Уиллиса-Юла (протекание эволюционных процессов в биологических системах);
  3. Существует масса интересных примеров использования устойчивых законов распределения в задачах анализа шума в телефонной связи, расчёта работы ретрансляционных установок в дальних радиопередачах, при моделировании работы длинных электрических линий и в прочих задачах радиотехники и электроники.

      Сверхзадачей видится внесение в прикладную статистику идей новой научной парадигмы Ильи Пригожина [21] – его идеи необратимого времени, хаоса в моделировании.

Выводы

  1. Современная прикладная статистическая теория должна развиваться в сторону снижения зависимости и привязки к классическим предпосылкам – например, нормальному распределению ошибок измерений, независимости случайных величин и т.д.
  2. Практическая полезность использования более устойчивых законов распределения, чем Гауссовский, доказывается применением их в естественно-научных, экономических, биологических и др. приложениях.
  3. Полученные результаты опровергают целесообразность устоявшейся практики ориентироваться в статистической обработке на нормальный закон распределения.

Список литературы

  1. Бобров С.П. Экономическая статистика.- М.-Л. : Государственное издательство, 1930.- 520 с.
  2. Дубровский С.А. Прикладной многомерный статистический анализ. – М.: Финансы и статистика, 1982. – 216 с.
  3. Алимов Ю.И. Элементы теории эксперимента. Измерение моментов случайных величин, векторов и процессов. – Свердловск: Издательство УПИ, 1976. - 103 с.
  4. Алимов Ю.И. Элементы теории эксперимента. Измерение вероятностей и распределение вероятностей. – Свердловск: Издательство УПИ, 1977. - 78 с.
  5. Алимов Ю.И. Элементы теории эксперимента. Опытная проверка утверждений математической статистики. – Свердловск: Издательство УПИ, 1978. - 91 с.
  6. Малинецкий Г.Г. Хаос . Тупики, парадоксы, надежды. / Основы анализа экспериментальных данных "Компьютерра" , 1998, № 47.
  7. Золотарев В.М. Современная теория суммирования независимых случайных величин. - М.: Наука ,1986. - 416 с.
  8. Кипнис В.М., Пинскер И.Ш. Прогнозирование коротких временных рядов, основанное на принципе хаотизации. – В кн.: Модели. Алгоритмы. Принятие решений. – М.: Наука, 1979. - с.38-61.
  9. Виленкин С.Я. Статистическая обработка рядов исследования случайных функций. – М.: Энергия, 1979. - 320 с.
  10. Гильбо Е.П., Челпанов И.Б Обработка сигналов на основе упорядоченного выбора (мажоритарное и близкие к нему преобразования). – М.: Сов. радио, 1976. - 344 с.
  11. Загоруйко Н.Г. Методы распознавания и их применение. – М.: Сов. радио, 1972. - 207 с.
  12. Мешалкин Л.Д. Параметризация многомерных распределений. – В кн.: Прикладной многомерный статистический анализ. – М.: Наука, 1978. – с. 11-18.
  13. Пинскер И.Ш. Принцип хаотизации и его применение при обработке наблюдений. – В кн.: Модели. Алгоритмы. Принятие решений. – М.: Наука, 1979. - с. 5-38.
  14. Занг В.Б. Синергетическая экономика. Время и перемены в нелинейной экономичнской теории. - М.: Мир,1999.
  15. Льюис К.Д. Методы прогнозирования экономических показателей. - М.: Финансы и статистика, 1986. - 133 с.
  16. Орлов А.И. 3аводская лаборатория ,1985, т.51, №1 с. 60-62.
  17. Тьюки Дж. У. Анализ данных , вычисления на ЭВМ и математика. – В кн.: Современные проблемы математики. – М.: Знание, 1977. - с. 41-64.
  18. Петров В.В. Суммы независимых случайных величин. - М.: Наука, 1972. - 416 с.
  19. Золотарёв В.М. Устойчивые законы и их применение. – М.: Знание, 1984. – 64 с.
  20. Харрис Т. Теория ветвящихся случайных процессов. – М.: Мир, 1966.
  21. Пригожин И., Стенгерс И. Время, хаос, квант. К решению парадокса времени. – М.: Эдиториал УРСС, 2000. – 240 с.

*                   *                   *

ДИСКУССИЯ

От кого Вопрос Ответ

Сергей
4mal@mail.ru

    Доклад очень понравился нестандартным подходом к статанализу. Как замечание необходмимо отметить, что в тексте есть путаница с температурами чугуна и стали. Очевидно и поясенения должны быть несколько иными?

С искренним извинением к читателям признаём досадную неточность на рисунках 3 и 4: cледует читать "рисунок 3" вместо "рисунок 4" (и наоборот) с учётом ошибочного названия осей температур (температуры от 1330 до 1420 градусов определяют чугун, а температуры от 1615 до 1705 градусов определяют сталь). Единственное, что способно нас несколько оправдать, - эти ошибки не исказили центральной мысли статьи: "нормальное" распределение не присутствует ни в одном из обоих примеров (значимое смещение вершины колокола распределения от центра вправо).

Задать вопрос

Вопрос
(комментарии)
Подпись
Ваш e-mail

Желательно заполнять все поля формы

Спросить по e-mail (в строке "Тема" укажите: вопрос к докладу №12-2)