УДК 519.2 О НЕНОРМАЛЬНОСТИ НОРМАЛЬНОГО ЗАКОНА
РАСПРЕДЕЛЕНИЯ Дубровский С.А. 1), Толстова Т.А. 1) 1) Липецкий государственный технический университет. 398600, г. Липецк, ул. Московская 30 E-mail: cius@stu.lipetsk.ru Аннотация
Ключевые слова: нормальное распределение (распределение Гаусса), методы статистического анализа, распределения статистических величин в металлургии, устойчивые законы распределения. В практических приложениях статистики наиболее общий случай описания объектов и явлений – экспериментальные данные. Если случайные величины и события нельзя воспроизвести многократно, либо характеристики их поведения непредсказуемо изменяются во времени и пространстве, то такие случайные величины и события относят к нестатистическим и не рассматривают в качестве объекта статистического изучения. Статистические же экспериментальные данные обрабатываются методами статистического анализа. Классическая основа статистического описания и методов статистической обработки – нормальный закон распределения случайных величин. Специалисты-практики призваны профессионально применить положения теории к конкретной практической задаче. И тут возникает особый случай: слишком часто [1,2] уже на первых шагах обработки статистического материала вопиющим образом проявляются отклонения от “нормальности”. Что делать? – “Притянуть” ли исходные данные к классическим предпосылкам статистического анализа? (Не приходится ожидать, что при подобном исходном посыле результаты будут удовлетворительными и стабильными.) Стремиться ли отметить и осмыслить обнаружившуюся ситуацию (и как реализовать подобную стратегию)? Во-первых, необходимо снять определённый просто психологический прессинг:
Между тем, как отметил Бобров [1, стр.83], Пирсон назвал закон распределения Гаусса-Лапласа “условной нормой”, доказав близость этого эмпирического закона теории биномиальных предпосылок. Пирсон не преследовал цель выйти на механизм явлений и материальные факторы, которые формируют особенности распределения конкретного наблюдения, - он решал чисто интерполяционную задачу “подыскать аналитическую кривую, которая сглаживала бы погрешности наблюдения при заданных четырёх моментах”. Пирсон решил свою задачу исчерпывающе. А практические приложения статистики идут от небольших выборок и к моделированию реальных ситуаций, - “нормальность” может здесь быть как частный и редкий случай; распределение Гаусса является не нормой, а одним из многих (и, как уже доказано [1-5], совсем не лучшим распределением для моделирования подавляющего большинства реальных событий и явлений). Поэтому мы, не смея настаивать, но вполне убеждённо призываем не использовать далее слово “нормальное” как синоним распределения Гаусса и как “благословление” дальнейшего применения классических методов статистического анализа. Мы настаиваем на том, что одномерное распределение Гаусса является слишком частным практическим случаем, чтобы занимать центральное место в статистической теории. И что многомерное распределение Гаусса почти абсолютно несостоятельно для практического использования: Гауссовость предполагает линейную взаимосвязь составляющих, - но нелинейность как принцип объективной реальности, пожалуй, на данный момент уже признана бесспорно [2,6-8]. Хотя, конечно, жизнь многограннее любого принципа, и экстремально редкий случай многомерной выборки может быть порождён именно многомерным распределением Гаусса. Классический многомерный статистический анализ, будучи “Гауссовским”, очевидно в принципе не применим ни к какому практическому исследованию. Напомним, что условиями, исходно обеспеченными в статистической выборке, в традиционной статистике считаются:
Таким образом, во-первых, многообразие и мощность методов математической статистики базируется на априорном принятии выполнения довольно строгих ограничений в экспериментальных данных, во-вторых, отсутствует универсальность и прозрачность приложений методов математической статистики. Свойства статистических процедур при их “незаконном” применении теряют практическую ценность [3-5] (например, отклонения от распределения Гаусса исходных данных приводят к неустойчивости процедур). На фоне подобной туманности неудивительно, что практические применения естественных наук (физики, химии, астрономии) неуклонно избегали использования стандартных методов математической статистики. Очевидное направление попытки решения проблемы – сбор данных с обеспечением требуемых классических условий в получаемых выборках и проверка выборок на обладание требуемыми свойствами. Реализация подобного сбора часто не в силах исследователя. Реализация необходимых проверок зачастую тоже оказывается практически неприемлемой, так как проверка на нормальность требует большое количество наблюдений (>2000) , что в большинстве технических, биологических, экономических исследований невозможно. Нами был проведён следующий модельный эксперимент по оценке регрессионной зависимости. Было взято уравнение: y=b0+b1x1+b2x2+b3x3. С помощью генератора случайных чисел формировалась выборка независимых, распределённых по закону Гаусса с нулевым средним величин y, x1, x2 и x3 (объёмом 50 наблюдений). Так как y не зависит от x1, x2 и x3, то истинные значения коэффициентов b1,b2 и b3 должны быть равны нулю, а b0 равен нулю вследствие центрированности переменных. По сгенерированной выборке методом наименьших квадратов оценивались коэффициенты регрессии. Процесс генерации и расчёта продолжался 500 раз, по результатам были построены гистограммы для коэффициентов регрессии (рис. 1). Рис.1
Таблица 1
Так как все коэффициенты регрессии нулевые, то сведение данных по каждому коэффициенту в единую выборку равноценно описанию исходного явления выборкой объёма 2000 наблюдений. Гистограмма этой выборки представлена на рис. 2. Рис.2. Большой объём выборки позволил приблизиться от эмпирического уровня значимости (5,15%) к теоретическому (5%). Хотя ни большой объём, ни выполнение всех предпосылок классического статистического анализа (независимость случайных величин, однородность выборок, распределение по закону Гаусса) не дали однозначного совпадения теоретической (порождающей) и эмпирической (модельной) ситуации. В частных же (в малых) выборках проверка гипотезы наличия Гауссова закона распределения не идентифицировала его абсолютно (даже зрительно – см. Рис. 1 – формы гистограмм не близки к симметричной колоколообразной форме распределения Гаусса). Если замалчивать проблему правомочности применения аппарата математической статистики, то лучше отказаться от его применения в естественных науках (оставив только фундаментальные разделы статистической физики (интересно мнение специалистов соответствующего прикладного приложения), где рассматриваются колоссальные коллективы частиц и огромные количества сравнительно простых актов взаимодействия между частицами, то есть там, где стабильность объекта изучения явно высока, чего нет ни в технике, ни в экономике) [6,7]. Например, в Липецком государственном техническом университете активно ведутся работы по исследованию и моделированию технологий металлургического производства. “Живые” данные Новолипецкого металлургического комбината служат типичным примером выборок с реальных технологических объектов – и по объёму, и по “кососимметричности” законов распределения статистических признаков. Отличие от Гауссова распределения объяснимо материальными факторами:
Рис.3. Рис. 4. Однако руководства по математической статистике не разъясняют вопросы статистической устойчивости, обходят проблемы эмпирического исследования статистической устойчивости. Конечно, работы в этом направлении велись и ведутся: разработаны “нетрадиционные” методы математической статистики [8-16], “методы обработки данных” [17] и др. Расширение арсенала методов оказывается теоретически и практически важным, но их правильное использование опять-таки остаётся самым неясным (хотя и едва ли не самым решающим) моментом. В заключение остановимся подробнее на некоторых стратегических положениях. Проблема представительности выборок (на неё математическая статистика главным образом нацеливает свой аппарат) должна быть отнесена к проблеме выбора исходных интуитивных посылок. Это неформальная по своей сути проблема. Её решение вряд ли когда-то будет оформлено. В прикладной статистике исторически сложилось (Гаусс) и до сих пор часто принимается, что погрешности измерений имеют нормальное распределение. При этом предположении построены классические модели регрессионного, дисперсионного, факторного анализов, метрологические модели. Но многолетний опыт доказал, что теоретических оснований для такого предположения нет [1,8]. Вообще, основы статистического метода построены на теории ошибок Гаусса: Кетле [1], получив ряд показаний о росте большого числа индивидов, получил кривую распределения, близкую к кривой Гаусса, что и послужило основанием для проведения аналогии между распределением случайных ошибок и распределением статистического признака. Но схема Кетле может быть применима только тогда, когда мы по той или иной причине постулируем относительную однородность распределения. ( А что касается роста людей, то неприемлемость закона Гаусса для распределения этого статистического признака доказана нашим достаточно обширным (на выборке более 1500 измерений) экспериментальным исследованием. Значит, с одной стороны, распределения погрешностей следовало бы изучать экспериментально. А с другой – признать “ненормальность” огульного применения в практических исследованиях статистических схем на основе распределения Гаусса. Реальные события и объекты далеки от подобной “нормальности”. Бобров [1] показал, что в экономической статистике распределение Гаусса является не столько правилом, сколько исключением. Впрочем, экономическая статистика (особо отмечена американская школа) вообще чётко определила различия между применением статистических характеристик в статических и динамических совокупностях. Отсутствие “Гауссовости” требует разработки устойчивых (учитывающих наличие отклонений от распределения Гаусса) и свободных от распределения процедур (например, уже широко применяется такой метод построения доверительных интервалов, как бутстреп: предположение о нормальности или об ином параметрическом виде функции распределения не требуется). Проблемы множественных проверок статистических гипотез связаны с влиянием результатов предыдущих проверок на оценки характеристик (на уровень значимости, на мощность). Дело в том, что результаты последовательно проводящихся проверок не являются независимыми. И как итог - в большинстве случаев статистические свойства процедур анализа данных, основанных на множественных проверках, неизвестны. Сама по себе проблема множественных проверок статистических гипотез есть часть более общей проблемы “стыковки” (сопряжения) статистических процедур. Каждая процедура может применяться лишь при некоторых условиях, а в результате применения предыдущих процедур эти условия могут нарушаться. Проблема “стыковки” обсуждается давно [18], но окончательных результатов пока не получено. Конечной целью практически любого статистического анализа является получение новой информации, полезной для управления анализируемым объектом либо его аналогом. Такая постановка вопроса требует комплексного системного подхода с использованием методологии системного анализа. Обязательный этап системного подхода - проверка соответствия собранного статистического материала тем ограничениям, которые лежат в основе выбранной математической схемы и статистических методов. Привязка методологии к схеме закона распределения Гаусса неоправданно сужает сферу приложения статистики. Проблемы, лежащие перед современной прикладной статистикой, и многочисленны, и многообразны. Первая важная посылка в их решении - отказ от гипотезы наличия Гауссова распределения, создание методов устойчивого, стабильного оценивания в альтернативе к классическому подходу. Пример перспективности подобной стратегии – разработка и применение “ближайших родственников” закона распределения Гаусса [19]: устойчивые законы распределения (законы Коши, Леви и др.) родственны семействам нормальных и вырожденных распределений (они выросли из ослабления требований к независимости случайных величин и расширения понимания центральной предельной теоремы на аппроксимацию не только нормальным законом, но и другими распределениями определённой аналитической структуры). Опустим здесь изложение свойств устойчивых законов (соответствующие математические сведения хорошо поданы в [20]) и проиллюстрируем их ценность следующими примерами приложений: Сверхзадачей видится внесение в прикладную статистику идей новой научной парадигмы Ильи Пригожина [21] – его идеи необратимого времени, хаоса в моделировании. Выводы
Список литературы |
* * *
ДИСКУССИЯ |
||
От кого | Вопрос | Ответ |
Сергей |
Доклад очень понравился нестандартным подходом к статанализу. Как замечание необходмимо отметить, что в тексте есть путаница с температурами чугуна и стали. Очевидно и поясенения должны быть несколько иными? |
С искренним извинением к читателям признаём досадную неточность на рисунках 3 и 4: cледует читать "рисунок 3" вместо "рисунок 4" (и наоборот) с учётом ошибочного названия осей температур (температуры от 1330 до 1420 градусов определяют чугун, а температуры от 1615 до 1705 градусов определяют сталь). Единственное, что способно нас несколько оправдать, - эти ошибки не исказили центральной мысли статьи: "нормальное" распределение не присутствует ни в одном из обоих примеров (значимое смещение вершины колокола распределения от центра вправо). |
Задать вопрос |
||
Спросить по e-mail (в строке "Тема" укажите: вопрос к докладу №12-2) |