Социальные факторы могут влиять на результаты статистического анализа научных данных
Юрий Словохотов, доктор химических наук, профессор химического факультета МГУ имени М.В.Ломоносова опубликовал статью, в которой сделал вывод о том, что социальные факторы оказывают влияние на анализ данных, получаемых в ходе научных исследований. Это значит, что анализ массивов таких данных стандартными статистическими методами следует проводить с осторожностью. Работа Юрия Словохотова была опубликована в журнале Structural Chemistry.
В ходе работы был сделан вывод о том, что кристаллографические и структурные данные, взятые из базы данных Cambridge Structural Database и других баз структурных данных, показывают негауссовы распределения с кластеризацией точек и большими флуктуациями, более характерные для экономики и общественных наук. Это значит, что стандартный анализ результатов физических измерений в применении к таким выборкам дает ошибки и может привести к некорректным выводам.
«Однотипные численные параметры (такие как длина связи между атомами в заданном структурном фрагменте), полученные многими группами исследователей в разных странах за длительный срок, внутренне неоднородны и подвержены сильным корреляциям вследствие влияния экономических и социальных факторов на научные исследования (финансирование перспективных направлений, обмен информацией, конкуренция), а также вследствие неоднородности и относительной немногочисленности научного сообщества, — комментирует доктор химических наук, профессор химического факультета МГУ имени М.В.Ломоносова Юрий Словохотов. — Анализ массивов таких данных стандартными статистическими методами, разработанными для независимых измерений случайных величин, следует проводить с осторожностью. В статистических исследованиях выборок из баз данных необходимо разделять влияние физических и социальных факторов».
В работе представлены графики распределений ряда кристаллографических и структурных параметров в выборках из Кембриджского банка (Cambridge Structural Database, CSD), а также распределения генеральных совокупностей кристаллических структур, хранящихся в CSD, Inorganic Crystal Structure Database (ICSD) и Protein Data Bank (PDB). Автор работы анализирует вид распределений и приводит их аналогии с распределениями численных параметров в социальных и экономических системах (законом Ципфа, биржевой статистикой и др.).
«Влияние "нефизических", т.е. социальных и экономических факторов на физические данные, полученные в научном сообществе как в социальной системе, ранее не отмечалось и не обсуждалось. Для развития этого направления следует анализировать массивы других физических параметров, что может привести к пересмотру некоторых выводов, сделанных ранее на основе их статистики. Однотипный характер статистики для результатов воспроизводимых физических измерений, полученных за большой интервал времени в научном сообществе, и для численных параметров "нефизических" процессов (доходность и стоимость акций, биржевые курсы, ранг-размерные распределения капитализации фирм и многое другие) позволяет развивать единые методы статистической обработки выборок, состоящих из сильно скоррелированных данных. Этот подход имеет большое практическое значение и может быть реализован уже сейчас», — сообщает Юрий Словохотов.
Добавьте свой комментарий