ПЖиВ 2 + FAQ
Dec. 10th, 2011 01:08 am1. Я обновил все графики в моей основной записи с анализом результатов выборов: http://kobak.livejournal.com/101512.html и выложил там в конце результаты нескольких новых анализов. Главное: я разделил городские и негородские (сельские) участки и проверил теорию Чурова (который пытался ответить на критику
podmoskovnik) о том, что эти две выборки описываются гауссианами с разными средними. Теория не подтвердилась. Кроме того, я переделал оценку несфальсифицированных результатов: теперь в каждом регионе город и село обсчитываются отдельно. Результат не изменился: у ЕР ~37%. Но новый анализ более правильный, см. по ссылке. Видно, что в городах поддержка ЕР примерно на 10% меньше, чем в сельской местности, но и фальсификаций в городах, кажется, меньше. А в деревне творится полный беспредел. В качестве бонуса — «комета» ЕР, разложенная по регионам.
А теперь — ответы на часто задаваемые вопросы.
2. Некоторые из коллег любят повторять, что эти данные и наши графики «ничего не доказывают» (пример). Я совершенно не согласен. Эти данные очень убедительно подтверждают наличие фальсификаций и позволяют примерно оценить их масштаб; можно, конечно, утверждать, что никакие данные в принципе ничего не доказывают (т.е. доказательства вне математики не возможны) — это интересная философская позиция, но мы ведь не её обсуждаем. Как сказал мудрый А.А.: «Я-то статистику использую постоянно, и если мои гипотезы однажды получат такое блестящее подтверждение, как гипотеза о фальсификации, я сразу сяду писать статью в Nature».
Update. Cлучайно увидел отличную формулировку (принадлежит юзеру
taki_net: «... статистика доказывает МАСШТАБ „необычного поведения“, а то, что он ОБЪЯСНЯЕТСЯ „вбросом“ (в широком смысле), доказывается наличием фактов за эту гипотезу и отсутствием фактов за альтернативные». Именно так.
3. Много претензий в том, что избиратели неоднородны (есть регионы с «особой электоральной культурой» бла-бла-бла), и поэтому устанавливать грань по явке для всей страны нельзя. Господа! Перечитайте мой анализ. Именно поэтому я (и не только я) и анализирую каждый регион по-отдельности! И именно поэтому в каждом регионе я отдельно обсчитываю город и деревню. Получающиеся кластеры довольно небольшие и довольно однородные, в них коррекция вполне возможна.А насчет регионов с особой, прости Господи, электоральной культурой: ну вот, например, в Чечне ЕР получила 99% и мой анализ выдает 0% фальсификаций. Это не значит, что в Чечне всё так честно; это значит, что статистическими методами подтасовки там не отбросить: все участки там одинаково плохие, явка везде 99%. Ну что делать, я считаю все эти голоса честными. И всё равно в итоге у ЕР 36%.
Update: я нашел способ оценить результаты на Кавказе, спасибо Северной Осетии. Подробности в апдейте к основной записи.
4. Есть обратные упреки: оценка завышена, потому что, кроме вбросов, были еще карусели и т.п. (пример). Это так, но почитайте, что говорит человек, который фальсификации организовывал (страшно интересное интервью, рекомендую): «...все эти „ручейки“ и „карусели“ это хуйня, это как мёртвому припарки <...> на результат они не влияют почти. А основные нарушения на подсчёте уже, когда не ловит никто».
5. Всплески явки и голосов за ЕР на процентах, кратных 5, — это очень весело и замечательно доказывает факт фальсификаций (можно попытаться оценить p-value, получится астрономически маленькое число), но на результат влияет мало. Такие участки можно просто выкинуть, результат почти не изменится. То же самое касается и участков с явкой в 100%, они приносят ЕР дополнительных всего порядка 2%.
6. Мне справедливо указали, что во всех воинских частях явка всегда не меньше ~96% (без всяких вбросов), а мой анализ эти участки отбрасывает. Увы, это так. Я не знаю способа это исправить и отличить воинские участки с добровольной высокой явкой от участков с мегавбросами. Кроме того, я сильно подозреваю, что либо голосуют в воинских частях не совсем добровольно, либо подсчет там не совсем честный (там наблюдатели вообще есть, кстати?), так что исключить их не совсем вредно.
На этом пока всё — а впереди, друзья, нас ожидают парадокс Симпсона и закон Бенфорда. Математика выборов таит в себе много интересного.
А теперь — ответы на часто задаваемые вопросы.
2. Некоторые из коллег любят повторять, что эти данные и наши графики «ничего не доказывают» (пример). Я совершенно не согласен. Эти данные очень убедительно подтверждают наличие фальсификаций и позволяют примерно оценить их масштаб; можно, конечно, утверждать, что никакие данные в принципе ничего не доказывают (т.е. доказательства вне математики не возможны) — это интересная философская позиция, но мы ведь не её обсуждаем. Как сказал мудрый А.А.: «Я-то статистику использую постоянно, и если мои гипотезы однажды получат такое блестящее подтверждение, как гипотеза о фальсификации, я сразу сяду писать статью в Nature».
Update. Cлучайно увидел отличную формулировку (принадлежит юзеру
3. Много претензий в том, что избиратели неоднородны (есть регионы с «особой электоральной культурой» бла-бла-бла), и поэтому устанавливать грань по явке для всей страны нельзя. Господа! Перечитайте мой анализ. Именно поэтому я (и не только я) и анализирую каждый регион по-отдельности! И именно поэтому в каждом регионе я отдельно обсчитываю город и деревню. Получающиеся кластеры довольно небольшие и довольно однородные, в них коррекция вполне возможна.
Update: я нашел способ оценить результаты на Кавказе, спасибо Северной Осетии. Подробности в апдейте к основной записи.
4. Есть обратные упреки: оценка завышена, потому что, кроме вбросов, были еще карусели и т.п. (пример). Это так, но почитайте, что говорит человек, который фальсификации организовывал (страшно интересное интервью, рекомендую): «...все эти „ручейки“ и „карусели“ это хуйня, это как мёртвому припарки <...> на результат они не влияют почти. А основные нарушения на подсчёте уже, когда не ловит никто».
5. Всплески явки и голосов за ЕР на процентах, кратных 5, — это очень весело и замечательно доказывает факт фальсификаций (можно попытаться оценить p-value, получится астрономически маленькое число), но на результат влияет мало. Такие участки можно просто выкинуть, результат почти не изменится. То же самое касается и участков с явкой в 100%, они приносят ЕР дополнительных всего порядка 2%.
6. Мне справедливо указали, что во всех воинских частях явка всегда не меньше ~96% (без всяких вбросов), а мой анализ эти участки отбрасывает. Увы, это так. Я не знаю способа это исправить и отличить воинские участки с добровольной высокой явкой от участков с мегавбросами. Кроме того, я сильно подозреваю, что либо голосуют в воинских частях не совсем добровольно, либо подсчет там не совсем честный (там наблюдатели вообще есть, кстати?), так что исключить их не совсем вредно.
На этом пока всё — а впереди, друзья, нас ожидают парадокс Симпсона и закон Бенфорда. Математика выборов таит в себе много интересного.
no subject
Date: 2011-12-10 01:50 am (UTC)Во-первых у гауссианы бесконечные хвосты с обоих концов, чего в данном случае заведомо не может быть.
Во-вторых, гауссианой наблюдаемые в природе распределения далеко не исчерпываются. Взять хоть то же распределение Пуассона.
no subject
Date: 2011-12-10 07:26 am (UTC)no subject
Date: 2011-12-10 08:07 am (UTC)знаете, тут дальтоники обратили мое внимание на то, что они этих диаграмм не видят, а их все же 6% от мужиков. Надо бы подумать, что можно сделать, чтобы все были щасливы.
no subject
Date: 2011-12-10 08:21 am (UTC)Закон больших чисел как бы намекает нам, что на малых числах теорвер работает хреново. ;) Но для распределение большого числа последовательностей небольшого размера закон больших чисел вполне себе должен работать, там вроде как раз должно быть распределение Пуассона.
С другой стороны, центральная предельная теорема как бы намекает нам, что распределение Гаусса хорошо, когда есть смесь многих более-менее равновеликих независимых факторов (со своими распределениями, не обязательно Гауссовыми). Если же доминирует небольшое количество факторов, то распределение может приобретать довольно замысловатые формы.
Скажем, возможно, что избиратели только одной из партий ленивы и голосовать не ходят, считая, что её победа и так гарантирована - в этом случае процент голосов будет коррелировать с процентом явки.
Ну или если за одну партию голосуют совершенно разные крупные группы людей, чьи размеры сравнимы с общим числом голосующих - скажем, два разных региона или две разных социальных группы.
Таинственные "корелляции" на участках со сканерами
Date: 2011-12-10 08:47 am (UTC)http://oude-rus.livejournal.com/545739.html
no subject
Date: 2011-12-10 09:14 am (UTC)может - как в большую, так и в меньшую стороны.
Скорее всего ты занижаешь процент голосов за ЕдРо.
в свете вышесказанного, почему именно "занижаешь", а не наоборот?
к примеру, цифра 36%, как я понял, учитывает результаты чечни и иже с нею, т.к. там нет возможности отличить реальные данные от подделанных
учитывая то, что среди неответивших должна быть выше доля протестного электората.
ну, можно еще учитывать, что irl при опросах типа "вы - гей?" ответы могут не совпадать с действительностью
no subject
Date: 2011-12-10 11:51 am (UTC)Спасибо за то, что вы делаете.
Периодически отправляю ссылочки на Ваш обзор тем людям, которые бывают очень удивлены, что просто элементарная математика (статистика, теория вероятностей), чётко показывает на фальсификацию.
Я многократно писал ранее, что протоколы УИК, должны иметь защиту круче, чем у денег.
Все протоколы должны быть номерными, напечатанными на гознаке, и иметь не строгую, а строжайшую отчётность, за любую фальсификацию или попытку, мгновенное ограничение свободы.
Нет, каждый бюллетень защищён, а основная бумажечка, где можно фальсифицировать просто печатается на принтере...
no subject
Date: 2011-12-10 12:23 pm (UTC)1) Это уязвимое место, да. Но логика такая: если ты посмотришь на кривые threshold-результат, вычисленные по стране, то видно, что результат за ЕР с увеличением явки сначала *уменьшается*, а потом начинает расти. Я предполагаю, что в начале мы имеем дело с увеличеним активности протестного электората, а потом -- с вбросами. Соответственно минимум выглядит "особой точкой", которую я и брал за оценку истинного результата. Никаких других идей о том, как можно было бы выбрать эту точку, у меня нет. Кстати, Сергей Шпиленок пользуется немного другим методом -- когда он досчитает на полных данных, сравним.
2) Про сглаживание -- разумно, но кажется, там не такие уж шумные кривые. Каждая кривая начинается с явки, при которой проголосовали 10 тыс. человек, это не так уж мало. Но я посмотрю, может, лучше сгладить.
3) Постараюсь сделать.
4) Я, конечно, взвешивал: в том смысле, что я для каждого региона (в городе и деревне) определял хорошие и плохие УИКи, и потом просто брал все хорошие УИКи по стране для подсчета окончательного результата. Но ты прав: это совершенно неправильная методика! Потому что в каких-то регионах после коррекции может получиться очень мало избирателей, и они почти не повлияют на окончательный результат. Более того, я подозреваю, что это приведет к занижению результата за ЕР, потому что чем больше фальсификаций в регионе -- тем ниже будет порог явки, и тем меньше там останется избирателей.
Думаю, нужно попробовать сделать так: в каждом регионе (городе/деревне) после нахождения пороговой явки, экстраполировать эту пороговую явку на все отброшенные УИКи, и брать получившееся число избирателей как вес. Сделаю -- сообщу.
no subject
Date: 2011-12-10 12:25 pm (UTC)no subject
Date: 2011-12-10 02:33 pm (UTC)no subject
Date: 2011-12-10 03:42 pm (UTC)no subject
Date: 2011-12-10 04:02 pm (UTC)no subject
Date: 2011-12-10 04:04 pm (UTC)no subject
Date: 2011-12-10 04:57 pm (UTC)Дальтоникам плохо, но мне казалось, что они (по крайней мере многие) синий и красный должны различать, нет?
А Вы уже видели вот эту картинку:
http://nl.livejournal.com/1082778.html
Поздравляю :) Хороший график получился.
no subject
Date: 2011-12-10 05:51 pm (UTC)no subject
Date: 2011-12-10 07:55 pm (UTC)no subject
Date: 2011-12-10 07:56 pm (UTC)no subject
Date: 2011-12-10 08:07 pm (UTC)no subject
Date: 2011-12-10 08:08 pm (UTC)no subject
Date: 2011-12-10 08:19 pm (UTC)Давно знаю 610 и универ,потрясло крайне скотское отношение к своей стране, хочу понять от кого и выдам в фсб.
no subject
Date: 2011-12-10 08:21 pm (UTC)no subject
Date: 2011-12-10 08:36 pm (UTC)no subject
Date: 2011-12-10 10:24 pm (UTC)> Я совершенно не согласен. Эти данные очень убедительно подтверждают наличие фальсификаций и позволяют примерно оценить их масштаб
Они соотносятся с гипотезой о фальсификациях, но этим не доказывают её. Если все остальные альтернативные гипотезы окажутся неверны (например, на подозрительных территориях живут люди, которые действительно очень любят ЕР, ну и т.п.), только тогда можно хоть о чём-то говорить. Строго говоря, чтобы доказать, что только ваша гипотеза -- единственно верная, нужно опровергнуть все остальные, что неконструктивно, поэтому...
А то ведь этот график
тоже показывает, что борьба с пиратством -- главная причина глобального потепления.
> можно, конечно, утверждать, что никакие данные в принципе ничего не доказывают (т.е. доказательства вне математики не возможны) — это интересная философская позиция, но мы ведь не её обсуждаем.
...статистическими данными ничего в здравом уме не доказывают. Ими ищут неучтённую систематику и аномалии, которые должны быть объяснены процессно, т.е. при помощи чётких доказательств (в контексте выборов это -- конкретные нарушения на участках, несоответствия протоколов и т.п.). Они несомненно дают обзор "сверху" по поводу того, какие места стоит перепроверить.
no subject
Date: 2011-12-10 11:16 pm (UTC)Естественно, чтобы сделать выводы, нам нужно иметь какое-то априорное представление о вероятности возможных гипотез. И такое представление у нас вполне есть: гипотеза о массовой фальсификации представляется вполне вероятной.
А про correlation does not imply causation я понимаю, да.
Простите, я с Вами не знаком, и дневник Ваш раньше не читал, поэтому не знаю: а у Вас есть опыт научной работы в какой-нибудь естественно-научной области? Просто если уж мы говорим о методологии науки, то личный научный опыт становится важным для оценки мнения собеседника. (У меня есть, но (пока) небольшой.)
no subject
Date: 2011-12-10 11:30 pm (UTC)Поэтому я всеми силами пытаюсь отбиться от роли Мессии, который будет нести откровение о "фальсифицированных выборах" в массы. Пока мы не уверены хотя бы на 99.999%, я бы искал альтернативные гипотезы. Вам тоже советую. Вы можете не представлять, сколько народу впопыхах даже не будет думать о том, что Вы можете ошибаться, а примут это за стопроцентную правду, лягущую на их (не без причины) уязвлённое чувство собственного достоинства, т.е. не выбиваемую обратно никакими средствами, если обнаружится ошибка.
У меня есть опыт естественно-научных исследований, главным образом в области производительности больших компьютерных систем. Несмотря на то, что там существует способ докопаться "до сути вещей", ибо всё детерминировано, в реальности гораздо дешевле эмпирикой получать простые оценки. И там, как следует из здравого смысла, тоже цену эксперимента определяет точность модели, а точность модели диктуется допустимостью ошибок I и II (и III ;)) рода.
С выборами и общественными волнениями допустимые границы ошибок настолько низки, что лучше даже не пытаться это делать. От науки анализ выборов отличает то, что анализ выборов скорее всего необратим (например, если он закончится переворотом), в то время как наука принимает в себя факт того, что эксперименты и выводы могут быть неверны, и имеет способы от этого не разваливаться по кускам.