ПЖиВ 2 + FAQ
Dec. 10th, 2011 01:08 am1. Я обновил все графики в моей основной записи с анализом результатов выборов: http://kobak.livejournal.com/101512.html и выложил там в конце результаты нескольких новых анализов. Главное: я разделил городские и негородские (сельские) участки и проверил теорию Чурова (который пытался ответить на критику
podmoskovnik) о том, что эти две выборки описываются гауссианами с разными средними. Теория не подтвердилась. Кроме того, я переделал оценку несфальсифицированных результатов: теперь в каждом регионе город и село обсчитываются отдельно. Результат не изменился: у ЕР ~37%. Но новый анализ более правильный, см. по ссылке. Видно, что в городах поддержка ЕР примерно на 10% меньше, чем в сельской местности, но и фальсификаций в городах, кажется, меньше. А в деревне творится полный беспредел. В качестве бонуса — «комета» ЕР, разложенная по регионам.
А теперь — ответы на часто задаваемые вопросы.
2. Некоторые из коллег любят повторять, что эти данные и наши графики «ничего не доказывают» (пример). Я совершенно не согласен. Эти данные очень убедительно подтверждают наличие фальсификаций и позволяют примерно оценить их масштаб; можно, конечно, утверждать, что никакие данные в принципе ничего не доказывают (т.е. доказательства вне математики не возможны) — это интересная философская позиция, но мы ведь не её обсуждаем. Как сказал мудрый А.А.: «Я-то статистику использую постоянно, и если мои гипотезы однажды получат такое блестящее подтверждение, как гипотеза о фальсификации, я сразу сяду писать статью в Nature».
Update. Cлучайно увидел отличную формулировку (принадлежит юзеру
taki_net: «... статистика доказывает МАСШТАБ „необычного поведения“, а то, что он ОБЪЯСНЯЕТСЯ „вбросом“ (в широком смысле), доказывается наличием фактов за эту гипотезу и отсутствием фактов за альтернативные». Именно так.
3. Много претензий в том, что избиратели неоднородны (есть регионы с «особой электоральной культурой» бла-бла-бла), и поэтому устанавливать грань по явке для всей страны нельзя. Господа! Перечитайте мой анализ. Именно поэтому я (и не только я) и анализирую каждый регион по-отдельности! И именно поэтому в каждом регионе я отдельно обсчитываю город и деревню. Получающиеся кластеры довольно небольшие и довольно однородные, в них коррекция вполне возможна.А насчет регионов с особой, прости Господи, электоральной культурой: ну вот, например, в Чечне ЕР получила 99% и мой анализ выдает 0% фальсификаций. Это не значит, что в Чечне всё так честно; это значит, что статистическими методами подтасовки там не отбросить: все участки там одинаково плохие, явка везде 99%. Ну что делать, я считаю все эти голоса честными. И всё равно в итоге у ЕР 36%.
Update: я нашел способ оценить результаты на Кавказе, спасибо Северной Осетии. Подробности в апдейте к основной записи.
4. Есть обратные упреки: оценка завышена, потому что, кроме вбросов, были еще карусели и т.п. (пример). Это так, но почитайте, что говорит человек, который фальсификации организовывал (страшно интересное интервью, рекомендую): «...все эти „ручейки“ и „карусели“ это хуйня, это как мёртвому припарки <...> на результат они не влияют почти. А основные нарушения на подсчёте уже, когда не ловит никто».
5. Всплески явки и голосов за ЕР на процентах, кратных 5, — это очень весело и замечательно доказывает факт фальсификаций (можно попытаться оценить p-value, получится астрономически маленькое число), но на результат влияет мало. Такие участки можно просто выкинуть, результат почти не изменится. То же самое касается и участков с явкой в 100%, они приносят ЕР дополнительных всего порядка 2%.
6. Мне справедливо указали, что во всех воинских частях явка всегда не меньше ~96% (без всяких вбросов), а мой анализ эти участки отбрасывает. Увы, это так. Я не знаю способа это исправить и отличить воинские участки с добровольной высокой явкой от участков с мегавбросами. Кроме того, я сильно подозреваю, что либо голосуют в воинских частях не совсем добровольно, либо подсчет там не совсем честный (там наблюдатели вообще есть, кстати?), так что исключить их не совсем вредно.
На этом пока всё — а впереди, друзья, нас ожидают парадокс Симпсона и закон Бенфорда. Математика выборов таит в себе много интересного.
А теперь — ответы на часто задаваемые вопросы.
2. Некоторые из коллег любят повторять, что эти данные и наши графики «ничего не доказывают» (пример). Я совершенно не согласен. Эти данные очень убедительно подтверждают наличие фальсификаций и позволяют примерно оценить их масштаб; можно, конечно, утверждать, что никакие данные в принципе ничего не доказывают (т.е. доказательства вне математики не возможны) — это интересная философская позиция, но мы ведь не её обсуждаем. Как сказал мудрый А.А.: «Я-то статистику использую постоянно, и если мои гипотезы однажды получат такое блестящее подтверждение, как гипотеза о фальсификации, я сразу сяду писать статью в Nature».
Update. Cлучайно увидел отличную формулировку (принадлежит юзеру
3. Много претензий в том, что избиратели неоднородны (есть регионы с «особой электоральной культурой» бла-бла-бла), и поэтому устанавливать грань по явке для всей страны нельзя. Господа! Перечитайте мой анализ. Именно поэтому я (и не только я) и анализирую каждый регион по-отдельности! И именно поэтому в каждом регионе я отдельно обсчитываю город и деревню. Получающиеся кластеры довольно небольшие и довольно однородные, в них коррекция вполне возможна.
Update: я нашел способ оценить результаты на Кавказе, спасибо Северной Осетии. Подробности в апдейте к основной записи.
4. Есть обратные упреки: оценка завышена, потому что, кроме вбросов, были еще карусели и т.п. (пример). Это так, но почитайте, что говорит человек, который фальсификации организовывал (страшно интересное интервью, рекомендую): «...все эти „ручейки“ и „карусели“ это хуйня, это как мёртвому припарки <...> на результат они не влияют почти. А основные нарушения на подсчёте уже, когда не ловит никто».
5. Всплески явки и голосов за ЕР на процентах, кратных 5, — это очень весело и замечательно доказывает факт фальсификаций (можно попытаться оценить p-value, получится астрономически маленькое число), но на результат влияет мало. Такие участки можно просто выкинуть, результат почти не изменится. То же самое касается и участков с явкой в 100%, они приносят ЕР дополнительных всего порядка 2%.
6. Мне справедливо указали, что во всех воинских частях явка всегда не меньше ~96% (без всяких вбросов), а мой анализ эти участки отбрасывает. Увы, это так. Я не знаю способа это исправить и отличить воинские участки с добровольной высокой явкой от участков с мегавбросами. Кроме того, я сильно подозреваю, что либо голосуют в воинских частях не совсем добровольно, либо подсчет там не совсем честный (там наблюдатели вообще есть, кстати?), так что исключить их не совсем вредно.
На этом пока всё — а впереди, друзья, нас ожидают парадокс Симпсона и закон Бенфорда. Математика выборов таит в себе много интересного.
no subject
Date: 2011-12-10 01:50 am (UTC)Во-первых у гауссианы бесконечные хвосты с обоих концов, чего в данном случае заведомо не может быть.
Во-вторых, гауссианой наблюдаемые в природе распределения далеко не исчерпываются. Взять хоть то же распределение Пуассона.
no subject
Date: 2011-12-10 07:26 am (UTC)(no subject)
From:no subject
Date: 2011-12-10 08:07 am (UTC)знаете, тут дальтоники обратили мое внимание на то, что они этих диаграмм не видят, а их все же 6% от мужиков. Надо бы подумать, что можно сделать, чтобы все были щасливы.
no subject
Date: 2011-12-10 04:57 pm (UTC)Дальтоникам плохо, но мне казалось, что они (по крайней мере многие) синий и красный должны различать, нет?
А Вы уже видели вот эту картинку:
http://nl.livejournal.com/1082778.html
Поздравляю :) Хороший график получился.
Таинственные "корелляции" на участках со сканерами
Date: 2011-12-10 08:47 am (UTC)http://oude-rus.livejournal.com/545739.html
no subject
Date: 2011-12-10 09:14 am (UTC)может - как в большую, так и в меньшую стороны.
Скорее всего ты занижаешь процент голосов за ЕдРо.
в свете вышесказанного, почему именно "занижаешь", а не наоборот?
к примеру, цифра 36%, как я понял, учитывает результаты чечни и иже с нею, т.к. там нет возможности отличить реальные данные от подделанных
учитывая то, что среди неответивших должна быть выше доля протестного электората.
ну, можно еще учитывать, что irl при опросах типа "вы - гей?" ответы могут не совпадать с действительностью
Что означае высокий % неответивших.
Date: 2011-12-18 07:53 pm (UTC)Вообще-- в более широком аспекте такой большой процент не ответивших ВСЕГДА косвенный симптом того, что голоса этих уклонившихся от ответа были распределены отнюдь не пропорционаьно голосам ответивших.
Кстати, нечто подобное наблюдалась и при соцопросах в декабре 1993--за несколько дней до выборов. Тогда среди определившихся с отрывом лидировал Выбор России (порядка 30%), а ЛДПР, хоть и наращивала динамику от опросов к опросам(важнейший симптом), но но отставала минимум вдвое. Однако. до 40% из принявших решение голосовать, уклонялось от ответа--за кого. В итоге ЛДПР получсила под 23%, ВР--лишь 15,5%, а все основые оциологические службы(распределившие голоса неопределившихся пропорцнально определившимся) лажанулись по крупному. С тх пр они(ВЦИОМ, напр.) стали вводить специальные поправочные ЭМПИРИЧЕСКИЕ коэффициенты--на типо ИСКАЖЕНИЕ. При этом за основу при подборе таких коэффициентов берутсярались тенденции и пропорции предшествующих выборов применительно к результатам "чистых" соцопросов перед этими предшестующими выборами. Но такие коэффициенты плохо работают при резкой смене настроений избирателей.
Забавно, но похожая ситуация наблюдалсь и на выборах губернатора традиционно демократического штата Мэрилэнд в 1994-году, когда здорово отстававшая по опросам(и, опять-таки, имелась необычно высокая доля неопределившихся и сокращение разрыва в последние дни, но некритическое) кандидат республиканцев лишь "по фотофинишу" проиграла кандидату от Демократов(так что даже был пересчёт).
Поэтому 43% от 70% это ЗАВЕДОМЫЕ 30%, а дальше, базируясь на данных этого экзит-полла, определённо сказать ничего нельзя вообще.
По комплексу соображений(здесь не аргумнентирую, ибо не хочу уводить тему экзит-поллов в сторону), оценка в диапазоне 36-40 % (среднее-как раз 38%) предсталяется наиболее вменяемой. Но истинного результата не знают даже фальсификаторы.
(no subject)
From:no subject
Date: 2011-12-10 12:23 pm (UTC)1) Это уязвимое место, да. Но логика такая: если ты посмотришь на кривые threshold-результат, вычисленные по стране, то видно, что результат за ЕР с увеличением явки сначала *уменьшается*, а потом начинает расти. Я предполагаю, что в начале мы имеем дело с увеличеним активности протестного электората, а потом -- с вбросами. Соответственно минимум выглядит "особой точкой", которую я и брал за оценку истинного результата. Никаких других идей о том, как можно было бы выбрать эту точку, у меня нет. Кстати, Сергей Шпиленок пользуется немного другим методом -- когда он досчитает на полных данных, сравним.
2) Про сглаживание -- разумно, но кажется, там не такие уж шумные кривые. Каждая кривая начинается с явки, при которой проголосовали 10 тыс. человек, это не так уж мало. Но я посмотрю, может, лучше сгладить.
3) Постараюсь сделать.
4) Я, конечно, взвешивал: в том смысле, что я для каждого региона (в городе и деревне) определял хорошие и плохие УИКи, и потом просто брал все хорошие УИКи по стране для подсчета окончательного результата. Но ты прав: это совершенно неправильная методика! Потому что в каких-то регионах после коррекции может получиться очень мало избирателей, и они почти не повлияют на окончательный результат. Более того, я подозреваю, что это приведет к занижению результата за ЕР, потому что чем больше фальсификаций в регионе -- тем ниже будет порог явки, и тем меньше там останется избирателей.
Думаю, нужно попробовать сделать так: в каждом регионе (городе/деревне) после нахождения пороговой явки, экстраполировать эту пороговую явку на все отброшенные УИКи, и брать получившееся число избирателей как вес. Сделаю -- сообщу.
no subject
Date: 2011-12-11 02:11 am (UTC)а где же
From:(no subject)
From:(no subject)
From:(no subject)
From:интересная оценка.
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2011-12-10 11:51 am (UTC)Спасибо за то, что вы делаете.
Периодически отправляю ссылочки на Ваш обзор тем людям, которые бывают очень удивлены, что просто элементарная математика (статистика, теория вероятностей), чётко показывает на фальсификацию.
Я многократно писал ранее, что протоколы УИК, должны иметь защиту круче, чем у денег.
Все протоколы должны быть номерными, напечатанными на гознаке, и иметь не строгую, а строжайшую отчётность, за любую фальсификацию или попытку, мгновенное ограничение свободы.
Нет, каждый бюллетень защищён, а основная бумажечка, где можно фальсифицировать просто печатается на принтере...
no subject
Date: 2011-12-10 12:25 pm (UTC)(no subject)
From:Одна проблема...
From:Re: Одна проблема...
From:Re: Одна проблема...
From:Re: Одна проблема...
From:no subject
Date: 2011-12-10 02:33 pm (UTC)no subject
Date: 2011-12-10 03:42 pm (UTC)(no subject)
From:no subject
Date: 2011-12-10 04:02 pm (UTC)no subject
Date: 2011-12-10 04:04 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2011-12-10 10:24 pm (UTC)> Я совершенно не согласен. Эти данные очень убедительно подтверждают наличие фальсификаций и позволяют примерно оценить их масштаб
Они соотносятся с гипотезой о фальсификациях, но этим не доказывают её. Если все остальные альтернативные гипотезы окажутся неверны (например, на подозрительных территориях живут люди, которые действительно очень любят ЕР, ну и т.п.), только тогда можно хоть о чём-то говорить. Строго говоря, чтобы доказать, что только ваша гипотеза -- единственно верная, нужно опровергнуть все остальные, что неконструктивно, поэтому...
А то ведь этот график
тоже показывает, что борьба с пиратством -- главная причина глобального потепления.
> можно, конечно, утверждать, что никакие данные в принципе ничего не доказывают (т.е. доказательства вне математики не возможны) — это интересная философская позиция, но мы ведь не её обсуждаем.
...статистическими данными ничего в здравом уме не доказывают. Ими ищут неучтённую систематику и аномалии, которые должны быть объяснены процессно, т.е. при помощи чётких доказательств (в контексте выборов это -- конкретные нарушения на участках, несоответствия протоколов и т.п.). Они несомненно дают обзор "сверху" по поводу того, какие места стоит перепроверить.
no subject
Date: 2011-12-10 11:16 pm (UTC)Естественно, чтобы сделать выводы, нам нужно иметь какое-то априорное представление о вероятности возможных гипотез. И такое представление у нас вполне есть: гипотеза о массовой фальсификации представляется вполне вероятной.
А про correlation does not imply causation я понимаю, да.
Простите, я с Вами не знаком, и дневник Ваш раньше не читал, поэтому не знаю: а у Вас есть опыт научной работы в какой-нибудь естественно-научной области? Просто если уж мы говорим о методологии науки, то личный научный опыт становится важным для оценки мнения собеседника. (У меня есть, но (пока) небольшой.)
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2011-12-11 03:29 am (UTC)Несколько ссылок на методологию и применение закона Бенфорда для второй цифры в electoral forensics есть в этой записи (http://riftsh.livejournal.com/164725.html).
no subject
Date: 2011-12-11 01:25 pm (UTC)Вот что, по-моему, нужно сделать:
1) берем реальное распределение голосов за ЕР (гистограмму количества участков по числу голосов за ЕР).
2) сглаживаем
3) случайно выбираем 95000 чисел из этого распределения и смотрим на распределение вторых цифр
4) делаем это 10000 раз
5) строим доверительные интервалы для распределения вторых цифр
6) смотрим, насколько реальное распределение отличается от получившейся оценки возможных распределений.
Иными словами, нужно просто сделать бутстрап по-человечески. Чем я и займусь :)
(no subject)
From:no subject
Date: 2011-12-11 11:12 am (UTC)Это может как-то быть математически обосновано?
no subject
Date: 2011-12-11 01:08 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2011-12-12 09:19 am (UTC)no subject
Date: 2011-12-12 10:43 am (UTC)no subject
Date: 2011-12-12 04:31 pm (UTC)правильно ли будет резюмировать Вашу проверку гипотезы Чурова о сложении двух Гауссиан так:
1. Предположение о двух разных популяциях, городской и сельской, опровергается графиком, где город и деревня разложены (на синюю и зеленую линии).
2. Предположение о региональной разнице опровергается картинкой "комет ЕР" по регионам: в большинстве регионов наблюдается положительная корреляция.
Я обратил внимание на то, что Вы не привели раздельных графиков по распределению процентов за партии для города и деревни. То есть, Вы доказываете, что были участки с вбросом, но не рассматриваете вопрос "в чью пользу вброс".
Было бы очень здорово посмотреть на график распределения голосов за партии (тот, где появляется второй пик за ЕР) отдельно по городу и деревне. Это придало бы анализу некоторую окончательность. Наверное, это нетрудно сделать?
Тогда предполагаемому оппоненту пришлось бы искать какую-то третью переменную, по которой население разделяется на две группы: не регион, не город/деревня, а что-то еще. Задача практически невозможная.
Спасибо за Вашу работу.
no subject
Date: 2011-12-13 01:36 am (UTC)1. На моих графиках ясно видно, что город и деревня различаются. В этом смысле Чуров с соавторами прав. И именно поэтому я провожу мою коррекцию отдельно для города и деревни в каждом регионе. Но вот такого эффекта, как у Чурова в статье, когда город и деревня описываются красивыми гауссианами с разными средними, — такого я не вижу. То есть город и деревня различаются, но не НАСТОЛЬКО различаются, как утверждает Чуров et al. По крайней мере в масштабах России получается так.
2. Между регионами разница безусловно есть, и еще какая. В некоторых "кометы" почти нет и выборы честные. Опять же, именно поэтому я провожу коррекцию отдельно по каждому региону.
Я не совсем понял, какой график Вы хотите увидеть. "График распределения голосов за партии (тот, где появляется второй пик за ЕР)" -- это какой? Вы имеете в виду график, на котором видны пики на процентах, кратных 5% (первый график из первого апдейта в моей основной записи)? В принципе могу это сделать отдельно для города и деревни, но обратите внимание, что третий график из второго апдейта (там где разделены город и деревня) -- это ровно та же кривая, но только для ЕР, без остальных партий.
(no subject)
From:(no subject)
From:no subject
Date: 2011-12-13 12:06 am (UTC)Спасибо за ваши записи, ужасно интересно читать. Восхищаюсь ващей дотошностью:)
no subject
Date: 2011-12-16 03:04 pm (UTC)no subject
Date: 2011-12-13 09:14 pm (UTC)1) Я восхищен тщательностью проделанной работы
2) Прости, если я не слишком внимательно читал, но я не очень понял, как твой анализ учитывает переписывание результатов, когда голоса отбираются у одних партий и отдаются другим?
no subject
Date: 2011-12-13 09:19 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2011-12-15 11:40 am (UTC)Отсюда я не уверен, что результаты раздельного анализа по регионом точнее общего.
Кстати, планирую в ближайшее время выложить англо-язычную статью в архив по уже известному вам материалу.
no subject
Date: 2011-12-17 10:38 am (UTC)no subject
Date: 2011-12-18 02:23 pm (UTC)Согласен с вами, но некоторые ( http://lj.rossia.org/users/lqp/438866.html ) из этого на полном серьезе делают вывод, что и фальсификаций мало, хотя это указывает лишь на то, что не очень много округляющих фальсификаторов.
С другой стороны, в некоторых случаях эти всплески неплохо указывают на участки, где эти фальсификации следует поискать в первую очередь.
номерные бюллетени
Date: 2011-12-19 06:35 am (UTC)на выборах 4 декабря, мне показалось, такие и были.
пусть даже номер не открыто показан, а в штрих-коде.
Выдаются бюллетени по очереди, из пачки напечатанных подряд, под роспись.
тайного голосования уже практически нет.
Может, тогда не обманывать народ, и ввести открытое поимённое голосование,
с публикацией списков?
тогда каждый сможет удостовериться, как посчитан его голос,
да и пересчитать мвсё сможет каждый желающий.
Мухлёж будет исключён в принципе.