kobak: (Default)
[personal profile] kobak
1. Я обновил все графики в моей основной записи с анализом результатов выборов: http://kobak.livejournal.com/101512.html и выложил там в конце результаты нескольких новых анализов. Главное: я разделил городские и негородские (сельские) участки и проверил теорию Чурова (который пытался ответить на критику [livejournal.com profile] podmoskovnik) о том, что эти две выборки описываются гауссианами с разными средними. Теория не подтвердилась. Кроме того, я переделал оценку несфальсифицированных результатов: теперь в каждом регионе город и село обсчитываются отдельно. Результат не изменился: у ЕР ~37%. Но новый анализ более правильный, см. по ссылке. Видно, что в городах поддержка ЕР примерно на 10% меньше, чем в сельской местности, но и фальсификаций в городах, кажется, меньше. А в деревне творится полный беспредел. В качестве бонуса — «комета» ЕР, разложенная по регионам.

А теперь — ответы на часто задаваемые вопросы.

2. Некоторые из коллег любят повторять, что эти данные и наши графики «ничего не доказывают» (пример). Я совершенно не согласен. Эти данные очень убедительно подтверждают наличие фальсификаций и позволяют примерно оценить их масштаб; можно, конечно, утверждать, что никакие данные в принципе ничего не доказывают (т.е. доказательства вне математики не возможны) — это интересная философская позиция, но мы ведь не её обсуждаем. Как сказал мудрый А.А.: «Я-то статистику использую постоянно, и если мои гипотезы однажды получат такое блестящее подтверждение, как гипотеза о фальсификации, я сразу сяду писать статью в Nature».

Update. Cлучайно увидел отличную формулировку (принадлежит юзеру [livejournal.com profile] taki_net: «... статистика доказывает МАСШТАБ „необычного поведения“, а то, что он ОБЪЯСНЯЕТСЯ „вбросом“ (в широком смысле), доказывается наличием фактов за эту гипотезу и отсутствием фактов за альтернативные». Именно так.

3. Много претензий в том, что избиратели неоднородны (есть регионы с «особой электоральной культурой» бла-бла-бла), и поэтому устанавливать грань по явке для всей страны нельзя. Господа! Перечитайте мой анализ. Именно поэтому я (и не только я)  и анализирую каждый регион по-отдельности! И именно поэтому в каждом регионе я отдельно обсчитываю город и деревню. Получающиеся кластеры довольно небольшие и довольно однородные, в них коррекция вполне возможна. А насчет регионов с особой, прости Господи, электоральной культурой: ну вот, например, в Чечне ЕР получила 99% и мой анализ выдает 0% фальсификаций. Это не значит, что в Чечне всё так честно; это значит, что статистическими методами подтасовки там не отбросить: все участки там одинаково плохие, явка везде 99%. Ну что делать, я считаю все эти голоса честными. И всё равно в итоге у ЕР 36%.
Update: я нашел способ оценить результаты на Кавказе, спасибо Северной Осетии. Подробности в апдейте к основной записи.

4. Есть обратные упреки: оценка завышена, потому что, кроме вбросов, были еще карусели и т.п. (пример). Это так, но почитайте, что говорит человек, который фальсификации организовывал (страшно интересное интервью, рекомендую): «...все эти „ручейки“ и „карусели“ это хуйня, это как мёртвому припарки <...> на результат они не влияют почти. А основные нарушения на подсчёте уже, когда не ловит никто».

5. Всплески явки и голосов за ЕР на процентах, кратных 5, — это очень весело и замечательно доказывает факт фальсификаций (можно попытаться оценить p-value, получится астрономически маленькое число), но на результат влияет мало. Такие участки можно просто выкинуть, результат почти не изменится. То же самое касается и участков с явкой в 100%, они приносят ЕР дополнительных всего порядка 2%.

6. Мне справедливо указали, что во всех воинских частях явка всегда не меньше ~96% (без всяких вбросов), а мой анализ эти участки отбрасывает. Увы, это так. Я не знаю способа это исправить и отличить воинские участки с добровольной высокой явкой от участков с мегавбросами. Кроме того, я сильно подозреваю, что либо голосуют в воинских частях не совсем добровольно, либо подсчет там не совсем честный (там наблюдатели вообще есть, кстати?), так что исключить их не совсем вредно.

На этом пока всё — а впереди, друзья, нас ожидают парадокс Симпсона и закон Бенфорда. Математика выборов таит в себе много интересного.
Page 1 of 4 << [1] [2] [3] [4] >>

Date: 2011-12-10 01:50 am (UTC)
From: [personal profile] alll
> теорию Чурова ... о том, что каждая из этих двух выборок описывается гауссианой.

Во-первых у гауссианы бесконечные хвосты с обоих концов, чего в данном случае заведомо не может быть.

Во-вторых, гауссианой наблюдаемые в природе распределения далеко не исчерпываются. Взять хоть то же распределение Пуассона.

Date: 2011-12-10 07:26 am (UTC)
From: (Anonymous)
вообще-то целочисленное распределение ограниченных выборок из ограниченного же набора вероятных исходов вообще комбинаторная задача, и в случае малого числа выборок и исходов - даже плохо сглаживаемая, и не только гауссом. но в нашем случае гаусс, если не врёт мой склероз - очень даже хорош.

Date: 2011-12-10 08:07 am (UTC)
From: [identity profile] oude-rus.livejournal.com
фантастическая работа.

знаете, тут дальтоники обратили мое внимание на то, что они этих диаграмм не видят, а их все же 6% от мужиков. Надо бы подумать, что можно сделать, чтобы все были щасливы.

Date: 2011-12-10 08:21 am (UTC)
From: [personal profile] alll
> и в случае малого числа выборок и исходов - даже плохо сглаживаемая

Закон больших чисел как бы намекает нам, что на малых числах теорвер работает хреново. ;) Но для распределение большого числа последовательностей небольшого размера закон больших чисел вполне себе должен работать, там вроде как раз должно быть распределение Пуассона.

С другой стороны, центральная предельная теорема как бы намекает нам, что распределение Гаусса хорошо, когда есть смесь многих более-менее равновеликих независимых факторов (со своими распределениями, не обязательно Гауссовыми). Если же доминирует небольшое количество факторов, то распределение может приобретать довольно замысловатые формы.

Скажем, возможно, что избиратели только одной из партий ленивы и голосовать не ходят, считая, что её победа и так гарантирована - в этом случае процент голосов будет коррелировать с процентом явки.

Ну или если за одну партию голосуют совершенно разные крупные группы людей, чьи размеры сравнимы с общим числом голосующих - скажем, два разных региона или две разных социальных группы.
From: (Anonymous)
Почитай у него про таинственные "корелляции" на участках со сканерами. И сразу пропадут сомненья.
http://oude-rus.livejournal.com/545739.html

Date: 2011-12-10 09:14 am (UTC)
From: [identity profile] faargenwelsh.livejournal.com
и честное распределение голосов там тоже может отличаться.

может - как в большую, так и в меньшую стороны.

Скорее всего ты занижаешь процент голосов за ЕдРо.

в свете вышесказанного, почему именно "занижаешь", а не наоборот?
к примеру, цифра 36%, как я понял, учитывает результаты чечни и иже с нею, т.к. там нет возможности отличить реальные данные от подделанных

учитывая то, что среди неответивших должна быть выше доля протестного электората.

ну, можно еще учитывать, что irl при опросах типа "вы - гей?" ответы могут не совпадать с действительностью

Date: 2011-12-10 11:51 am (UTC)
From: [identity profile] argonix.livejournal.com
Обожаю статистику и её обработку, жаль, что нет времени поучаствовать (чисто занят текущей статистикой по работе)...

Спасибо за то, что вы делаете.
Периодически отправляю ссылочки на Ваш обзор тем людям, которые бывают очень удивлены, что просто элементарная математика (статистика, теория вероятностей), чётко показывает на фальсификацию.

Я многократно писал ранее, что протоколы УИК, должны иметь защиту круче, чем у денег.
Все протоколы должны быть номерными, напечатанными на гознаке, и иметь не строгую, а строжайшую отчётность, за любую фальсификацию или попытку, мгновенное ограничение свободы.

Нет, каждый бюллетень защищён, а основная бумажечка, где можно фальсифицировать просто печатается на принтере...

Date: 2011-12-10 12:23 pm (UTC)
From: [identity profile] kobak.livejournal.com
Леша, спасибо! Очень рад критике, было бы приятно довести этот анализ до ума, так что извиняться не нужно. Отвечаю:

1) Это уязвимое место, да. Но логика такая: если ты посмотришь на кривые threshold-результат, вычисленные по стране, то видно, что результат за ЕР с увеличением явки сначала *уменьшается*, а потом начинает расти. Я предполагаю, что в начале мы имеем дело с увеличеним активности протестного электората, а потом -- с вбросами. Соответственно минимум выглядит "особой точкой", которую я и брал за оценку истинного результата. Никаких других идей о том, как можно было бы выбрать эту точку, у меня нет. Кстати, Сергей Шпиленок пользуется немного другим методом -- когда он досчитает на полных данных, сравним.

2) Про сглаживание -- разумно, но кажется, там не такие уж шумные кривые. Каждая кривая начинается с явки, при которой проголосовали 10 тыс. человек, это не так уж мало. Но я посмотрю, может, лучше сгладить.

3) Постараюсь сделать.

4) Я, конечно, взвешивал: в том смысле, что я для каждого региона (в городе и деревне) определял хорошие и плохие УИКи, и потом просто брал все хорошие УИКи по стране для подсчета окончательного результата. Но ты прав: это совершенно неправильная методика! Потому что в каких-то регионах после коррекции может получиться очень мало избирателей, и они почти не повлияют на окончательный результат. Более того, я подозреваю, что это приведет к занижению результата за ЕР, потому что чем больше фальсификаций в регионе -- тем ниже будет порог явки, и тем меньше там останется избирателей.

Думаю, нужно попробовать сделать так: в каждом регионе (городе/деревне) после нахождения пороговой явки, экстраполировать эту пороговую явку на все отброшенные УИКи, и брать получившееся число избирателей как вес. Сделаю -- сообщу.

Date: 2011-12-10 12:25 pm (UTC)
From: [identity profile] kobak.livejournal.com
Спасибо. Да, про протоколы Вы совершенно правы, конечно. Отличная идея.

Date: 2011-12-10 02:33 pm (UTC)
From: [identity profile] meindampf.livejournal.com
Про "культуру бла бла бла" - чуров писал, но там может быть и чисто администратовный ресурс, без вбросов, даже скорее всего. Гаусс по-любому работать не будет. Негазифицированная отдаленная местность... Или: нет транспортного сообщения, нет дороги нормальной. Вот и ЕР говорит: не проголосуете - не будет ничего... И вбрасывать не нужно - люди то очень зависимые! Самоуправления же нет как такового. Все друг друга знают - спрятаться невозможно.

Date: 2011-12-10 03:42 pm (UTC)
From: [identity profile] kobak.livejournal.com
Такое возможно. На всякий случай: мой анализ исходит из предположения, что УИКи в пределах города или деревни одного региона должны быть однородны. Если в сельской местности какого-то региона люди идут и строем голосуют за ЕР (на всех УИКах), то мой анализ сочтет все эти голоса честными! Но если там как минимум 10 тысяч человек проголосовали на УИКах с меньшей явкой и меньшим результатом за ЕР, то только этот результат будет считаться честным.

Date: 2011-12-10 04:02 pm (UTC)
From: [identity profile] nadba.livejournal.com
Спрашивала я у Алексей Оскольский's LiveJournal: чем плох Путин в двух словах, так он меня забанил,если столь труслив учитель.......

Date: 2011-12-10 04:04 pm (UTC)
From: [identity profile] kobak.livejournal.com
Вы робот?

Date: 2011-12-10 04:57 pm (UTC)
From: [identity profile] kobak.livejournal.com
Спасибо. Тут в комментариях [livejournal.com profile] _ab_ меня навел на один серьезный недочет в расчете "скорректированного" результата, надо будет переделать. И мне очень интересно теперь посмотреть, что мой алгоритм выдает для Сыктывкара :)

Дальтоникам плохо, но мне казалось, что они (по крайней мере многие) синий и красный должны различать, нет?

А Вы уже видели вот эту картинку:

Image
http://nl.livejournal.com/1082778.html

Поздравляю :) Хороший график получился.

Date: 2011-12-10 05:51 pm (UTC)
From: [identity profile] meindampf.livejournal.com
Все правильно, очень круто! Я лишь говорю, что в таких местностях, где все друг друга знают, вброс, как метод, себя все же выдает. Где мелкие участки, подкуп, шантаж, просто зависимость денежная - они точно так же вероятны как и вброс. И результат Чечни, кстати, тоже можно трактовать как нечестный в соответствии с Вашей методологией, если представить регионы однородными в массе. Аналогичное преступление, только в других масштабах.

Date: 2011-12-10 07:55 pm (UTC)
From: [identity profile] nadba.livejournal.com
Да конечно,уже 63 года.А вы тоже боитесь как и Асафич.

Date: 2011-12-10 07:56 pm (UTC)
From: [identity profile] kobak.livejournal.com
Да комментируйте спокойно, кто же Вам мешает.

Date: 2011-12-10 08:07 pm (UTC)
From: [identity profile] nadba.livejournal.com
Не мешает мне никто! Прочешу все около610круги и всех не ответивших в двух словах" чем плох путин" объявлю роботами,поскольку никто не знает, а просто тупо выполняет команды наверно цру или ми или еще чего подобного.

Date: 2011-12-10 08:08 pm (UTC)
From: [identity profile] kobak.livejournal.com
Скажите, а почему Вас 610 так интересует? Любопытно. За "робота", кстати, прошу прощения -- это меня Ваш пустой журнал в заблуждение ввел.

Date: 2011-12-10 08:19 pm (UTC)
From: [identity profile] nadba.livejournal.com
бога ради!
Давно знаю 610 и универ,потрясло крайне скотское отношение к своей стране, хочу понять от кого и выдам в фсб.

Date: 2011-12-10 08:21 pm (UTC)
From: [identity profile] kobak.livejournal.com
Немудрено, что люди Вас боятся.

Date: 2011-12-10 08:36 pm (UTC)
From: [identity profile] nadba.livejournal.com
Совсем плохо.

Date: 2011-12-10 10:24 pm (UTC)
From: [identity profile] shipilev.livejournal.com
Ну раз уж ты на меня сослался, придётся перетащить часть оригинального коммента.

> Я совершенно не согласен. Эти данные очень убедительно подтверждают наличие фальсификаций и позволяют примерно оценить их масштаб

Они соотносятся с гипотезой о фальсификациях, но этим не доказывают её. Если все остальные альтернативные гипотезы окажутся неверны (например, на подозрительных территориях живут люди, которые действительно очень любят ЕР, ну и т.п.), только тогда можно хоть о чём-то говорить. Строго говоря, чтобы доказать, что только ваша гипотеза -- единственно верная, нужно опровергнуть все остальные, что неконструктивно, поэтому...

А то ведь этот график
Image
тоже показывает, что борьба с пиратством -- главная причина глобального потепления.

> можно, конечно, утверждать, что никакие данные в принципе ничего не доказывают (т.е. доказательства вне математики не возможны) — это интересная философская позиция, но мы ведь не её обсуждаем.

...статистическими данными ничего в здравом уме не доказывают. Ими ищут неучтённую систематику и аномалии, которые должны быть объяснены процессно, т.е. при помощи чётких доказательств (в контексте выборов это -- конкретные нарушения на участках, несоответствия протоколов и т.п.). Они несомненно дают обзор "сверху" по поводу того, какие места стоит перепроверить.

Date: 2011-12-10 11:16 pm (UTC)
From: [identity profile] kobak.livejournal.com
Этот разговор и правда рискует превратиться в философское обсуждение, чего я бы хотел избежать. "Статистическими данными ничего в здравом уме не доказывают" -- в некотором смысле ВСЕ данные статистические. Данные с большого адронного коллайдера -- статистические. Данные о том, что каждый день утром восходит Солнце, -- тоже, в общем, статистические (!). Данные любого психологического или медицинского эксперимента -- тоже. Мы делаем из этих данных какие-то выводы; можно говорить о том, что мы что-то "доказываем", можно говорить о том, что мы что-то "фальсифицируем" (по Попперу), но так или иначе -- мы делаем выводы.

Естественно, чтобы сделать выводы, нам нужно иметь какое-то априорное представление о вероятности возможных гипотез. И такое представление у нас вполне есть: гипотеза о массовой фальсификации представляется вполне вероятной.

А про correlation does not imply causation я понимаю, да.

Простите, я с Вами не знаком, и дневник Ваш раньше не читал, поэтому не знаю: а у Вас есть опыт научной работы в какой-нибудь естественно-научной области? Просто если уж мы говорим о методологии науки, то личный научный опыт становится важным для оценки мнения собеседника. (У меня есть, но (пока) небольшой.)

Date: 2011-12-10 11:30 pm (UTC)
From: [identity profile] shipilev.livejournal.com
Он действительно философский. Я спорю главным образом от того, что из выводов по поводу этого спора будет следовать реакция митингующих, реакция оппозиции, и может быть даже будет литься кровь. Поэтому ответственности за косяк на наших с вами плечах поболе будет, чем просто сказать "ой, мы действительно ошиблись".

Поэтому я всеми силами пытаюсь отбиться от роли Мессии, который будет нести откровение о "фальсифицированных выборах" в массы. Пока мы не уверены хотя бы на 99.999%, я бы искал альтернативные гипотезы. Вам тоже советую. Вы можете не представлять, сколько народу впопыхах даже не будет думать о том, что Вы можете ошибаться, а примут это за стопроцентную правду, лягущую на их (не без причины) уязвлённое чувство собственного достоинства, т.е. не выбиваемую обратно никакими средствами, если обнаружится ошибка.

У меня есть опыт естественно-научных исследований, главным образом в области производительности больших компьютерных систем. Несмотря на то, что там существует способ докопаться "до сути вещей", ибо всё детерминировано, в реальности гораздо дешевле эмпирикой получать простые оценки. И там, как следует из здравого смысла, тоже цену эксперимента определяет точность модели, а точность модели диктуется допустимостью ошибок I и II (и III ;)) рода.

С выборами и общественными волнениями допустимые границы ошибок настолько низки, что лучше даже не пытаться это делать. От науки анализ выборов отличает то, что анализ выборов скорее всего необратим (например, если он закончится переворотом), в то время как наука принимает в себя факт того, что эксперименты и выводы могут быть неверны, и имеет способы от этого не разваливаться по кускам.
Page 1 of 4 << [1] [2] [3] [4] >>

Profile

kobak: (Default)
kobak

May 2026

S M T W T F S
     12
3456789
10111213 141516
17181920212223
24252627282930
31      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated May. 24th, 2026 02:03 am
Powered by Dreamwidth Studios