На этих выборах Центризбирком отказался делиться статистикой с независимыми исследователями — и внедрил у себя на сайте защиту от автоматического скачивания данных. Цифры голосования на сайте ЦИК теперь «зашифрованы»: при попытке копирования они превращаются в буквенный код, к ним добавляются случайные символы. На происходящее обратил внимание математик Сергей Шпилькин. Выпускник физфака МГУ и независимый электоральный аналитик, Шпилькин годами скачивал данные с сайта ЦИК, чтобы проанализировать их на предмет аномалий в явке и результатах голосования. На графики Шпилькина опираются многие политологи и просто избиратели при оценке того, насколько велик был уровень фальсификаций. Спецкор «Медузы» Лилия Яппарова поговорила с исследователем и узнала, как независимые аналитики взламывают код с сайта Избиркома — и что уже сейчас видно при анализе данных, доступ к которым постарались максимально осложнить.
Сергей Шпилькин
— Удалось ли вам скачать с сайта ЦИК и «расшифровать» данные по явке? И есть ли в них какие-то аномалии?
— Данные о предварительной явке, которые были выложены в открытом виде, пусть и через капчу, удалось [получить]. Они уже дали нам предварительную картину того, что происходит.
Картина фальсификаций почти такая же, как в 2016 году. За исключением того, что реальная модальная явка — то есть ее расчетный максимум в отсутствие фальсификаций — сейчас получается примерно на 3–5% выше, чем пять лет назад. И «хвост» аналогичен тому, который был в 2016 году, разве что немного короче, поскольку и сам «колокол» сдвинулся в сторону более высоких явок.
В целом это повторение той самой картины «двугорбой России», когда партия власти по «пропорциональному списку» получила примерно половину голосов настоящую — и половину фальсификата. Судя по нашим подсчетам, сейчас будет что-то очень похожее — или даже похуже. Ведь из открытых данных мы знаем, что за КПРФ в этот раз голосовали явно больше, а за «Единую Россию», соответственно, меньше. Я думаю, что доля фальсификата в отданных за партию власти голосах — по федеральному списку — будет еще и побольше, чем половина.
— Как вы планируете собирать данные о результатах голосования, которые ЦИК на эти выборах решил «зашифровать» и защитить от автоматического скачивания со своего сайта?
— Думаю, к тому моменту, как полные данные по голосованию выложат, мы уже научимся их собирать. Действия ЦИК у многих вызвали возмущение — и с этим делом взялось бороться столько квалифицированных людей, что ЦИК неизбежно проиграет. Борьба оружия и брони закончится в пользу оружия, потому что интеллектуальные ресурсы повыше на стороне интересующихся результатами. На Habr я уже видел скрипт, который «чинит» зашифрованную страницу на ходу, — не совсем то, что нужно для автоматического сбора, но тоже хорошо.
— Будете опираться на этот скрипт? Можете рассказать, что технически будете делать?
— Слушайте, не надо пугать ЦИК. Пусть пока думают, что у них все хорошо.
— Можно ли вручную собрать с сайта ЦИК те данные, что сейчас недоступны для автоматического сбора?
— В Беларуси, например, данные последних выборов собрали именно что таким краудсорсингом: люди там обрабатывали бумажные протоколы буквально руками. Но такой подход требует больших организационных затрат, а все результаты может заметно подпортить всего один внедренный со злыми намерениями агент. А люди, которые решились сломать публикацию данных избиркома, могут и на это пойти.
Но вообще я не советую доводить людей до краудсорсинга: он оказывает мощное организующее воздействие.
— Насколько разработчики ЦИК затруднили независимым аналитикам процесс скачивания данных?
— Ну, затруднили, да. Затруднили. Когда я узнал об их нововведении… да какая разница, что я подумал. Как в известном анекдоте: «Если матерные слова опустить, то папа, получается, ничего не сказал». Ничего я не подумал. Но вы же видели, что первые решения по расшифровке данных появились уже через два часа [после обнаружения проблемы].
— Зачем ЦИК кодировать данные и затруднять вам работу?
— Чтобы отложить анализ данных голосования. Понимаете, «Единая Россия» (ЕР) могла ведь и проиграть эти выборы по пропорциональному списку (хотя, судя по собранным данным, не проиграла бы и без фальсификаций). А новости [об электоральных поражениях] плохо действуют на элиты: сигнал о слабости правящей партии привел бы к тому, что люди начали бы переползать в другие центры.
Мы такое однажды видели: когда появилась партия «Справедливая Россия», там собралось много людей, которые не нашли себя в «Единой», — и некоторое время они довольно эффектно действовали. Пока не затухли. И теоретически, будь эти выборы нормальными, получи «Единая» 35%, а КПРФ — 40%, мы могли бы увидеть перетекание власти от ЕР к КПРФ.
— Но в ЦИК, наверное, не могли не понимать, что любое такое программное решение можно обойти?
— Думаю, те, кто непосредственно внедрял обфускацию, понимали, что она преодолима. Но между исполнителями и теми, кто принимает такие решения, есть некоторый разрыв. И вот последние — люди с оборонительным мышлением — могли этого всего и не понимать.
Они, конечно, всегда могут выиграть, просто закрыв результаты. Но вот эта их последняя попытка оказалась неудачной. И, может быть, она отучит ЦИК на деньги налогоплательщиков прятать от нас наши же, налогоплательщиков, данные.
— Когда началась борьба ЦИК с независимой выборной аналитикой?
— Такому противодействию недавно исполнился год. Это началось с капчи. Станислав Рачинский из «Голоса» заметил, что в нормативные акты внесены изменения: сначала из требований к публикации информации на сайте ЦИК был исключен пункт об автоматическом сборе данных — после этого как раз появилась капча. А этим летом там появился пункт о том, что данные должны быть отныне доступными в режиме «только для чтения».
Вот мы, видимо, и наблюдаем реализацию этой нормативной идеи: читать эти данные глазами можно, а больше ничего с ними делать нельзя.
— Почему публикация результатов электронного голосования была отложена?
— Электронное голосование — это абсолютный черный ящик. Почему они решили их не публиковать вчера — совершенно непонятно. У меня есть две гипотезы, обе одинаково необоснованные. Может быть, они все это время фальсифицировали результаты. А может, увидели, что электронно все округа проголосовали ровно наоборот по отношению к офлайну — и просто побоялись публиковать. Народ бы возмутился.
— Электронное голосование на этих выборах впервые используется не в экспериментальном режиме. Дает ли оно вам достаточно данных для анализа возможных фальсификаций?
— Сейчас электронное голосование представляет собой абсолютное зло — черный ящик, который никто не контролирует. Единый котел, в который скидываются все эти голоса. Я считаю, что электронное голосование must die — либо оно должно быть на другой технологии и с другим уровнем доверия [к организатору голосования].
Исследовать миллион голосов, сваленных в одну кучу, невозможно — анализировать можно массив чисел. Но в случае с результатами электронного голосования нам выставляют только результаты нескольких партий и одно число по явке. Для анализа тут просто недостаточно деталей.
Если бы данные электронного голосования были хотя бы раскиданы по участкам, то уже был бы хоть какой-то материал для анализа. Можно, конечно, пытаться копаться во временной динамике этого блокчейна, пытаться что-то оттуда выудить, но выводы из такого останутся на уровне «слово против слова».
Еще о результатах думских выборов
- Все кандидаты от оппозиции проиграли на выборах в Москве — хотя некоторые лидировали вплоть до финального подсчета голосов ЦИК подозревают в махинациях с электронным голосованием
- Даже ЦИК остался недоволен нарушениями на выборах в Петербурге. Вот лишь самое главное из того, что происходило в городе
- Кто реально победил на выборах в Госдуму? В чем не правы противники «Умного голосования»? Как были устроены фальсификации? Трехчасовая дискуссия в студии «Медузы» с Гориным, Перцевым и Гаазе
Как-как?
Должно умереть.
При чем тут блокчейн?
Именно на технологии блокчейна выстроена архитектура российской системы дистанционного голосования.
Что это?
Обфускация — приведение текста или кода программы к виду, затрудняющему их анализ.
Что за капча?
1 июля 2020 года — в последний день голосования по поправкам к Конституции России — на сайте izbirkom.ru появилась капча. Эта технология препятствовала массовой автоматической выгрузке данных по всем избирательным участкам и, таким образом, сильно затрудняла экспертам анализ результатов голосования.
Что за «реальная модальная» явка?
Имеется ввиду «мода» распределения явки, то есть самое частое значение явки среди всех участков. Модальное значение, в отличие от среднего, устойчиво к появлению участков с аномально высокой явкой и позволяет понять, какой была бы явка, если бы таких аномальных участков не было. При нормальном симметричном (в математическом смысле) распределении этого параметра модальное значение будет совпадать со средним и медианным.
«Хвост» и «колокол»
Распределение участков по явке в России на последних выборах почти всегда несимметрично (об этом, например, здесь). Оно имеет максимум в районе 50–60% («колокол»), но его правая часть, где находятся участки с высокой явкой («хвост» или «второй горб»), существенно толще, чем левая, куда попадают участки с низкой явкой. Последние, в отличие от первых, распределены почти строго нормальным образом. Независимые аналитики связывают это с влиянием фальсификаций, что подтверждается в том числе экспериментальными работами.
Что за «пропорциональный» список?
Половина депутатов Госдумы избирается по одномандатным округам, другая — по партийным спискам. Число мест, которое та или иная партия получает по партийному списку, пропорционально проценту отданных за нее голосов.