Режем Бумажного слона №10 на части. Часть 2: Простейший анализ
Безумные выходные прошли, начались не менее безумные будни, а я подготовил вам табличку с аналитикой. Точнее, две таблички - одна для любопытных (БС10), другая - для не очень (Результаты). Не очень любопытные могут пропустить то, что будет дальше, и начать читать с горизонтальной черты.
Те, кто уже смотрел прошлую табличку БС10, заметили сильные изменения. Во-первых, добавился лист с анализом, который пока не очень понятен. Во-вторых, данные сильно изменились - я перевёл их из вида, читаемого человеком, в вид, читаемый табличными формулами. В-третьих, появился ещё какой-то левый лист - это техническая информация, там ничего полезного или интересного нет.
Самая ценная часть - это анализ. С помощью большого оранжевого списка можно выбирать группу, которая будет отображаться. Под номером группы показано, сколько всего человек её оценивало. Несколько правее располагается перечень рассказов с поставленными баллами, суммой баллов по рассказу, минимальным и максимальным баллом рассказа и тремя самыми простыми и доступными способами оценки. Внизу же - графики, на которых показано распределение баллов для каждого рассказа.
Начнём с самого простого - посмотрим, что у нас по циферкам. Почти у всех рассказов минимальный балл в пределах 1-3, а максимальный - 8-10. В каком-то смысле, это можно считать подтверждением давно известной истины - почти у любого произведения найдутся как поклонники, так и ненавистники, лишь бы оно было прилично написано. Самый тепло принятый рассказ - "Исполнение желаний" (средний балл - 9,111), ему в спину дышит "Внеигровой элемент" (9,077). Самый низко оценённый рассказ - ни за что не поверите, "Катарсис" (1,333).
Но средний балл - не единственный способ определить лучший или худший рассказ. По некоторым из них есть удивительное единение мнений (не менее удивительное, чем по "Катарсису"), и увидеть это можно по минимальной и максимальной оценке. Если минимальная оценка высокая, значит, рассказ никого не оставил равнодушным и его качество достаточно высоко, чтобы даже у потенциально предвзятой аудитории не нашлось повода его притопить. Наоборот, низкая максимальная оценка говорит о невысоком качестве исполнения.
С такого ракурса, самыми любимыми рассказами становятся "В погоне за кибер-кроликом" и "Внеигровой элемент" (самый низкий балл - 7). Самый неприятный - нет, не "Катарсис", у него второе место (самый высокий балл - 5), а "Утро было, недобрым" (всего лишь 4).
С помощью графиков можно заметить, что таки да, у некоторых рассказов больше одной моды. В группе №1, стоящей по умолчанию, это "Удача им по карману" - на графике видно ярко выраженный пик на "4" с широким основанием и плато на "9-10" одной с ним высоты. Для юных аналитиков замечу, что, например, "Девочка в цилиндре" из той же группы не имеет двух пиков - это один широкий пик с дыркой в районе "7" (видимо, все критики сошлись на том, что рассказ или слишком хорош, или слишком плох для такой оценки), а, к примеру, "Исполнитель желаний" не имеет пиков вовсе - оценки разбросаны почти равномерно.
Вообще, равномерность оценок немного удручает. Я хотел добавить линию тренда на графики, но почти на всех (если не просто на всех) она выглядела, как ровная горизонтальная линия, при любых вариантах зависимостей.
Желающие побаловаться могут сейчас притормозить и поиграть с цифирками (таблицу можно сортировать, как бог на душу положит, не сломаются ни она, ни графики), а с остальными мы сейчас пройдём за тем, за чем мы и собирались.
Итак, вы открыли таблицу результатов, и, зловеще хохоча, предвкушаете, как в одном из способов оценки победитель скатывается на дно, а ваш рассказ мрачно возвышается над всеми... И обламываетесь. Но обо всём поподробней.
Таблица результатов - та же таблица анализа, только в текстовом виде, по всем группам и немного читабельней (надеюсь). В ней написано, как распределились места между рассказами при разных способах подсчёта голосов. Для повышения наглядности, первые три места по версии уважаемого Слона отмечены жёлтым, голубым и оранжевым цветом. Конечно, на БС10 не было призовых бронзовых мест, но во время споров возникла мысль, что третьи места могут очень сильно зависеть от способа оценки.
Самое главное, что можно заметить - почти везде практически при любом способе оценки лидеры не меняются, даже в очередности. Из чего следует простой вывод: нормально делай - нормально получится. Если ваш рассказ не вошёл в топ, в этом виноваты только вы, а не ужасные отдельные участники. В большинстве случаев. А если вы недовольны местом в середине группы... Впрочем, давайте по порядку, хотя нелюбопытные могут на этом и закончить.
Итак, первый, самый простой способ - вычисление среднего арифметического. Фактически, сейчас используется этот метод оценки, за исключением того, что суммарный балл не делится на количество судей. Впрочем, это необходимо лишь для сравнения рассказов из разных групп - внутри одной группы место от этого не зависит.
Самый очевидный недостаток этого метода - слабая защищённость от ошибки измерения. Если кто-то из голосовавших не удержал своих тараканов на привязи, он может поставить оценку, значительно отличающуюся от той, которую он поставил бы, обуздав свою черепную фауну. В теории, это может значительно повлиять на результат измерений. По крайней мере, инструментальной погрешности достаточно, чтобы заставить латунное ведро с магнетроном летать без топлива, а нейтрино - обгонять свет. Учитывая, что вклад в оценку одного участника составлял 7-11% (в среднем - около 8%), один необъективный участник имеет возможность (пусть и небольшую) заметно повлиять на результаты, а шансы на появление нескольких таких оценщиков в одной группе сравнительно невелики.
Чтобы решить эту проблему, ряд пользователей высказался за то, чтобы отбрасывать две крайние оценки - одну наибольшую и одну наименьшую. Это должно исключать потенциальную инструментальную ошибку. По крайней мере, так поступают в Новой судейской системе на Олимпийских играх, хотя там всего лишь девять судей (как в группе №14, бугагашенька). Глядя на удивительное разнообразие минимальных и максимальных оценок, начинаешь понимать, зачем это делают.
На практике, в большинстве случаев это ни к чему не приводит. Большая часть групп от такого нововведения не изменилась, разве что итоговый балл (но не место!) подполз немного ближе к "центру масс" оценок - на десятые доли балла. Кое-где произошли перестановки в середине группы - например, "Художник" и "Молчание сыча" в группе №9 поднялись на одно место, опустив "Отпуск за свой счёт" на два, или "Хроники лабиринта" и "Гравитации не существует" поменялись местами в группе №12. Довольно мощные телодвижения происходят в партере группы №10, где "Жмух, Марго и арахниды", лишившись одной из "единиц", упорно лезет вверх, ко второй уцелевшей "шестёрке", подминая под себя потерявших единственные "десятки" "Джиперса-Крисперса" и "Час последнего жеребца", а "Вишнёвый поцелуй", потеряв якорь в виде "кола", пытается подняться в топ-5.
Но самое интересное происходит в группах №№6, 11 и 15. В первых двух четвёртое место вырывается вперёд и занимает бронзу. В группе №6 это происходит это из-за того, что разница между третьим и четвёртым местом составляет 4 балла... и столько же составляет разница между их минимальными оценками. Максимальная оценка у них такая же, как и у подавляющего большинства рассказов - "10". Фактически, тут революция происходит бескровно - просто бронзу берёт два рассказа. Аналогична ситуация и в группе №11. Потеряв свои самые слабые оценки, эти рассказы сравнялись друг с другом.
С группой №15 ситуация немного другая, и разобраться в ней помогут графики. Как можно заметить, здесь тоже сыграла свою роль разница в минимальных баллах, благодаря чему "Время еды" вырывает пальму первенства у "Ревизора". Но, если первые два случая происходили при примерном равенстве разброса оценок у участников, то здесь всё по-другому. "Ревизор" имеет более плотный набор оценок и вообще входит в число "хороших" рассказов (т.е. не имеет оценок ниже "6"). У "Времени еды" же разброс гораздо больше, единственное преимущество перед "Ревизором" у него - большее количество "10". Потеряв кусок "левого хвоста", за счёт лишних "десяток" он обогнал своего более "собранного" оппонента.
Таким образом, можно заметить, что метод отсечения крайних не столько делает оценки объективней, сколько уменьшает их разброс. Рассказам с широким спектром мнений об их качестве это играет на руку, но тем, кто смог создать более однозначное мнение об их произведении, это, как минимум, не помогает. Опять-таки, каков шанс, что в одной группе попадётся два человека с излишне оригинальным взглядом на мир? Скажем прямо, невелик, даже в худшем случае это что-то около 1 из 100. Поэтому достаточно откидывать одно мнение, наиболее отличающееся от остальных (или, точнее, от среднего арифметического всех оценок). Так часто поступают при обработке статистических выборок. Таким образом, мы сдвигаем результаты более плохих рассказов ниже, а более хороших - выше, делая итог более контрастным. Конечно, это не поможет "Ревизору" вернуть пальму первенства группы №15, но, по крайней мере, сделает его свержение менее разгромным (хоть оно и не особо разгромным было).
Но... и в этом случае ничего принципиально не меняется, хотя есть пара интересных моментов. Рассказ Moon в группе №6 внезапно взлетает наверх, с 13-го места на 9-е. Объяснение очень простое - это двумодальный рассказ с пиками на "1" и "7". Средняя оценка находится между "4" и "5", поэтому наибольшим отклонением оказывается мода "1", уступающая после этого моде "7".
С другой стороны, откровенно графоманский "Жмух, Марго и арахниды" из группы №10 вырывается вперёд и едва не попадает в топ-5, вслед за "Вишнёвым поцелуем". Причина в довольно широком, хотя и невысоком плато, растянувшемся между "2" и "7" (с пиком в районе "3"). "Вес" этого плато вытягивает среднюю оценку вверх, из-за чего наибольшим отклонением становится "кол". "Бла-бла кар" в той же группе выигрывает бронзу у "Моего личного рая" за счёт того, что у обоих есть пики и широкое плато, но пик "Бла-бла кара" находится ближе к "10".
Таким образом, подытожим то, что мы выяснили:
1. Пишите хоть что-то читаемое, и у вас будут как ненавистники, так и поклонники
2. Пишите хорошо, и будете занимать высокие места вне зависимости от того, как считать
3. Разные системы подсчёта голосов влияют в основном на тёрки в партере группы
А в следующий раз мы проверим, подчиняется ли голосование в массе своей закону нормального распределения. Всем спасибо.
О равномерное распределение — Все ставили оценки наугад
«А в следующий раз мы проверим, подчиняется ли голосование в массе своей закону нормального распределения.» — для этого слишком мало оценок в группе, разве нет?
UPD. Полфазы выпало, поспать надо. В среднем 12-13 оценок, негусто, но хотя бы прикинуть можно. У двух игральных костей, конечно, в три раза больше выборка, а распределение лишь пирамидальное.
А насчет выборки — предлагаю сделать выборку побольше: Берем рассказ (один из конкурсных) и предлагаем всем неравнодушным и не оценившим рассказ ранее поставить свою оценку, в соответствиями со своими критериями, которыми они пользовались на конкурсе.
Сделать выборку побольше — идея хорошая, но тут половина судей и своё-то еле-еле дочитала, а четверть вообще решила не читать. Это ж за вредность доплачивать придётся.
Огромное, искреннее спасибо!
И наконец, мы очень довольны, что дело не ограничилось простым, «а давайте введем вот такое голосование, просто потому, что мне кажется, что так будет объективнее». И есть аргументированное обоснование плюсов и минусов каждого метода.
Очень занятный разбор. Особенно понравились цветастенькие графики, очень бодрит после рабочего дня
Впрочем, после полуночи я могу и ошибаться в оценке вероятности, если кто-то меня поправит, буду благодарен.
Так что подобный вариант рассматривать не вижу смысла.
Что именно вы имеете в виду? Так-то всё, что я насобирал, лежит во вложении.
Осталось подключить машинный мозг и фсё — каждому найдется его место по конкретным сусалам.
Я вообще номер своего тф с трудом вспоминаю))
Балдею от подобных анализов данных.
не забыть про толерантность, а то как занесет в дебри
UPD. Кстати, лезть-то они лезут, но не попадают. «Вишнёвый поцелуй» кое-как выползает в верхнюю половину рейтинга.