...

суббота, 27 июля 2013 г.

Mamba Hiring: статистика своими руками

В поисках работы


Тут так случилось что я вдруг начал искать новую работу. Собеседования, тесты, ну вы сами всё знаете. И одним из тестов был небезызвестный Mamba Hiring запущенный еще в 2011 году.

Пройдя тест и набрав 217 баллов я вспомнил про приложение на фейсбук в котором я тестировался с год назад и где у меня было 242 балла. Посмотрев и погоревав на свои цифры я подумал что вот опять довольно средний результат. Ой ли? А такой ли он средний? Надо посмотреть статистику, может быть не все так плохо? Какое это «среднее» значение в действительности?


Но статистики нигде нет, возможно я плохо искал и прошу тогда кинуть в меня ссылкой, но максимум что я нашел это сравнительная статистика по твоим друзьям в фейсбуке и отрывочная устаревшая статистика из ссылок указанных выше.


А ведь с начала функционирования теста прошло уже пара лет и там скопилось немало результатов. Жаль конечно что нет разделения на пол, возраст и всё такое, но ведь интересно увидеть хотя бы общую картину?


Результаты


Я не статист и достаточно далек от этой темы, но я подозреваю что минимальный балл всё же не десять попугаев. Десять попугаев это те кто просто кликал наугад до упора вперед, но все же...

Минимальный результат: 10

Максимальный результат: 497

Средний результат: 166


Количество тестируемых на момент написания статьи (май): 83591

Количество тестируемых на момент публикации статьи: 86354


График результатов (кликабельно, ведет на Google Drive с интерактивным вариантом):


А как же процесс?


Всё просто как орех. Когда мы заканчиваем тест на сайте corp.mamba.ru/test, нам выдают ссылку на графический виджет вида «http://www.corp.mamba.ru/test/widget.phtml?id=9000» Интересна она нам своим значением ID. Если его изменить то можно увидеть другой, чужой, результат.

Алгоритм родился моментально.

1-ый прогон: лепим цикл на перебор ID’шников, скачиваем картинку, складываем в папочку.

2-ой прогон: идем по картинкам, обрезаем их до области с цифрой, суем в черный ящик распознания текста в лице TesseractOCR, а полученное значение сбрасываем в базу.


Код скриптов на гитхабе — только пожалуйста без холиваров, всё это дело написано минут за 5-10 и на один раз.


В заключении хотелось бы попросить Мамбу выложить результаты с тестирования через приложение Facebook, не думаю что имея данные по социальному аккаунту тестируемого сопоставить конкретный результат с конкретным возрастом и полом будет очень трудно :)


Да, кстати, кому требуются исходные данные, то вот они лежат .sql дампом. Могу даже ~83 500 (~700 мб) картинок выложить если это кому то потребуется.


This entry passed through the Full-Text RSS service — if this is your content and you're reading it on someone else's site, please read the FAQ at fivefilters.org/content-only/faq.php#publishers. Five Filters recommends: 'You Say What You Like, Because They Like What You Say' - http://www.medialens.org/index.php/alerts/alert-archive/alerts-2013/731-you-say-what-you-like-because-they-like-what-you-say.html


Комментариев нет:

Отправить комментарий