...

суббота, 29 августа 2015 г.

REG.ru потерял домен, даунтайм более суток, тишина от ТП

Вчерашним утром посыпались звонки разгневанных клиентов о том, что ничего не работает. Это клиенты спутниковой системы, разной серьезности (от собаководов, автовладельцев, до силовиков использующих те же маячки).

Не сразу было понятно, в чем дело: все работает, мониторинг не тревожит.
Оказалось, что корневой домен более не зарегистрирован. Whois отдают not registered. Пока все живет только за счет кэша DNS.
Домен в зоне .im, на котором висит основной сервис и приложения, зарегистрирован у REG.ru. Был продлен 9 августа (проверил в списке успешных транзакций) и сам reg.ru показывает до сих пор, что все ок:

Что делать?
Честно говоря такого подвоха никак не ожидали.
Упади сервер, база и даже хостер — на все есть свое решение проблемы, пусть даже с простоем в несколько часов. Но тут домен! На него завязаны приложения в маркетах, у клиентов стоят закладки.
И самое страшное, что регистратору это все поровну: для них тикеты равны по приоритету и могут обрабатываться днями (хоть речь о мелкой проблеме с входом в панель, хоть об аварии подобной нашей).

Создали сразу тикет (#2015082810048659), тишина…
Нашел скрытую возможность позвонить в REG.ru: http://ift.tt/1NFROiX
Дозвонился, девушка пообещала, что передала специалистам, тишина…
После обеда звонил еще 2 раза — пытался донести робо-людям, что это авария, что у нас клиенты, и т.д.
Писал по email, даже в группу ВК. Позже в тикете отписались, что специалисты занимаются, меня уведомят о решении проблемы.
Идут вторые сутки. От REG.ru тишина…

Регистрация напрямую
Сегодня утром я сделал простую вещь: нашел собственника домена .im (остров Мэн) — это www.nic.im и провел регистрацию с нуля. Домен удачно зарегистрировался, вышло конечно дороже в 3 раза ( 40 фунтов по курсу). Установил минимальный TTL и через час(!) домен и поддомены заработали, а whois отдавал записи сразу после оплаты домена. Думаю было не тянуть и сделать все вчера, но я ожидал какого-то решения от reg.ru и боялся возможных коллизий.

Итого
Наша компания получила урон по репутации, мы потеряли потенциальные продажи тем кто висел на тестовом периоде. Обещая высокую отказоустойчивость — мы обманули ожидания.
Все наши кластеры, очереди, балансировки и прочее оказались бесполезны. Проблема с доменом нам принесла даунтайм больше, чем за несколько лет.
Буду рад услышать советы, как можно перестраховаться от таких случаев.

Самое смешное: пока мы разбирались со всем этим — нам непрерывно помогала техподдержка linode, у которых хостятся NS-сервера всех наших доменов, ну и сами продакшен сервера. Они мало чем могли помочь в данном вопросе, но всегда отвечают на любой вопрос в течении 3-х минут и всегда рады помочь (и так более 5 лет). REG.ru, который должен был решать свою проблему с утерей домена клиента — не ответил до сих пор…

This entry passed through the Full-Text RSS service - if this is your content and you're reading it on someone else's site, please read the FAQ at http://ift.tt/jcXqJW.

Комментариев нет:

Отправить комментарий