@Mail.Ru Group Конференция «Форум Технологий» 2013

Доклад

Стабильность — признак мастерства

Важна ли стабильность для интернет-проекта? Роль системы мониторинга в поддержании стабильности. Как добиться 100% uptime? Тестирование и deploy. Планирование нагрузок и прогнозирование аварий. Почему в вопросах стабильности никому нельзя верить?

Get Adobe Flash player

Вопросы с сайта / с Твиттера / с SMS, заданные во время доклада

– Равноправны ли клиенты mail.ru в вопросах бэкапирования и восстановления из бэкапа? (mike74@)

Да, равноправны. Для всех пользователей применяется одинаковая политика резервного копирования.

– Почему в теме о стабильности ничего не рассказано про тесты, я имею в виду прежде всего как регрессионное тестирование, так и про тестирование нового функционала? (AStartsev@)

Я думаю, что придется сделать отдельную конференцию что бы поговрить о релиз-менеджменте и тестировании – очень много вопросов на эту тему. К сожалению, формат однодневной конференции не позволяет покрыть все темы на 360 градусов.

– Как часто у Вас происходят релизы / выкатки для основных проектов? (despairr@)

Для большинства веб-проектов – раз в неделю.

– Допустимы ли у вас в mail.ru выбросы во временах ответа? Скажем раз в час время ответа какого-нибудь URLa равно 15 секундам. Это серьезная проблема или на такой процент выбросов можно забить?.. (marko@)

Выбросы времени ответа недопустимы. Наш подход – сделать сервис работоспособный 24x7.

– Как вы деплоите правки в бд? (m.golovko@)

Правки, требующие изменения схемы бд, производятся в отдельной копии БД после чего программно поддерживается актуальность данных в обоих копиях БД на случай необходимости возврата к предыдущей версии ПО.

– Графики нагрузки анализируют только люди или уже используется некий исскуственный интеллект для предсказания новых потенциальных проблем? (markygre@)

У нас есть алгоритмы, отслеживающие статистические выбросы не связанные с нормальным временным распределением, но назвать это “искуственным интеллектом”, конечно же, нельзя.

– Осуществляется ли у вас функциональный мониторинг работоспособности сайта в разных версиях различных браузеров. Если да то как? (sms c 8926905...)

Функциональный мониторинг клиентской части веб-проектов с помощью браузеров мы не осуществляем. Эта задача решается на основаннии данных, которые нам возвращает браузер пользователя (кол-во JSошибок и пр) + статистики действий пользователей (в которой соответственно есть деление по браузерам.) Например, если количество нажатий на кнопку «А» для полозователей IE6 упало ниже средних значений, это значит что в этом браузере существуют проблемы.

– Какой продукт Вы используете для багтрекинга? (sms c +7909640)

Jira.

– При сплит-тестировании выбираются ли пользователи рандомно или по каким-то хитрым параметрам? (markygre@)

В зависимости от того, что тестируем возможны три варианта: пользователей приглашают в группу тестеров\ тестируются изменения в каком-то конкретном регионе\случайная выборка.

– Что произойдет, если запрос все-таки попадет на неработающий фронтенд? Эта ситуация обработается и запрос будет перенаправлен на повторную обработку или пользователь получит ошибку? (marko@)

Такая ситуация не обрабатывается, пользователь получит ошибку.

– Почему не используете OSPF вместо стренького RIP? (7909640...)

Используем RIP т.к. это самый простой протокол марштутизации. Единственное, что имеет смысл использовать вместо RIP это EIGRP по той причине, что с ним Вы получите возможность неравновесной балансировки между виртуальными IP.

Вторая причина по которой мы не используем OSPF – он является протоколом маршрутизации нашей внутренней сети. Для того что бы исключить влияния ошибок конфигурации серверов на сетевую инфраструктуру мы используем разные протоколы маршрутизации.

– На 140 типов мониторингов и 150000 об'ектов сколько людей следит за мониторингами? (zzxyyz@)

За мониторингом следят все 70 системных администраторов Mail.ru, 9 из них занимаются только этим.

– Расскажите, как майл.ру борется с DDoS атаками или этот вопрос эсклалируется на операторов связи?(srodionov@)

В зависимости от того, в чем именно заключается DDOS атака – подход к ее блокировании будет разный. В общем случае выявляем источники паразитного траффика и блокируем их на периметре нашей сети. Помощью операторов не пользуемся.

– Мониторите ли вы базы данных и если да то каким образом, если нет, то собираетесь ли это осуществить?(sms c 89160703...)

Мониторим обязательно. Количественные и качественные характеристики (кол-во запросов, время ответа, логи ошибок.) Средства мониторинга БД разработали сами.

– Как минимизировать отрицательный эффект от аварии? У вас есть опыт? Есть ли конкретные данные сколько пользователей ушли с mail.ru из-за аварии?(marko@)

Как уменьшить отрицательный эффект:
Минимизировать время простоя.
Иметь заглушки и лайтверсии на время аварии.
Сделать пользователям что-то приятное в качестве извинений.
Опыт есть. ☺

Посчитать кол-во пользователей ушедших в результате той или иной аварии невозможно, пользователь всегда принимает решение по совокупности факторов.

– Как убедить бизнес лидеров в необходимости выделения времени на организацию стабильности работы сайта? Сколько нужно уделять времени на поддержание стабильности?(sms c 898529)

Просто посчитайте упущенную прибыль от простоев. По моему мнению решение должно приниматься на основе финансовых показателей и анализа рисков. Если это не выгодно – делать этого не надо.

– Должен ли быть мониторинг технического состояния серверов быть совмещен в одном интерфейсе с могиторингом бизнес показателей приложений/сайтов?(markygre@)

В Mail.ru мы разделяем систему мониторинга (которая устроена по принципу оповещения о проблеме (которое гасится после того, как проблема решена) в ней существуют только технологические мониторинги и система статистики в которой существуют как бизнесовые, так и технические показатели.

– Что надежнее в плане стабильность - облачные технологии или выделеные сервера с горячим резервом?(markygre@)

До тех пор, пока IT не является вашим основным направлением бизнеса – я за облачные технологии. Как только вам по соображениям безопасности бизнеса понадобится полный контроль над IT инфраструктурой вы неминуемо перейдете к выделенным серверам с горячим резервом.