Сайт упал. Почему происходят сбои у IT-гигантов

cover The Verge

Cбои в работе соцсетей или сайтов стали происходить все чаще. Сайты могут не открываться часами, а порой проблема решается за несколько минут. Но иногда «падают» даже такие IT-гиганты, как Amazon или Facebook. В чем могут быть причины таких сбоев, разбиралась ORDA.

Сбои в работе IT-гигантов

Google

Вечером 14 декабря пользователи по всему миру сообщали о недоступности сервисов Google.

В частности, не работал Gmail, YouTube, облако Google Drive, сервис Google Docs. Также невозможно было войти в свой аккаунт. В большинстве случаев сервисы выдавали ошибку 500.

Спустя 4 часа Google отчитался о восстановлении работы всех сервисов.

Amazon

Вечером 25 ноября в работе облачных серверов Amazon (AWS) произошел масштабный сбой, который парализовал работу нескольких сайтов и приложений. Проблемы затронули только один из 23 географических регионов AWS, но этого хватило для выведения из строя большого количества интернет-сервисов.

https://twitter.com/Big_Bhavin/status/1331892484075630592?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1331892484075630592%7Ctwgr%5E%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Forda.kz%2Fnews%2Fiz-za-sboja-amazon-neskolko-chasov-ne-rabotali-onlajn-servisy%2F

«Кажется, это один из самых больших сбоев AWS за очень долгое время, и многие люди поняли, как их бизнес зависит от AWS. Надеюсь, теперь люди поймут, почему нам нужно развивать межрегиональную систему», – написал пользователь Twitter.

Из-за сбоя владельцы iRobot не могли воспользоваться приложением для настройки робота-пылесоса, пользователи бренда цифровых медиаплееров Roku – слушать музыку, а Flickr и Adobe Spark – войти в аккаунт, чтобы синхронизировать проекты. О проблемах также сообщили: программа для хранения паролей 1Password, компания по финтехнологиям Acorns, платформа для создания подкастов Anchor, поставщик программного обеспечения Autodesk, обменник цифровых валют Coinbase, DataCamp, сервис для обмена автомобилями Getaround, веб-сайт Glassdoor, на котором нынешние и бывшие сотрудники анонимно оставляют отзывы о компаниях, и другие сервисы и СМИ. Неполадки были устранены только днем 26 ноября.

https://twitter.com/geoffbelknap/status/1331690657170157568?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1331690657170157568%7Ctwgr%5E%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Forda.kz%2Fnews%2Fiz-za-sboja-amazon-neskolko-chasov-ne-rabotali-onlajn-servisy%2F

«Я не могу пылесосить из-за сбоя», – писал другой пользователь Twitter.

Amazon Web Services указала в уведомлении на странице статуса о возникших проблемах в регионе US-EAST-1 с сервисом Kinesis, используемым для агрегирования и анализа больших объемов данных в режиме реального времени, что привело к «увеличению количества ошибок» у ряда веб-сайтов. Отключение также повлияло на способность AWS публиковать обновления на странице статуса.

Хотя многие из вышеперечисленных приложений и сайтов не используют AWS Kinesis, Amazon отметила, что проблема с Kinesis на самом деле вызвала сбои в функционировании других сервисов компании, что повлекло за собой ошибки в работе 27 других продуктов AWS.

Впрочем, главные клиенты AWS, включая Apple, Slack и Netflix, похоже, не пострадали от этого сбоя.

Масштабный сбой в работе AWS никак не повлиял на финпоказатели компании.

Facebook SDK

В июле пользователи iOS по всему миру начали массово жаловаться на сбой в работе приложений, установленных на их смартфонах и планшетах. Сбои коснулись «Яндекса», TikTok, Viber, Spotify, Tinder и т.д.

Неполадки затронули главным образом программное обеспечение, интегрированное с Facebook SDK – механизмом, применяемым в мобильных приложениях для авторизации пользователей, а также используемым для таргетирования рекламы и аналитики. Проблема заключалась в том, что новая версия SDK не отличалась стабильностью, что и привело к массовым сбоям сторонних приложений.

Произошедшее стало вторым за этот год провалом Facebook, связанным с ее SDK для разработчиков ПО. Первый случай произошел в мае и тоже стал массовым, хотя и затронул не все страны мира. Тогда Facebook выпустила очередное обновление своего SDK, моментально сломавшее Spotify, TikTok, Tinder, Pinterest и многие другие популярные приложения. К тому же, для того, чтобы приложение перестало работать, даже не требовалось быть авторизованным в Facebook. Разработчики даже создали отдельную тему для обсуждения сложившейся ситуации непосредственно в официальном профиле Facebook в GitHub.

CenturyLink

В августе пользователи со всего мира стали жаловаться на невозможность подключения к многочисленным веб-сервисам, включая крупнейшие – поиск Google, Twitter, облака Amazon и т.д. Сбой наблюдался в течение семи часов.

Ответственность за выход из строя интернета несет интернет-провайдер CenturyLink (ISP).

Он допустил некорректную настройку оборудования в собственном дата-центре, расположенном в канадском городе Миссиссога, который находится недалеко от Онтарио.

«Легли» сервисы Google, Amazon Web Service, Discord, Cloudflare, Twitter, Microsoft (Xbox Live), Electronic Arts, Blizzard, Steam, Reddit, Hulu, Duo Security, Imperva, Namecheap, OpenDNS и многие другие.

Инцидент с CenturyLink привел к значительному падению мирового интернет-трафика. Всего за несколько часов он сократился на 3,5%, что, по мнению специалистов журнала ZDnet, можно считать одним из крупнейших сбоев в работе сети.

Эксперты полагают, что подобные масштабные сбои неизбежны из-за монополизации рынка цифровыми гигантами, подчинившими себе практически все высокотехнологичные отрасли. Таким образом, другие компании и сервисы просто не могут функционировать без их участия, и поломка у одного монополиста моментально оборачивается проблемами для всех.

Сбои в работе соцсетей

Сбои в соцсетях происходит довольно часто. Например, в марте 2019 года Facebook столкнулся с самыми масштабными проблемами за всю историю соцсети. Проблемы с доступом возникли в Азии, Северной и Южной Америке и Европе. Пользователи не могли зайти ко всем сервисам компании.

В январе на целые сутки «упал» Facebook, в феврале «лег» Twitter, в мае люди не могли грузить видео в TikTok.

В сентябре произошел сбой в Instagrаm и Facebook. У большинства не грузились страницы в Instagram, другие вовсе не могли залогиниться. При этом у 12% людей проблемы возникли именно с сайтом, а приложение работало штатно.

В октябре в работе Facebook и Instagram вновь произошел сбой. Сложности наблюдались с авторизацией и загрузкой новостной ленты.

Очередной сбой в работе Instagram произошел 12 ноября. Большинство пользователей жаловалось на трудности с просмотром новостной ленты. Лишь у малой части юзеров возникли проблемы при просмотре сторис и с доступом к сайту.

В четверг, 10 декабря, «легли» Facebook Messenger и Instagram. Пользователи не могли получить или отправить сообщение, испытывали проблемы с подключением к серверу и не могли войти в мессенджер. Наибольшее число жалоб поступало от пользователей с территории Польши, Венгрии, Бельгии, Великобритании и Филиппин.

С проблемами в работе Instagram столкнулись пользователи Нидерландов, Испании, Чехии, Германии, Великобритании и других европейских стран.

Создатель игры World of Tanks Вячеслав Макаров:

«Сбои в соцсетях могут происходить из-за неполадок в обновлениях, падения ключевых серверов или вмешательства провайдеров».

«Любая соцсеть постоянно обновляется: апдейты происходят как в той части, с которой работают пользователи, так и в серверах софта. Иногда программа обновляется некорректно, после чего возможен сбой. Кроме того, в соцсети ежедневно заходят миллионы людей и пользуются различными сценариями поведения, каждый из которых может породить неполадки в системе. Также соцсеть может сбоить из-за атаки на сервер: когда в нее заходят с огромного количества IP-адресов. А последний тип проблем – вмешательство провайдера. Такие неполадки возможны или из-за неправильной фильтрации трафика в связи с ошибкой в настройках или по требованию государства», – рассказал он порталу «360».

Управляющий партнер аналитического центра MINDSMITH Руслан Юсуфов считает, что инфраструктура сетей очень связана, и проблемы могут быть как на стороне соцсети или провайдера сервиса, так и из-за технической инфраструктуры, которая используется для доставки контента пользователям.

Кроме того, могут быть проблемы с DNS – системой доменных имен, то есть это фактически система или сервис, который направляет компьютер на конкретный веб-сайт.

Со слов Юсуфова, соцсети защищают свои данные с помощью резервного копирования. Если из строя вышла инфраструктура, где хранится информация, то включаются резервные копии, куда перенаправляются запросы. У соцсетей мощная система резервирования, но переключение на эти серверы происходит не быстро.

Казахстан

Утром 28 октября «упало» приложение Kaspi.kz. Из-за «технического сбоя» в системе люди не могли оплачивать услуги, совершать покупки и остались должны таксистам. Неполадки были устранены вечером того же дня.

«АО «Kaspi Bank» долгое время исследовал рынок IT и понял, что безопасность и автоматизация нужны для скорости получения информации. Банк давно начал развивать IT-сферу, т.к. рынок переходил на автоматизацию процессов. Сейчас отдается очень высокое внимание развитию IT-сферы и ее безопасности, инновациям и формированию новых услуг», – рассказали ORDA. в компании.

По словам основателя и руководителя общественного фонда WikiBilim, Bilim Foundation и компании в сфере электронного образования Bilim Media Group Рауана Кенжеханулы, бывают сложности, которые трудно предугадать.

«Например, в нашу образовательную платформу iMektep ежедневно заходят от 1,5 до 2 миллионов уникальных пользователей. Иногда бывает, что рост числа пользователей вызывает определенные напряжения в системе. В любой системе бывают сложности. Даже Apple отзывает какое-то количество айфонов из-за ошибки. Автопроизводители иногда отзывают машины, несмотря на огромный опыт производства и такую вроде бы налаженность процедур и процессов. Все может случиться, потому что это сложные технические инженерные решения», – считает он.

По мнению предпринимателя, скорость устранения сбоя не зависит от степени его сложности.

«По своему опыту могу сказать, что все зависит от того, насколько быстро была обнаружена ошибка в системе. Если причину сбоя определили сразу, то на ее устранение не уйдет много времени», – заключил он.

Внимание медиа к проблеме – это многократный мультипликатор, который дает понять, что компания не смогла удержать ситуацию под контролем. Как правило, компании не хотят рассказывать о причинах, по которым происходят сбои и обходятся общей формулировкой объяснений – «произошли технические неполадки». Но любые ошибки можно исправить отличной работой впоследствии. Мы все знаем о сотнях новостных заметок с историями о сбоях в крупнейших корпорациях. Но кто помнит то, что действительно вызывало конкретный сбой? То, как компания выходит из сложившейся ситуации, запоминается гораздо ярче многих неудач.

Лента новостей

все новости