¿Por qué fallaron Facebook, WhatsApp e Instagram?

Una desconexión del BGP, adrede o accidental, dañó a los 3.500 millones de usuarios de Facebook en todo el mundo. Explicamos lo que pasó

Este artículo es exclusivo para suscriptores (3)

Suscríbase para disfrutar de forma ilimitada de contenido exclusivo y confiable.

Subscribe

Ingrese a su cuenta para continuar disfrutando de nuestro contenido


Este artículo es exclusivo para suscriptores (2)

Suscríbase para disfrutar de forma ilimitada de contenido exclusivo y confiable.

Subscribe

Este artículo es exclusivo para suscriptores (1)

Suscríbase para disfrutar de forma ilimitada de contenido exclusivo y confiable.

Subscribe

El pasado 4 de octubre, Facebook, Instagram y WhatsApp colapsaron más de cinco horas a nivel planetario.

En ese rato, que de forma caricaturesca podemos comparar con las primeras páginas de la novela distópica Ravage, de René Barjavel, cuando el mundo de 2052 se queda súbitamente sin electricidad para siempre, aprendimos cuán dependientes somos de los mega servicios de Facebook Inc.

Aquí repasamos qué fue lo que pasó. Qué son los BGP y qué afectó a una de las compañías más grandes del mundo presente.

Los hechos y las disculpas

WhatsApp, Facebook e Instagram se “cayeron” por ahí de las 9:40 am hora de Costa Rica. El servicio comenzó a restablecerse por ahí de las 4:00 pm, y volvió a la funcionalidad que conocemos después de las cinco.

La compañía no dijo mucho. Primero reconoció a nivel oficial que había una mega avería:

“Estamos al tanto de que algunas personas tienen problemas para acceder a nuestras aplicaciones y productos. Estamos trabajando para restablecer las cosas a la normalidad tan rápido como sea posible, y pedimos disculpas por los inconvenientes”, dijo en Twitter la cuenta oficial de Facebook.

Luego pidió disculpas:

“Los servicios de Facebook están regresando ahora -- puede que tarde un poco de tiempo para que regresen en un 100%. A todos los pequeños y grandes negocios, familias e individuos que dependen de nosotros, lo siento”, escribió también en Twitter Mike Schroepfer, jefe de tecnología de Facebook Inc.

Twitter fue uno de los ganadores del día, de hecho, como otra mega red social que no tuvo problemas. También aplicaciones de mensajería como Telegram y Signal salieron ganando, por la histórica ausencia de WhatsApp. (Aunque Signal tuvo algunos problemas por tener que darle servicio a millones de usuarios nuevos tan de repente).

Por el “apagón” de Facebook, Instagram y WhatsApp., el valor de las acciones de Facebook Inc. cayó 4,89% al cierre de la jornada de intercambios bursátiles en la Bolsa de Nueva York. Fue el peor “apagón” desde 2008, cuando los servicios de Facebook colapsaron por un día entero. Claro, por entonces Facebook no era ni la mitad de importante para cientos de miles de negocios como lo es ahora.

¿Qué fue lo que pasó?

Debido a una desconexión con el BGP: Border Gateway Protocol, un sistema que se utiliza en Internet para llevar lo más rápido posible el tráfico adonde se necesita.

No se sabe si la desconexión del BGP fue a propósito (incluso se habla de un posible ataque) o un accidente.

Facebook Inc. ha dicho que fue un error de ellos.

Anonymous ha dicho que fue un ataque de ellos(supuestamente un hacker conocido como “The Notorious BGP”).

En todo caso, así es como funciona:

Tal como lo detalla Cloudflare, una compañía que proporciona red de entregas de contenido, servicios de seguridad de Internet y servicios de servidores, el BGP es un mecanismo para intercambiar información de enrutamiento (routing) entre sistemas autónomos (AS) en Internet.

Los proveedores de servicios registrados en Internet suelen componerse de varios sistemas autónomos, y para esto es necesario un protocolo como BGP.

Internet es una red de redes que están unidas por BGP. El Internet hace uso de grandes routers que tienen a su vez enormes listas actualizadas de las posibles rutas que pueden usarse para llevar un paquete de datos desde el origen (Facebook Inc.) hasta el destino (vos y yo).

Con el BGP, Facebook logra avisar a las demás redes que está allá afuera y que está accesible en Internet.

Lo que pasó ayer fue que Facebook, WhatsApp e Instagram dejaron de avisar a las demás redes y a las operadoras de internet. Fue como si desaparecieran de las listas de un solo.

Una manera práctica para pensar en los BGP es como si fueran controladores aéreos. Como oficiales en torres de control que envían paquetes de datos por todo Internet, a través de servidores, de la forma más veloz y eficiente posible. Los BGP son una forma automatizada para permitir que todo vaya bien. Si fallan o se pierde conexión con ellos, hay problemas.

Como indica el sitio web sobre tecnología Xataka, con análisis de información de Cloudflare, Facebook dejó de anunciar rutas a los prefijos de sus servidores de nombres de dominio (DNS). Esto hizo que otras direcciones IP de Facebook que seguían enrutadas no pudieran ser accedidas. Cerca de las 9:40 am (hora de Costa Rica), Cloudflare notó un pico de cambios de enrutamiento que fueron los que hicieron que el problema real se viese en nuestras compus y celulares.

“Ese fallo provocó que los servicios que resuelven DNS fallaran. Estos servicios, como ya hemos explicado alguna vez, permiten que cuando escribamos por ejemplo ‘www.xataka.com’ (o ‘www.nacion.com‘) en el navegador, este sepa que las peticiones tienen que ir a la máquina con dirección IP 52.85.187.42″, apunta Xataka.

“Los servidores BGP de Facebook, que se encargan de rutear hacia afuera, fueron desconectados, por eso los DNS no sabían cómo llegar a Facebook. Parecería un error de DNS, pero no fue el DNS. Este último no lo encontraba porque el BGP fue desconectado. Lo que no se sabe de momento es si Facebook lo desconectó intencionalmente o si fue un error humano. De momento lo que se sabe es que los servidores BGP dejaron de estar en línea”, detalla para esta publicación César Bravo, máster costarricense en ciberseguridad y uno de los inventores líderes del Comité Latinoamericano de Patentes, desmenuza esta información de la siguiente forma.

Facebook logró restablecer la situación cerca de las 4:00 pm en la hora tica.

En su blog Facebook Engineering, esto agregó la compañía:

“(El problema fue causado por) cambios de configuración en los routers troncales que coordinan el tráfico de red entre nuestros centros de datos. Esa interrupción del tráfico de la red tuvo un efecto en cascada en la forma en que se comunican nuestros centros de datos, lo que provocó la paralización de nuestros servicios”.

Según la gigante de California, no hay datos que evidencian que los 3.500 millones de usuarios de los servicios de Facebook hayan “estado comprometidos como resultado de esta caída del servicio”.