Openstack. Детективна історія або куди пропадає зв'язок? Частина перша

Ця історія про OpenStack + KVM. Все почалося, коли все працювало добре. «Стара» платформа всіх задовольняла. Її піднімали без нас, і вона злегка застаріла. Це була Juno. При цьому вона працювала.

В принципі вона була тестової, поки в один прекрасний день не стала бойовою. Ми знати не знали проблем, з якими зіткнулися потім. Начальство, радісно потираючи руки, вирішило оновити парк систем. В тому числі і тестову платформу OpenStack.

Вирішили розгортати вручну, оскільки в той момент не було fuel рішень під версію Mitaka. Тому розгорнули всі за рецептами c офіційного сайту. Звичайно, трохи додали і від себе, наприклад, замінили Memcached на Couchbase, а в якості бази даних взяли percona в кластерному режимі. І все йшло добре. До певного моменту.

Стали у нас пропадати пакети. Спочатку ми думали, що винен комутатор. На ньому була Junos досить старої версії — 11, яка має відомі баги. І на консолі у неї дійсно були повідомлення, що підтверджують нашу гіпотезу. Ми замінили це залізо на інше, з новою, 15-й прошивкою Junos.

Між тим проблема не зникла, а лише стала потихеньку розширюватися. Загальний симптом виглядає так — пінги раптово губляться. Постійно обривається зв'язок.
Гнітюче для нас і клієнтів.

Є у нас один клієнт, багато трафіку споживає. І генерує у відповідь теж багато. У нього трансляції з веб-камер йдуть. Став він скаржитися: пропадає зв'язок і все тут.

Ось що ми побачили на моніторингу:

Пропажа трафіку

Дійсно — клієнт прав, що щось не так. Але де??? В один з таких моментів ми знайшли причину — не той ARP світився в мережі. Де ж винуватець? Винний адресу було знайдено на що випускає файрвол. Там стояла рядок, помилково вписана адміном:

set security nat проксі-arp interface xxxx address yy.zz.tt.cc/32

Слава богу, знайшли — була перша думка. Але не тут-то було. Пропажа пакунків, не важливо яких tcp, icmp, udp — тривало.

Ми продовжували шукати, і стало ясно, що проблема десь всередині OpenStack. Коли я став пінговать тестову віртуальну машину — ледь не впав зі стільця:

Дивний пінг
Це означало, що з якоїсь причини частина пакетів не транслювалася, і вивалилася назовні з сірими адресами! Природно, ці пакети ні до кого не дійшли.

Ми поділимося тим, що змогли розкопати, але пізніше. Хотілося б побачити думку шановної публіки, що ми робили не так і де треба було шукати
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.