بسیاری از عوامل و دلایل می‌توانند یک مرکز داده را از کار بیندازند.  برخی از این دلایل متداول و تا حدودی آشنا و شناخته شده هستند؛ مانند  خطاهای انسانی که ممکن است برای هر مرکز داده¬ای رخ دهد ولی برخی از دلایل  شکست و خرابی، بسیار نادر هستند. 

                                

در وهله نخست، مهم نیست کدام عامل و علت باعث خرابی مرکز داده شده است چون  نتیجه یکسان است: کاهش آپ‌تایم مرکز داده، کاهش درآمد و احیانا ضررهای  مالی و جبران خسارت، کاهش بهره‌وری، عدم رضایت مشتریان و کوچ آن‌ها به  مراکز داده دیگر.

در سال گذشته میلادی، میانگین هزینه خرابی‌های برنامه‌ریزی نشده مراکز  داده حدود ۸.۸۵۰ دلار در هر دقیقه بوده است. در این مطلب می‌خواهیم نگاهی  به ۴ علت عمده و متداول خرابی مراکز داده داشته باشیم:

۱- خطاهای انسانی

موسسه Uptime Institute می‌گوید نزدیک به ۷۰ درصد قطعی‌های مراکزداده را می‌توان به خطاهای انسانی مرتبط دانست.

خطاها و اشتباهاتی در طراحی، نصب و نگهداری مراکزداده که منجر به یک خرابی  جدی می‌شوند. خرابی‌هایی مانند عدم لایه‌بندی درست، عدم برچسب‌زنی کابل‌ها  و تجهیزات یا برچسب‌زنی ضعیف و اشتباه، عدم آموزش درست و کافی برای  نگهداری تجهیزات، عدم نگه‌داری و رسیدگی درست و به موقع همگی می‌توانند در  یک مرکزداده فاجعه‌آفرین باشند.

حتی ساده‌ترین نظارت‌ها و بازرسی‌ها می‌تواند از وقوع یک خرابی بزرگ و هزینه­های گزاف جلوگیری کند.

 برخی از خطاهای رایج انسانی که باعث خرابی و از کار افتادن مراکز داده می‌شوند:

  • فعال‌سازی سوییچ خاموش اضطراری (EPO)
  • تنظیم دما از فارنهایت به سلسیوس
  • بیرون کشیدن سیم‌های برق از درون دستگاه
  • وارد آمدن بار بیش از اندازه به مدار
  • عدم رعایت و پیروی از استانداردها و رویه‌های مشخص

برای به حداقل رساندن خطاهای انسانی در مراکز داده باید حداقل چند کار ضروری زیر انجام شود:

  • برای آموزش، مستندسازی، تعامل‌های کاری و هماهنگی‌ها وقت کافی بگذارید.
  • برخی از مالکیت‌ها و وظایف خاص تعریف کنید.
  • خرابی و عبور از بحران را تمرین و تکرار کنید.
  • تا حد امکان از راه‌حل‌های استاندارد استفاده کنید.
  • همه‌چیز از کابل و درگاه و تجهیزات و غیره را برچسب‌گذاری کرده، مرتب و تمیز نگه دارید.
  • از فناوری‌ها و رویکردهای جدید برای خودکارسازی کارها استفاده کنید.

۲- خطاهای سیستم سرمایشی

گرمای بیش از حد می‌تواند یک مرکز داده را از کار بیندازد. وقتی تجهیزات  خیلی گرم شوند؛ حرارت روی عملکردشان تاثیر می‌گذارد و ممکن است دستگاه خراب  شود یا برای جلوگیری از خرابی خاموش شود.

به هر حال، حرارت و گرما دشمن شماره یک مراکز داده هستند و به طور مستقیم روی آپ‌تایم تاثیرمی­گذارند.

برخی از دلایل افزایش گرما و حرارت در مرکز داده به شرح زیر است:

  • هوای سرد کافی وارد سیستم تهویه هوا نمی‌شود و راهروها به اندازه کافی سرد نیستند.
  • جریان هوا وجود ندارد یا یک تهویه هوای غیرمتقارن صورت می‌گیرد.
  • افزونگی سیستم سرمایشی خراب است یا اصلا پیش‌بینی نشده است.
  • گرما و حرارت از درون رک‌ها و مرکزداده خارج نمی‌شود.

برای اینکه اطمینان حاصل کنید مرکز داده شما مشکل گرمایشی یا سرمایشی  ندارد؛ باید تجهیزات سرمایشی را مرتبا بررسی کنید تا اطمینان حاصل شود  همه‌چیز طبق اصول، استاندارد و پیش‌بینی شما کار می‌کند.

افزون بر این، بهتر است از مدل‌سازی دینامیک سیالات محاسباتی (CFD)  برای آزمایش سیستم سرمایشی مرکز داده در سناریوهای مختلف خرابی استفاده  کنید تا ببینید چه اتفاقاتی می‌افتد و این اتفاقات با چه سرعتی رخ می‌دهند.

کار دیگری که باید انجام شود؛ سرمایه‌گذاری برای راه‌اندازی یک سیستم  مانیتورینگ محیط است تا سریعا به شما تغییر درجه حرارتی محیط را هشدار دهد.

این سیستم‌ها با رصد ۲۴ ساعت و آنی دمای محیط و دیگر فاکتورها، به محض  اینکه تغییر درجه حرارت شروع شد و به سوی منطقه ناامن رفت؛ هشدارهای خود را  می‌دهند.

اطمینان حاصل کنید راهروها و رک‌های مرکز داده شما همیشه در حال تهویه هوا  و بیرون راندن جریان هوای گرم و جایگزین شدن هوای خنک هستند.

۳- مشکلات کابل‌کشی

کابل‌کشی یک کار زیرساختی برای رسیدن به کارایی بالا و بهره‌وری زیاد در  یک مرکز داده است. اگر سیستم کابل‌کشی در یک مرکزداده از همان ابتدا به  صورت ساختاریافته و استانداردی صورت نگیرد؛ خرابی در مرکز داده محتمل است.

مشکلات احتمالی در کابل‌کشی می‌تواند یکی از موارد زیر باشد:

  • کابل‌های حساس بسیار محکم بسته‌بندی و متصل شده باشند.
  • کابل‌های برق خم شده، تا خورده یا شکسته باشند.
  • از کابلی اشتباه برای یک بخش از اتصالات استفاده شده باشد.
  • از کابلی که در انتها یا بخش‌هایی ضعیف و فرسوده شده است، استفاده شده باشد.

برای جلوگیری از آسیب رسیدن به کابل‌ها و زخمی شدن آن‌ها، مطمئن شوید  بهترین روش‌های کابل‌کشی و مدیریت کابل‌ها را استفاده می‌کنید. بررسی کنید  آیا زمان تعویض کابل‌ها و استفاده از یک سیستم کابل‌کشی جدید در مرکز داده  فرا نرسیده است؟

روی بهترین راه‌کارهای کابل‌کشی سرمایه‌گذاری کنید و کابل‌کشی مرکز داده  خود را ارزش‌گذاری کنید تا مطمئن شوید یک سیستم کابل‌کشی با کارایی بالا  دارید. همیشه آمادگی استفاده از فناوری‌های جدید در مدیریت کابل‌های مرکز  داده را داشته باشید و هرگز کابل‌ها را برای طولانی مدت به حال خود رها  نکنید.

۴- مسایل امنیتی

تهدیدات امنیتی و حملات سایبری یکی از عوامل مهم ولی خاموش خرابی مراکز  داده است. مشکلات امنیتی می‌تواند از داخل مرکز داده آغاز شوند (کارمندی که  به طور کاملا سهوی طعمه یک حمله فیشینگ می‌شود) یا اینکه عامل بیرونی  داشته و هکری بخواهد شبکه شما را از کار بیندازد.

در وهله نخست، اطمینان حاصل کنید تمام دارایی‌های IT مرکز داده در هر سطحی، به خوبی محافظت شده و در معرض تهدیدات امنیتی قرار ندارند.

نظارت و گزارش‌گیری هوشمند می‌تواند به شما کمک کند زودتر جریان‌های نشتی  اطلاعات در داخل مرکزداده را کشف و رفع کنید. این سیستم‌ها به شما می‌گویند  چه کسی به چه چیزی دسترسی دارد و چه زمانی به آن دسترسی پیدا کرده است.

امنیت مرکز داده را به صورت چند سطحی و لایه‌بندی پیاده‌سازی کنید تا اگر  در یک سطح و لایه ضعف یا آسیب‌پذیری بروز کرد؛ دیگر سطوح و لایه‌ها را  گرفتار نکند.

اگر یک سوییچ در مرکز داده هک و از کار انداخته شود؛ نباید خرابی به تمام مرکز داده و کل سرویس‌های در حال اجرا بکشد.