بسیاری از عوامل و دلایل میتوانند یک مرکز داده را از کار بیندازند. برخی از این دلایل متداول و تا حدودی آشنا و شناخته شده هستند؛ مانند خطاهای انسانی که ممکن است برای هر مرکز داده¬ای رخ دهد ولی برخی از دلایل شکست و خرابی، بسیار نادر هستند.
در وهله نخست، مهم نیست کدام عامل و علت باعث خرابی مرکز داده شده است چون نتیجه یکسان است: کاهش آپتایم مرکز داده، کاهش درآمد و احیانا ضررهای مالی و جبران خسارت، کاهش بهرهوری، عدم رضایت مشتریان و کوچ آنها به مراکز داده دیگر.
در سال گذشته میلادی، میانگین هزینه خرابیهای برنامهریزی نشده مراکز داده حدود ۸.۸۵۰ دلار در هر دقیقه بوده است. در این مطلب میخواهیم نگاهی به ۴ علت عمده و متداول خرابی مراکز داده داشته باشیم:
۱- خطاهای انسانی
موسسه Uptime Institute میگوید نزدیک به ۷۰ درصد قطعیهای مراکزداده را میتوان به خطاهای انسانی مرتبط دانست.
خطاها و اشتباهاتی در طراحی، نصب و نگهداری مراکزداده که منجر به یک خرابی جدی میشوند. خرابیهایی مانند عدم لایهبندی درست، عدم برچسبزنی کابلها و تجهیزات یا برچسبزنی ضعیف و اشتباه، عدم آموزش درست و کافی برای نگهداری تجهیزات، عدم نگهداری و رسیدگی درست و به موقع همگی میتوانند در یک مرکزداده فاجعهآفرین باشند.
حتی سادهترین نظارتها و بازرسیها میتواند از وقوع یک خرابی بزرگ و هزینههای گزاف جلوگیری کند.
برخی از خطاهای رایج انسانی که باعث خرابی و از کار افتادن مراکز داده میشوند:
- فعالسازی سوییچ خاموش اضطراری (EPO)
- تنظیم دما از فارنهایت به سلسیوس
- بیرون کشیدن سیمهای برق از درون دستگاه
- وارد آمدن بار بیش از اندازه به مدار
- عدم رعایت و پیروی از استانداردها و رویههای مشخص
برای به حداقل رساندن خطاهای انسانی در مراکز داده باید حداقل چند کار ضروری زیر انجام شود:
- برای آموزش، مستندسازی، تعاملهای کاری و هماهنگیها وقت کافی بگذارید.
- برخی از مالکیتها و وظایف خاص تعریف کنید.
- خرابی و عبور از بحران را تمرین و تکرار کنید.
- تا حد امکان از راهحلهای استاندارد استفاده کنید.
- همهچیز از کابل و درگاه و تجهیزات و غیره را برچسبگذاری کرده، مرتب و تمیز نگه دارید.
- از فناوریها و رویکردهای جدید برای خودکارسازی کارها استفاده کنید.
۲- خطاهای سیستم سرمایشی
گرمای بیش از حد میتواند یک مرکز داده را از کار بیندازد. وقتی تجهیزات خیلی گرم شوند؛ حرارت روی عملکردشان تاثیر میگذارد و ممکن است دستگاه خراب شود یا برای جلوگیری از خرابی خاموش شود.
به هر حال، حرارت و گرما دشمن شماره یک مراکز داده هستند و به طور مستقیم روی آپتایم تاثیرمیگذارند.
برخی از دلایل افزایش گرما و حرارت در مرکز داده به شرح زیر است:
- هوای سرد کافی وارد سیستم تهویه هوا نمیشود و راهروها به اندازه کافی سرد نیستند.
- جریان هوا وجود ندارد یا یک تهویه هوای غیرمتقارن صورت میگیرد.
- افزونگی سیستم سرمایشی خراب است یا اصلا پیشبینی نشده است.
- گرما و حرارت از درون رکها و مرکزداده خارج نمیشود.
برای اینکه اطمینان حاصل کنید مرکز داده شما مشکل گرمایشی یا سرمایشی ندارد؛ باید تجهیزات سرمایشی را مرتبا بررسی کنید تا اطمینان حاصل شود همهچیز طبق اصول، استاندارد و پیشبینی شما کار میکند.
افزون بر این، بهتر است از مدلسازی دینامیک سیالات محاسباتی (CFD) برای آزمایش سیستم سرمایشی مرکز داده در سناریوهای مختلف خرابی استفاده کنید تا ببینید چه اتفاقاتی میافتد و این اتفاقات با چه سرعتی رخ میدهند.
کار دیگری که باید انجام شود؛ سرمایهگذاری برای راهاندازی یک سیستم مانیتورینگ محیط است تا سریعا به شما تغییر درجه حرارتی محیط را هشدار دهد.
این سیستمها با رصد ۲۴ ساعت و آنی دمای محیط و دیگر فاکتورها، به محض اینکه تغییر درجه حرارت شروع شد و به سوی منطقه ناامن رفت؛ هشدارهای خود را میدهند.
اطمینان حاصل کنید راهروها و رکهای مرکز داده شما همیشه در حال تهویه هوا و بیرون راندن جریان هوای گرم و جایگزین شدن هوای خنک هستند.
۳- مشکلات کابلکشی
کابلکشی یک کار زیرساختی برای رسیدن به کارایی بالا و بهرهوری زیاد در یک مرکز داده است. اگر سیستم کابلکشی در یک مرکزداده از همان ابتدا به صورت ساختاریافته و استانداردی صورت نگیرد؛ خرابی در مرکز داده محتمل است.
مشکلات احتمالی در کابلکشی میتواند یکی از موارد زیر باشد:
- کابلهای حساس بسیار محکم بستهبندی و متصل شده باشند.
- کابلهای برق خم شده، تا خورده یا شکسته باشند.
- از کابلی اشتباه برای یک بخش از اتصالات استفاده شده باشد.
- از کابلی که در انتها یا بخشهایی ضعیف و فرسوده شده است، استفاده شده باشد.
برای جلوگیری از آسیب رسیدن به کابلها و زخمی شدن آنها، مطمئن شوید بهترین روشهای کابلکشی و مدیریت کابلها را استفاده میکنید. بررسی کنید آیا زمان تعویض کابلها و استفاده از یک سیستم کابلکشی جدید در مرکز داده فرا نرسیده است؟
روی بهترین راهکارهای کابلکشی سرمایهگذاری کنید و کابلکشی مرکز داده خود را ارزشگذاری کنید تا مطمئن شوید یک سیستم کابلکشی با کارایی بالا دارید. همیشه آمادگی استفاده از فناوریهای جدید در مدیریت کابلهای مرکز داده را داشته باشید و هرگز کابلها را برای طولانی مدت به حال خود رها نکنید.
۴- مسایل امنیتی
تهدیدات امنیتی و حملات سایبری یکی از عوامل مهم ولی خاموش خرابی مراکز داده است. مشکلات امنیتی میتواند از داخل مرکز داده آغاز شوند (کارمندی که به طور کاملا سهوی طعمه یک حمله فیشینگ میشود) یا اینکه عامل بیرونی داشته و هکری بخواهد شبکه شما را از کار بیندازد.
در وهله نخست، اطمینان حاصل کنید تمام داراییهای IT مرکز داده در هر سطحی، به خوبی محافظت شده و در معرض تهدیدات امنیتی قرار ندارند.
نظارت و گزارشگیری هوشمند میتواند به شما کمک کند زودتر جریانهای نشتی اطلاعات در داخل مرکزداده را کشف و رفع کنید. این سیستمها به شما میگویند چه کسی به چه چیزی دسترسی دارد و چه زمانی به آن دسترسی پیدا کرده است.
امنیت مرکز داده را به صورت چند سطحی و لایهبندی پیادهسازی کنید تا اگر در یک سطح و لایه ضعف یا آسیبپذیری بروز کرد؛ دیگر سطوح و لایهها را گرفتار نکند.
اگر یک سوییچ در مرکز داده هک و از کار انداخته شود؛ نباید خرابی به تمام مرکز داده و کل سرویسهای در حال اجرا بکشد.
دیدگاه خود را بنویسید