سیستم‌های AI که هم‌زمان با تصویر، ویدیو، متن و صدا کار می‌کنند؛ به گونه‌ای رشد کرده‌اند که اکنون در پلتفرم‌هایی مثل Google Lens یا سرویس‌های مشابه شرکت Alibaba حجم بالایی از پردازش داده را به خود اختصاص می‌دهند: گوگل لنز ماهانه بیش از ۲۰ میلیارد درخواست بصری را پردازش می‌کند و علی‌بابا روزانه چند ده میلیون درخواست تصویر دارد. با این حال، زیرساخت‌های سنتی، یعنی سرورهای مبتنی بر معماری x86، برای این نوع بار کاری طراحی نشده‌اند. در نتیجه بخش بزرگی از قدرت GPU بی‌استفاده می‌ماند. 

دلیل اصلی این هدررفت، نحوه هماهنگی جریان داده و پردازش است. فرایندهایی مثل پردازش تصویر، استخراج جاسازی‌شده، جستجوی برداری و استنتاج زبانی نیاز به تعامل مکرر و غیرهمگام دارند. تمام این وظایف توسط CPU مدیریت می‌شوند، بنابراین GPUها که برای کار موازی طراحی شده‌اند؛ مجبور می‌شوند منتظر بمانند تا داده آماده شود. 

این وضعیت باعث می‌شود که سازمان‌ها میلیون‌ها دلار سرمایه و هزینه عملیاتی صرف GPU کنند، اما بازده واقعی بسیار پایین باشد. علاوه بر هدرفت سرمایه، مصرف انرژی و خنک‌سازیِ بی‌مورد نیز هزینه‌ها را بالا می‌برد. 

برای رفع این مشکل، نوآوری‌هایی در حال ظهور است. برخی استارتاپ‌ها با معرفی سخت‌افزاری جدید که شامل یک چیپ اختصاصی به نام NR1 AI‑CPU و نرم‌افزار مدیریت به نام NR AI Hypervisor است؛ سعی دارند وظایف هماهنگی، پیش‌پردازش و مدیریت بردارها را از CPU به موتورهای مخصوص منتقل کند. در آزمایشگاه‌های این شرکت‌ها، با این روش تا ۸۵ درصد بهبود کارایی و تقریباً استفاده کامل از GPUها مشاهده شده است. تحلیلگران می‌گویند: «نبرد واقعی در آینده هوش مصنوعی، بر سر تعداد GPU نیست؛ بلکه بر سر بیشترین استفاده ممکن از هر GPU» خواهد بود.

منبع: datacenternews