مقیاس‌پذیری هوش مصنوعی چیست؟

اگر تا به حال دیده باشید که یک مدل آزمایشی چگونه یک بار آزمایشی کوچک را تحمل می‌کند و سپس لحظه‌ای که کاربران واقعی ظاهر می‌شوند را متوقف می‌کند، با شخصیت منفی ماجرا آشنا شده‌اید: مقیاس‌پذیری. هوش مصنوعی حریص است - برای داده‌ها، محاسبات، حافظه، پهنای باند - و به طرز عجیبی، توجه. پس مقیاس‌پذیری هوش مصنوعی واقعاً چیست و چگونه می‌توان آن را بدون بازنویسی همه چیز هر هفته به دست آورد؟

مقالاتی که شاید بعد از این مطلب دوست داشته باشید بخوانید:

🔗 سوگیری هوش مصنوعی چیست؟ به زبان ساده توضیح داده شده است
بیاموزید که چگونه تعصبات پنهان، تصمیمات هوش مصنوعی و نتایج مدل‌سازی را شکل می‌دهند.

🔗 راهنمای مبتدیان: هوش مصنوعی چیست؟
مروری بر هوش مصنوعی، مفاهیم اصلی، انواع و کاربردهای روزمره آن.

🔗 هوش مصنوعی قابل توضیح چیست و چرا اهمیت دارد؟
کشف کنید که چگونه هوش مصنوعی قابل توضیح، شفافیت، اعتماد و انطباق با مقررات را افزایش می‌دهد.

🔗 هوش مصنوعی پیش‌بینی‌کننده چیست و چگونه کار می‌کند؟
هوش مصنوعی پیش‌بینی‌کننده، موارد استفاده رایج، مزایا و محدودیت‌ها را درک کنید.

مقیاس‌پذیری هوش مصنوعی چیست؟ 📈

مقیاس‌پذیری هوش مصنوعی، توانایی یک سیستم هوش مصنوعی برای مدیریت داده‌ها، درخواست‌ها، کاربران و موارد استفاده بیشتر است، در حالی که عملکرد، قابلیت اطمینان و هزینه‌ها را در محدوده قابل قبول نگه می‌دارد. نه فقط سرورهای بزرگتر - معماری‌های هوشمندتر که تأخیر را کم، توان عملیاتی را بالا و کیفیت را در حین صعود منحنی ثابت نگه می‌دارند. به زیرساخت‌های انعطاف‌پذیر، مدل‌های بهینه‌شده و قابلیت مشاهده‌ای فکر کنید که در واقع به شما می‌گوید چه چیزی در حال سوختن است.

چه چیزی باعث می‌شود هوش مصنوعی مقیاس‌پذیری خوبی داشته باشد؟

وقتی مقیاس‌پذیری هوش مصنوعی به خوبی انجام شود، موارد زیر را به دست می‌آورید:

تأخیر قابل پیش‌بینی تحت بار کاری شدید یا مداوم 🙂
توان عملیاتی که تقریباً متناسب با سخت‌افزار یا کپی‌های اضافه شده
بهره‌وری هزینه که به ازای هر درخواست افزایش نمی‌یابد
ثبات کیفیت با تنوع ورودی‌ها و افزایش حجم تولید
آرامش عملیاتی به لطف مقیاس‌بندی خودکار، ردیابی و SLO های هوشمند

در پسِ این [سیستم/سیستم/...]، معمولاً ترکیبی از مقیاس‌بندی افقی، دسته‌بندی، ذخیره‌سازی موقت، کوانتیزاسیون، سرویس‌دهی قوی و سیاست‌های انتشار متفکرانه مرتبط با بودجه‌های خطا وجود دارد [5].

مقیاس‌پذیری هوش مصنوعی در مقابل عملکرد در مقابل ظرفیت 🧠

عملکرد به این معنی است که یک درخواست واحد با چه سرعتی به صورت جداگانه تکمیل می‌شود.
ظرفیت ، تعداد درخواست‌هایی است که می‌توانید همزمان مدیریت کنید.
مقیاس‌پذیری هوش مصنوعی به این معنی است که آیا اضافه کردن منابع یا استفاده از تکنیک‌های هوشمندانه‌تر، ظرفیت را افزایش می‌دهد و عملکرد را ثابت نگه می‌دارد - بدون اینکه صورتحساب یا پیجر شما را بالا ببرد.

تمایز کوچک، پیامدهای غول‌آسا.

چرا مقیاس اصلاً در هوش مصنوعی کار می‌کند: ایده قوانین مقیاس‌بندی 📚

یک بینش پرکاربرد در یادگیری ماشین مدرن این است که با مقیاس‌بندی اندازه مدل، داده‌ها و محاسبات تعادل بهینه محاسباتی وجود دارد ؛ مقیاس‌بندی هر دو با هم، مقیاس‌بندی تنها یکی را شکست می‌دهد. در عمل، این ایده‌ها بودجه‌های آموزشی، برنامه‌ریزی مجموعه داده‌ها و بده‌بستان‌های سرویس‌دهی را تعیین می‌کنند [4].

ترجمه سریع: بزرگتر می‌تواند بهتر باشد، اما فقط وقتی که ورودی‌ها را مقیاس‌بندی کنید و به تناسب محاسبه کنید - در غیر این صورت مثل این است که لاستیک تراکتور را روی دوچرخه بگذارید. به نظر سخت می‌آید، اما به جایی نمی‌رسد.

افقی در مقابل عمودی: دو اهرم مقیاس‌بندی 🔩

مقیاس‌پذیری عمودی : جعبه‌های بزرگتر، پردازنده‌های گرافیکی قوی‌تر، حافظه بیشتر. ساده، گاهی اوقات گران. مناسب برای آموزش تک گره‌ای، استنتاج با تأخیر کم، یا زمانی که مدل شما از خرد کردن خوب خودداری می‌کند.
مقیاس‌بندی افقی : کپی‌های بیشتر. با مقیاس‌پذیرهای خودکار که پادها را بر اساس CPU/GPU یا معیارهای برنامه سفارشی اضافه یا حذف می‌کنند، بهترین عملکرد را دارد. در Kubernetes، HorizontalPodAutoscaler پادها را در پاسخ به تقاضا مقیاس‌بندی می‌کند - کنترل اولیه ازدحام برای افزایش ترافیک [1].

حکایت (ترکیبی): در طول یک راه‌اندازی پر سر و صدا، به سادگی می‌توان دسته‌بندی سمت سرور را فعال کرد و به مقیاس‌پذیر خودکار اجازه داد تا بدون هیچ تغییری در کلاینت، به عمق صف p95 تثبیت‌شده واکنش نشان دهد. بردهای بی‌سروصدا هنوز هم برد هستند.

مجموعه کامل مقیاس‌پذیری هوش مصنوعی 🥞

لایه داده : ذخیره‌سازی سریع اشیاء، شاخص‌های برداری و دریافت جریان که باعث کند شدن عملکرد مربیان شما نمی‌شود.
لایه آموزش : چارچوب‌ها و زمان‌بندهای توزیع‌شده که موازی‌سازی داده‌ها/مدل، بررسی نقاط کنترل و تلاش‌های مجدد را مدیریت می‌کنند.
لایه خدمت‌رسانی : زمان‌های اجرای بهینه، دسته‌بندی پویا ، توجه صفحه‌بندی‌شده برای LLMها، ذخیره‌سازی، پخش توکن. Triton و vLLM در اینجا قهرمانان مکرر هستند [2][3].
ارکستراسیون : Kubernetes برای قابلیت ارتجاعی از طریق HPA یا مقیاس‌پذیرهای خودکار سفارشی [1].
قابلیت مشاهده : ردگیری‌ها، معیارها و گزارش‌هایی که سفر کاربر را دنبال می‌کنند و رفتار را در محصول مدل‌سازی می‌کنند؛ آنها را حول SLO های خود طراحی کنید [5].
مدیریت و هزینه : اقتصاد هر درخواست، بودجه و kill-switch برای بارهای کاری خارج از کنترل.

جدول مقایسه: ابزارها و الگوهای مقیاس‌پذیری هوش مصنوعی 🧰

عمداً کمی ناموزون است - چون زندگی واقعی همینطور است.

ابزار / الگو	مخاطب	قیمت مناسب	چرا کار می‌کند؟	یادداشت‌ها
کوبرنتیز + HPA	تیم‌های پلتفرم	متن‌باز + مادون قرمز	با افزایش معیارها، پادها را به صورت افقی مقیاس‌بندی می‌کند	معیارهای سفارشی طلا هستند [1]
انویدیا تریتون	استنتاج SRE	سرور رایگان؛ پردازنده گرافیکی $	دسته بندی پویا، توان عملیاتی را افزایش می‌دهد	پیکربندی از طریق `config.pbtxt` [2]
vLLM (توجه صفحه‌ای)	تیم‌های LLM	متن‌باز	توان عملیاتی بالا از طریق صفحه‌بندی کارآمد KV-cache	عالی برای سوالات طولانی [3]
زمان اجرای ONNX / TensorRT	خوره‌های حرفه‌ای	ابزارهای رایگان / فروشنده	بهینه‌سازی‌های سطح هسته، تأخیر را کاهش می‌دهند	مسیرهای صادرات می‌توانند پیچیده باشند
الگوی RAG	تیم‌های برنامه	شاخص مادون قرمز +	دانش را برای بازیابی منتقل می‌کند؛ شاخص را مقیاس‌بندی می‌کند	عالی برای طراوت

بررسی عمیق ۱: ترفندهای سرویس‌دهی که همه را شگفت‌زده می‌کنند 🚀

پویا ، فراخوانی‌های استنتاج کوچک را در دسته‌های بزرگ‌تر روی سرور گروه‌بندی می‌کند و بدون تغییر در کلاینت، استفاده از GPU را به طرز چشمگیری افزایش می‌دهد [2].
توجه صفحه‌بندی‌شده با صفحه‌بندی حافظه‌های نهان KV، مکالمات بسیار بیشتری را در حافظه نگه می‌دارد که باعث بهبود توان عملیاتی در حالت همزمانی می‌شود [3].
درخواست ادغام و ذخیره‌سازی برای اعلان‌ها یا جاسازی‌های یکسان، از کار تکراری جلوگیری می‌کند.
رمزگشایی حدسی و جریان توکن، تأخیر ادراک‌شده را کاهش می‌دهند، حتی اگر ساعت دیواری به سختی تکان بخورد.

بررسی عمیق ۲: بهره‌وری در سطح مدل - کوانتیزه کردن، تقطیر کردن، هرس کردن 🧪

کوانتیزاسیون دقت پارامتر را کاهش می‌دهد (مثلاً ۸ بیت/۴ بیت) تا حافظه را کوچک‌تر و استنتاج را سریع‌تر کند؛ همیشه کیفیت وظیفه را پس از تغییرات دوباره ارزیابی کنید.
تقطیر، دانش را از یک معلم بزرگ به دانش‌آموز کوچک‌تری که سخت‌افزار شما واقعاً دوست دارد، منتقل می‌کند.
هرس ساختاریافته، وزن‌ها/سرهایی را که کمترین سهم را دارند، هرس می‌کند.

بیایید صادق باشیم، این کمی شبیه این است که چمدانتان را کوچک کنید و سپس اصرار داشته باشید که همه کفش‌هایتان هنوز اندازه‌تان باشند. به نوعی، تقریباً همینطور است.

بررسی عمیق ۳: مقیاس‌بندی داده‌ها و آموزش بدون خطا 🧵

از آموزش توزیع‌شده‌ای استفاده کنید که بخش‌های پیچیده‌ی موازی‌سازی را پنهان می‌کند تا بتوانید آزمایش‌ها را سریع‌تر ارسال کنید.
قوانین مقیاس‌بندی را به خاطر داشته باشید : بودجه را با دقت بر اساس اندازه مدل و توکن‌ها اختصاص دهید؛ مقیاس‌بندی هر دو با هم از نظر محاسباتی کارآمد است [4].
کیفیت برنامه درسی و داده‌ها اغلب بیش از آنچه مردم تصور می‌کنند، نتایج را تغییر می‌دهند. داده‌های بهتر گاهی اوقات داده‌های بیشتر را شکست می‌دهند - حتی اگر قبلاً خوشه بزرگتر را سفارش داده باشید.

بررسی عمیق ۴: RAG به عنوان یک استراتژی مقیاس‌پذیری برای دانش 🧭

به جای آموزش مجدد مدل برای همگام شدن با واقعیت‌های در حال تغییر، RAG یک مرحله بازیابی در استنتاج اضافه می‌کند. می‌توانید مدل را ثابت نگه دارید و شاخص و بازیابی‌کننده‌ها با رشد مجموعه داده‌های خود مقیاس‌بندی کنید. زیبا - و اغلب ارزان‌تر از آموزش مجدد کامل برای برنامه‌های سنگین دانش.

قابلیت مشاهده‌ای که هزینه‌اش را می‌پردازد 🕵️♀️

شما نمی‌توانید چیزی را که نمی‌توانید ببینید، مقیاس‌بندی کنید. دو نکته ضروری:

معیارهای برنامه‌ریزی ظرفیت و مقیاس‌بندی خودکار: درصدهای تأخیر، عمق صف، حافظه GPU، اندازه دسته‌ها، توان عملیاتی توکن، نرخ موفقیت حافظه پنهان.
ردیابی‌هایی که یک درخواست واحد را در سراسر دروازه → بازیابی → مدل → پس‌پردازش دنبال می‌کنند. آنچه را که اندازه‌گیری می‌کنید به SLO های خود گره بزنید تا داشبوردها در کمتر از یک دقیقه به سوالات پاسخ دهند [5].

وقتی داشبوردها در کمتر از یک دقیقه به سوالات پاسخ می‌دهند، مردم از آنها استفاده می‌کنند. وقتی این کار را نمی‌کنند، خب، وانمود می‌کنند که می‌کنند.

محافظ‌های قابلیت اطمینان: SLOها، بودجه‌های خطا، پیاده‌سازی‌های عاقلانه 🧯

SLOها را تعریف کنید و از بودجه‌های خطا برای ایجاد تعادل بین قابلیت اطمینان و سرعت انتشار استفاده کنید [5].
قبل از تقاطع‌های سراسری، پشت تقسیم‌بندی‌های ترافیکی مستقر شوید، تست‌های قناری انجام دهید و تست‌های سایه را اجرا کنید. خودِ آینده‌تان خوراکی‌های خوشمزه‌ای برایتان می‌فرستد.

کنترل هزینه بدون دردسر 💸

مقیاس‌پذیری فقط فنی نیست؛ بلکه مالی هم هست. با ساعات کار و توکن‌های پردازنده گرافیکی به عنوان منابع درجه یک با صرفه اقتصادی واحد (هزینه به ازای ۱۰۰۰ توکن، به ازای هر جاسازی، به ازای هر پرس‌وجوی برداری) رفتار کنید. بودجه و هشدار اضافه کنید؛ از حذف چیزها تجلیل کنید.

یک نقشه راه ساده برای مقیاس‌پذیری هوش مصنوعی 🗺️

با SLOها برای تأخیر p95، در دسترس بودن و دقت وظیفه شروع کنید؛ معیارها/ردیابی‌ها را در روز اول سیم‌کشی کنید [5].
یک بسته‌ی سرو انتخاب کنید که از دسته‌بندی و دسته‌بندی پیوسته پشتیبانی کند: Triton، vLLM یا معادل‌های آن [2][3].
مدل را بهینه کنید : مواردی را که مفید است، کمی‌سازی کنید، هسته‌های سریع‌تر را فعال کنید، یا برای وظایف خاص، خلاصه‌سازی کنید؛ کیفیت را با ارزیابی‌های واقعی اعتبارسنجی کنید.
معمار برای انعطاف‌پذیری : Kubernetes HPA با سیگنال‌های مناسب، مسیرهای خواندن/نوشتن جداگانه و کپی‌های استنتاج بدون حالت [1].
بازیابی را اتخاذ کنید تا به جای آموزش مجدد هر هفته، شاخص خود را مقیاس‌بندی کنید.
حلقه را با هزینه ببندید : اقتصاد واحد و بررسی‌های هفتگی را ایجاد کنید.

حالت‌های خرابی رایج و راه‌حل‌های سریع 🧨

پردازنده گرافیکی با 30 درصد استفاده و تأخیر بسیار کم
- دسته بندی پویا را فعال کنید ، محدودیت های دسته ای را با دقت افزایش دهید و همزمانی سرور را دوباره بررسی کنید [2].
با درخواست‌های طولانی، توان عملیاتی کاهش می‌یابد
- از سرویسی استفاده کنید که از توجه صفحه‌بندی شده و حداکثر توالی‌های همزمان را تنظیم کنید [3].
فلپ‌های ترازوی خودکار
- معیارهای روان با پنجره‌ها؛ مقیاس‌بندی بر اساس عمق صف یا توکن‌های سفارشی در هر ثانیه به جای CPU صرف [1].
هزینه‌ها پس از راه‌اندازی به شدت افزایش یافت
- معیارهای هزینه در سطح درخواست را اضافه کنید، کوانتیزاسیون را در صورت ایمن بودن فعال کنید، پرس‌وجوهای برتر را ذخیره کنید و بدترین متخلفان را با محدودیت سرعت محدود کنید.

دفترچه راهنمای مقیاس‌پذیری هوش مصنوعی: چک لیست سریع ✅

SLOها و بودجه‌های خطا وجود دارند و قابل مشاهده هستند.
معیارها: تأخیر، تعداد تراکنش در ثانیه، حافظه GPU، اندازه دسته، توکن/ثانیه، میزان موفقیت در حافظه پنهان
ردیابی‌ها از ورودی به مدل و پس از پردازش
سرو کردن: دسته بندی، تنظیم همزمانی، حافظه‌های نهان گرم
مدل: در صورت لزوم، کمی‌سازی شده یا مقطرگیری شده
مادون قرمز: HPA با سیگنال‌های مناسب پیکربندی شده است
مسیر بازیابی برای تازگی دانش
اقتصاد واحد اغلب بررسی می‌شود

خیلی طولانی بود، نخوندمش و حرف آخر 🧩

مقیاس‌پذیری هوش مصنوعی یک ویژگی واحد یا یک کلید مخفی نیست. این یک زبان الگو است: مقیاس‌پذیری افقی با مقیاس‌پذیرهای خودکار، دسته‌بندی سمت سرور برای استفاده، کارایی در سطح مدل، بازیابی برای تخلیه دانش و قابلیت مشاهده که باعث می‌شود انتشارها خسته‌کننده شوند. برای هماهنگ نگه داشتن همه، SLOها و بهداشت هزینه را اضافه کنید. شما در همان بار اول به نتیجه کامل نخواهید رسید - هیچ‌کس این کار را نمی‌کند - اما با حلقه‌های بازخورد مناسب، سیستم شما بدون آن احساس عرق سرد ساعت ۲ بامداد رشد خواهد کرد 😅

منابع

[1] اسناد Kubernetes - مقیاس‌بندی خودکار افقی Pod - بیشتر بخوانید
[2] NVIDIA Triton - دسته بندی پویا - بیشتر بخوانید
[3] اسناد vLLM - توجه صفحه بندی شده - بیشتر بخوانید
[4] هافمن و همکاران (2022) - آموزش مدل‌های زبان بزرگ محاسباتی بهینه - بیشتر بخوانید
[5] کتاب کار Google SRE - پیاده‌سازی SLOها - بیشتر بخوانید

جدیدترین هوش مصنوعی را در فروشگاه رسمی دستیار هوش مصنوعی پیدا کنید

درباره ما

بازگشت به وبلاگ

کشور/منطقه