پاسخ کوتاه: برای ارزیابی خوب مدلهای هوش مصنوعی، با تعریف آنچه «خوب» برای کاربر واقعی و تصمیم در دست انجام به نظر میرسد، شروع کنید. سپس ارزیابیهای تکرارپذیر را با دادههای نماینده، کنترلهای دقیق نشت و معیارهای چندگانه بسازید. بررسیهای استرس، سوگیری و ایمنی را اضافه کنید و هر زمان که چیزی تغییر کرد (دادهها، اعلانها، سیاستها)، مهار را دوباره اجرا کنید و پس از راهاندازی، نظارت را ادامه دهید.
نکات کلیدی:
معیارهای موفقیت : قبل از انتخاب معیارها، کاربران، تصمیمات، محدودیتها و بدترین حالتهای شکست را تعریف کنید.
تکرارپذیری : یک ابزار ارزیابی بسازید که با هر تغییر، آزمایشهای مشابه را دوباره اجرا کند.
بهداشت دادهها : تقسیمبندیها را پایدار نگه دارید، از تکرار جلوگیری کنید و نشت ویژگیها را در مراحل اولیه مسدود کنید.
بررسیهای اعتماد : استحکام آزمون استرس، برشهای انصاف، و رفتارهای ایمنی LLM با دستورالعملهای واضح.
نظم چرخه عمر : پیادهسازی مرحلهای، نظارت بر انحرافات و حوادث، و مستندسازی شکافهای شناختهشده.
مقالاتی که شاید بعد از این مطلب دوست داشته باشید بخوانید:
🔗 اخلاق هوش مصنوعی چیست؟
اصول راهنمای طراحی، استفاده و مدیریت مسئولانه هوش مصنوعی را بررسی کنید.
🔗 سوگیری هوش مصنوعی چیست؟
بیاموزید که چگونه دادههای جانبدارانه، تصمیمات و نتایج هوش مصنوعی را منحرف میکنند.
🔗 مقیاسپذیری هوش مصنوعی چیست؟
درک مقیاسبندی سیستمهای هوش مصنوعی از نظر عملکرد، هزینه و قابلیت اطمینان.
🔗 هوش مصنوعی چیست؟
مروری روشن بر هوش مصنوعی، انواع و کاربردهای آن در دنیای واقعی.
۱) با تعریف نه چندان جذاب «خوب» شروع کنید
قبل از معیارها، قبل از داشبوردها، قبل از هرگونه تغییر معیار - تصمیم بگیرید که موفقیت چگونه به نظر میرسد.
شفافسازی:
-
کاربر: تحلیلگر داخلی، مشتری، پزشک، راننده، یک کارشناس پشتیبانی خسته در ساعت ۴ بعد از ظهر…
-
تصمیم: تأیید وام، گزارش تقلب، پیشنهاد محتوا، خلاصه کردن یادداشتها
-
شکستهایی که بیشترین اهمیت را دارند:
-
مثبت کاذب (آزاردهنده) در مقابل منفی کاذب (خطرناک)
-
-
محدودیتها: تأخیر، هزینه هر درخواست، قوانین حریم خصوصی، الزامات قابلیت توضیح، دسترسیپذیری
این بخشی است که تیمها به جای «نتیجه معنادار»، به سمت بهینهسازی برای «معیارهای زیبا» سوق پیدا میکنند. این اتفاق زیاد میافتد. مثلاً... خیلی زیاد.
یک راه مطمئن برای آگاه نگه داشتن این موضوع از ریسک (و نه مبتنی بر احساسات) این است که تست را حول محور قابل اعتماد بودن و مدیریت ریسک چرخه عمر قرار دهید، روشی که NIST در چارچوب مدیریت ریسک هوش مصنوعی (AI RMF 1.0) [1] انجام میدهد.

۲) چه چیزی یک نسخه خوب از «چگونه مدلهای هوش مصنوعی را آزمایش کنیم» را میسازد؟ ✅
یک رویکرد تست قوی چند نکتهی غیرقابل انکار دارد:
-
دادههای نماینده (نه فقط دادههای آزمایشگاهی بینقص)
-
شکافهای شفاف با قابلیت جلوگیری از نشتی (در ادامه بیشتر در این مورد توضیح خواهیم داد)
-
خطوط پایه (مدلهای سادهای که باید از آنها بهتر عمل کنید - برآوردگرهای ساختگی به دلیلی وجود دارند [4])
-
معیارهای چندگانه (چون یک عدد، مؤدبانه، رو در رو به شما دروغ میگوید)
-
آزمونهای استرس (موارد حاشیهای، ورودیهای غیرمعمول، سناریوهای خصمانه)
-
حلقههای بررسی انسانی (بهویژه برای مدلهای مولد)
-
نظارت پس از راهاندازی (زیرا جهان تغییر میکند، خطوط لوله از کار میافتند و کاربران ... خلاق هستند [1])
همچنین: یک رویکرد خوب شامل مستندسازی مواردی است که آزمایش کردهاید، مواردی که آزمایش نکردهاید و مواردی که نگرانشان هستید. آن بخش «آنچه نگرانش هستم» کمی عجیب به نظر میرسد - و همچنین جایی است که اعتماد شروع به افزایش میکند.
دو الگوی مستندسازی که به طور مداوم به تیمها کمک میکنند تا صادق بمانند:
-
کارتهای مدل (مدل برای چیست، چگونه ارزیابی شده است، در کجا شکست میخورد) [2]
-
برگههای داده برای مجموعه دادهها (دادهها چیستند، چگونه جمعآوری شدهاند، برای چه مواردی باید/نباید استفاده شوند) [3]
۳) واقعیت ابزار: آنچه مردم در عمل استفاده میکنند 🧰
ابزارها اختیاری هستند، اما عادات خوب ارزیابی نه.
اگر واقعاً یک چیدمان عملی میخواهید، اکثر تیمها در نهایت با سه دسته مواجه میشوند:
-
ردیابی آزمایش (اجراها، پیکربندیها، مصنوعات)
-
ابزار ارزیابی (آزمونهای آفلاین تکرارپذیر + مجموعههای رگرسیون)
-
نظارت (سیگنالهای انحرافی، شاخصهای عملکرد، هشدارهای حادثه)
نمونههایی که زیاد در دنیای واقعی خواهید دید (نه تاییدیهها، و بله - تغییر ویژگیها/قیمتگذاری): MLflow، Weights & Biases، Great Expectations، Evidently، Deepchecks، OpenAI Evals، TruLens، LangSmith.
اگر فقط یک ایده از این بخش انتخاب میکنید: ساخت یک مهار ارزیابی تکرارپذیر . شما میخواهید «دکمه را فشار دهید → نتایج قابل مقایسه بگیرید»، نه «دفترچه را دوباره اجرا کنید و دعا کنید».
۴) مجموعه تست مناسب را بسازید (و از نشت دادهها جلوگیری کنید) 🚧
تعداد تکاندهندهای از مدلهای «شگفتانگیز» بهطور تصادفی خیانت میکنند.
برای یادگیری ماشین استاندارد
چند قانون غیرجذاب که شغلها را نجات میدهند:
-
آموزش/اعتبارسنجی/آزمون نگه دارید (و منطق تقسیمبندی را بنویسید)
-
جلوگیری از تکرار در بخشهای مختلف (همان کاربر، همان سند، همان محصول، موارد تقریباً تکراری)
-
مراقب نشت ویژگیها (اطلاعات آینده به طور پنهانی در ویژگیهای «فعلی» منتشر میشوند)
-
از خطوط پایه (برآوردگرهای ساختگی) استفاده کنید تا از شکست دادن... هیچ چیز خوشحال نشوید [4]
تعریف نشت (نسخه سریع): هر چیزی در آموزش/ارزیابی که به مدل امکان دسترسی به اطلاعاتی را میدهد که در زمان تصمیمگیری در اختیار ندارد. این اطلاعات میتواند واضح ("برچسب آینده") یا نامحسوس ("سطل برچسب زمانی پس از رویداد") باشد.
برای LLM ها و مدل های مولد
یک سیستم «اعلان و سیاست هستید ، نه فقط «یک مدل».
-
یک مجموعه طلایی از دستورالعملها ایجاد کنید (کوچک، با کیفیت بالا، پایدار)
-
نمونههای واقعی اخیر را اضافه کنید (ناشناس + ایمن برای حریم خصوصی)
-
یک بستهی حاوی اطلاعات ضروری : غلطهای املایی، اصطلاحات عامیانه، قالببندی غیراستاندارد، ورودیهای خالی، غافلگیریهای چندزبانه 🌍
یک اتفاق عملی که بیش از یک بار شاهد آن بودهام: یک تیم با امتیاز آفلاین «قوی» کار را شروع میکند، سپس پشتیبانی مشتری میگوید: «عالیه. با اطمینان میتوان گفت که یک جمله مهم را از قلم انداخته است.» راه حل «مدل بزرگتر» نبود. بلکه پیشنهادهای آزمایشی بهتر ، دستورالعملهای واضحتر و یک مجموعه رگرسیون بود که دقیقاً همان حالت شکست را مجازات میکرد. ساده. مؤثر.
۵) ارزیابی آفلاین: معیارهایی که معنایی دارند 📏
معیارها خوب هستند. کشت تکمحصولی معیاری خوب نیست.
طبقهبندی (هرزنامه، کلاهبرداری، قصد، اولویتبندی)
از چیزی بیش از دقت استفاده کنید.
-
دقت، فراخوانی، F1
-
تنظیم آستانه (آستانه پیشفرض شما به ندرت برای هزینههایتان «صحیح» است) [4]
-
ماتریسهای سردرگمی به ازای هر بخش (منطقه، نوع دستگاه، گروه کاربر)
رگرسیون (پیشبینی، قیمتگذاری، امتیازدهی)
-
MAE / RMSE (بر اساس اینکه میخواهید خطاها را چگونه جریمه کنید، انتخاب کنید)
-
بررسیهای کالیبراسیون مانند، زمانی که خروجیها به عنوان «نمره» استفاده میشوند (آیا نمرات با واقعیت مطابقت دارند؟)
سیستمهای رتبهبندی/توصیهگر
-
NDCG، MAP، MRR
-
برش بر اساس نوع پرس و جو (سر در مقابل سر)
بینایی کامپیوتر
-
نقشه AP، واحد پول ایرلند
-
عملکرد در هر کلاس (کلاسهای نادری هستند که مدلها شما را خجالتزده میکنند)
مدلهای مولد (LLM)
اینجاست که مردم فلسفی میشن 😵💫
گزینههای عملی که در تیمهای واقعی کار میکنند:
-
ارزیابی انسانی (بهترین سیگنال، کندترین حلقه)
-
ترجیح دو به دو / نرخ برد (A در مقابل B آسانتر از امتیازدهی مطلق است)
-
معیارهای متنی خودکار (برای برخی وظایف مفید، برای برخی دیگر گمراهکننده)
-
بررسیهای مبتنی بر وظیفه: «آیا فیلدهای صحیح را استخراج کرد؟» «آیا از خطمشی پیروی کرد؟» «آیا در صورت لزوم به منابع استناد کرد؟»
اگر به دنبال یک نقطه مرجع ساختاریافته «چند معیاری، سناریوهای متعدد» هستید، HELM یک مرجع خوب است: این ابزار به صراحت ارزیابی را فراتر از دقت، به سمت مواردی مانند کالیبراسیون، استحکام، بایاس/سمیت و بدهبستانهای کارایی سوق میدهد [5].
کمی حاشیه: معیارهای خودکار برای کیفیت نوشتن گاهی اوقات مانند قضاوت در مورد یک ساندویچ با وزن کردن آن است. چیز کمی نیست، اما... بیخیال 🥪
۶) تست استحکام: کمی آن را به چالش بکشید 🥵🧪
اگر مدل شما فقط با ورودیهای مرتب کار میکند، اساساً یک گلدان شیشهای است. زیبا، شکننده، گران.
آزمون:
-
نویز: غلط املایی، مقادیر از دست رفته، یونیکد غیر استاندارد، اشکالات قالببندی
-
تغییر توزیع: دسته بندی محصولات جدید، اصطلاحات عامیانه جدید، حسگرهای جدید
-
مقادیر بسیار زیاد: اعداد خارج از محدوده، دادههای حجیم، رشتههای خالی
-
ورودیهای «خصومتآمیز» که شبیه مجموعه آموزشی شما نیستند اما شبیه کاربران هستند
برای LLM ها، موارد زیر را شامل شود:
-
تلاشهای تزریق سریع (دستورالعملهای پنهان در محتوای کاربر)
-
الگوهای «دستورالعملهای قبلی را نادیده بگیرید»
-
موارد حاشیهای استفاده از ابزار (URLهای نامناسب، وقفههای زمانی، خروجیهای جزئی)
استحکام یکی از آن ویژگیهای قابل اعتماد بودن است که تا زمانی که حادثهای رخ ندهد، انتزاعی به نظر میرسد. سپس... بسیار ملموس میشود [1].
۷) تعصب، انصاف، و اینکه برای چه کسی مفید است ⚖️
یک مدل میتواند در کل «دقیق» باشد، در حالی که برای گروههای خاصی به طور مداوم بدتر باشد. این یک اشکال کوچک نیست. این یک مشکل مربوط به محصول و اعتماد است.
مراحل عملی:
-
ارزیابی عملکرد بر اساس بخشهای معنادار (از نظر قانونی/اخلاقی برای اندازهگیری مناسب هستند)
-
مقایسه نرخ خطا و کالیبراسیون در بین گروهها
-
ویژگیهای پروکسی (کد پستی، نوع دستگاه، زبان) که میتوانند ویژگیهای حساس را رمزگذاری کنند، آزمایش کنید
اگر این را جایی مستند نکنید، اساساً از شما-آینده- میخواهید که یک بحران اعتماد را بدون نقشه اشکالزدایی کنید. کارتهای مدل جای مناسبی برای قرار دادن آن هستند [2]، و چارچوب اعتماد NIST یک چک لیست قوی از آنچه که «خوب» باید شامل شود، به شما میدهد [1].
۸) آزمایش ایمنی و امنیت (مخصوصاً برای LLMها) 🛡️
اگر مدل شما بتواند محتوا تولید کند، شما چیزی بیش از دقت را آزمایش میکنید. شما در حال آزمایش رفتار هستید.
شامل آزمایشهایی برای:
-
تولید محتوای غیرمجاز (نقض خطمشی)
-
نشت اطلاعات خصوصی (آیا این نشاندهندهی اسرار است؟)
-
توهم در حوزههای پرخطر
-
امتناع بیش از حد (مدل درخواستهای عادی را رد میکند)
-
خروجیهای سمی و آزار و اذیت
-
تلاش برای استخراج داده ها از طریق تزریق سریع
یک رویکرد مبتنی بر این است: تعریف قوانین سیاست → ساخت درخواستهای تست → امتیازدهی به خروجیها با بررسیهای انسانی + خودکار → اجرای آن هر بار که چیزی تغییر میکند. آن بخش «هر بار» اجاره است.
این کاملاً با طرز فکر ریسک چرخه عمر مطابقت دارد: مدیریت، ترسیم زمینه، اندازهگیری، مدیریت، تکرار [1].
۹) تست آنلاین: عرضههای مرحلهای (جایی که حقیقت آشکار میشود) 🚀
آزمایشهای آفلاین ضروری هستند. مواجهه آنلاین جایی است که واقعیت با پوشیدن کفشهای گِلی خود را نشان میدهد.
لازم نیست خیلی شیک و مجلسی باشید. فقط باید منظم باشید:
-
اجرا در حالت سایه (مدل اجرا میشود، کاربران را تحت تأثیر قرار نمیدهد)
-
گسترش تدریجی (ابتدا ترافیک کم، در صورت مناسب بودن گسترش)
-
پیگیری نتایج و رویدادها (شکایات، تشدید مشکلات، شکستهای سیاستی)
حتی اگر نتوانید برچسبهای فوری دریافت کنید، میتوانید سیگنالهای پروکسی و سلامت عملیاتی (تأخیر، نرخ خرابی، هزینه) را رصد کنید. نکته اصلی: شما به یک روش کنترلشده برای کشف خرابیها قبل از اینکه کل پایگاه کاربری شما متوجه شود، نیاز دارید [1].
۱۰) نظارت پس از استقرار: رانش، زوال و خرابی آرام 📉👀
مدلی که شما آزمایش کردید، مدلی نیست که در نهایت با آن زندگی خواهید کرد. دادهها تغییر میکنند. کاربران تغییر میکنند. دنیا تغییر میکند. خط لوله ساعت ۲ بامداد از کار میافتد. میدانید که اوضاع چطور است..
مانیتور:
-
رانش دادههای ورودی (تغییرات طرحواره، گمشدگی، تغییرات توزیع)
-
رانش خروجی (تغییرات تعادل کلاس، تغییر نمرات)
-
شاخصهای عملکرد (زیرا تأخیر در برچسبگذاری واقعی است)
-
سیگنالهای بازخورد (رأی منفی، ویرایش مجدد، افزایش امتیاز)
-
رگرسیونهای سطح بخش (قاتلان خاموش)
و آستانههای هشدار را طوری تنظیم کنید که خیلی تکاندهنده نباشند. مانیتوری که مدام جیغ میزند نادیده گرفته میشود - مانند دزدگیر ماشین در یک شهر.
اگر به قابل اعتماد بودن اهمیت میدهید، این حلقهی «نظارت + بهبود در طول زمان» اختیاری نیست [1].
۱۱) یک گردش کار عملی که میتوانید کپی کنید 🧩
در اینجا یک حلقه ساده که مقیاسپذیر است را مشاهده میکنید:
-
تعریف حالتهای موفقیت + شکست (شامل هزینه/تأخیر/ایمنی) [1]
-
ایجاد مجموعه دادهها:
-
مجموعه طلایی
-
بسته بندی لبه دار
-
نمونههای واقعی اخیر (حفاظت از حریم خصوصی)
-
-
معیارها را انتخاب کنید:
-
معیارهای وظیفه (F1، MAE، نرخ برد) [4][5]
-
معیارهای ایمنی (میزان قبولی در سیاست) [1][5]
-
معیارهای عملیاتی (تأخیر، هزینه)
-
-
ساخت یک مهار ارزیابی (روی هر مدل/تغییر سریع اجرا میشود) [4][5]
-
تستهای استرس + تستهای تهاجمی [1][5] را اضافه کنید
-
بررسی انسانی برای یک نمونه (به ویژه برای خروجیهای LLM) [5]
-
ارسال از طریق سایه + انتشار مرحلهای [1]
-
نظارت + هشدار + آموزش مجدد با انضباط [1]
-
نتایج سند به صورت نوشتن به سبک کارت مدل [2][3]
آموزش جذاب است. آزمون، اجاره بها را تامین میکند.
۱۲) نکات پایانی + جمعبندی سریع 🧠✨
اگر فقط چند نکته در مورد نحوه آزمایش مدلهای هوش مصنوعی را :
-
از دادههای آزمایشی نماینده استفاده کنید و از نشت اطلاعات جلوگیری کنید [4]
-
چندین معیار را انتخاب کنید [4][5]
-
برای LLM ها، به بررسی انسانی + مقایسههای سبک نرخ برد [5]
-
پایداری آزمون - ورودیهای غیرمعمول، ورودیهای عادی در لباس مبدل هستند [1]
-
با خیال راحت بیرون بیاورید و نظارت کنید، زیرا مدلها دچار رانش میشوند و خطوط لوله میشکنند [1]
-
آنچه را که انجام دادهاید و آنچه را که آزمایش نکردهاید، مستند کنید (ناراحتکننده اما قدرتمند) [2][3]
آزمایش فقط «اثبات کارکرد» نیست. بلکه «پیدا کردن چگونگی شکست آن قبل از کاربرانتان است.» و بله، این جذابیت کمتری دارد - اما بخشی است که سیستم شما را در مواقعی که اوضاع متزلزل میشود، سرپا نگه میدارد... 🧱🙂
سوالات متداول
بهترین روش برای آزمایش مدلهای هوش مصنوعی به گونهای که با نیازهای واقعی کاربر مطابقت داشته باشد
با تعریف «خوب» از نظر کاربر واقعی و تصمیمی که مدل از آن پشتیبانی میکند، شروع کنید، نه فقط یک معیار رتبهبندی. حالتهای شکست با بالاترین هزینه (مثبت کاذب در مقابل منفی کاذب) را شناسایی کنید و محدودیتهای سختی مانند تأخیر، هزینه، حریم خصوصی و قابلیت توضیح را بیان کنید. سپس معیارها و موارد آزمایشی را انتخاب کنید که منعکس کننده آن نتایج باشند. این کار شما را از بهینهسازی یک «معیار زیبا» که هرگز به محصول بهتری تبدیل نمیشود، باز میدارد.
تعریف معیارهای موفقیت قبل از انتخاب معیارهای ارزیابی
بنویسید که کاربر کیست، مدل قرار است از چه تصمیمی پشتیبانی کند، و «بدترین حالت شکست» در مرحله تولید چگونه است. محدودیتهای عملیاتی مانند تأخیر قابل قبول و هزینه به ازای هر درخواست، به علاوه نیازهای مدیریتی مانند قوانین حفظ حریم خصوصی و سیاستهای ایمنی را اضافه کنید. وقتی این موارد مشخص شدند، معیارها به راهی برای اندازهگیری درست تبدیل میشوند. بدون این چارچوببندی، تیمها تمایل دارند به سمت بهینهسازی هر چیزی که اندازهگیری آن آسانتر است، حرکت کنند.
جلوگیری از نشت دادهها و تقلب تصادفی در ارزیابی مدل
تقسیمبندیهای آموزش/اعتبارسنجی/آزمون را پایدار نگه دارید و منطق تقسیمبندی را مستند کنید تا نتایج قابل تکرار باقی بمانند. موارد تکراری و تقریباً تکراری را در بین تقسیمبندیها (همان کاربر، سند، محصول یا الگوهای تکراری) به طور فعال مسدود کنید. مراقب نشت ویژگی باشید که در آن اطلاعات "آینده" از طریق مهرهای زمانی یا فیلدهای پس از رویداد به ورودیها وارد میشوند. یک خط پایه قوی (حتی تخمینگرهای ساختگی) به شما کمک میکند تا متوجه شوید چه زمانی نویز را تحسین میکنید.
یک ابزار ارزیابی باید شامل چه مواردی باشد تا تستها در طول تغییرات قابل تکرار باقی بمانند؟
یک مهار عملی، آزمایشهای قابل مقایسه را روی هر مدل، اعلان یا تغییر سیاست با استفاده از مجموعه دادهها و قوانین امتیازدهی یکسان، دوباره اجرا میکند. این مهار معمولاً شامل یک مجموعه رگرسیون، داشبوردهای معیارهای واضح و پیکربندیها و مصنوعات ذخیره شده برای قابلیت ردیابی است. برای سیستمهای LLM، به یک «مجموعه طلایی» پایدار از اعلانها به علاوه یک بسته موارد حاشیهای نیز نیاز دارد. هدف «فشار دادن دکمه → نتایج قابل مقایسه» است، نه «اجرای مجدد دفترچه یادداشت و دعا»
معیارهایی برای آزمایش مدلهای هوش مصنوعی فراتر از دقت
از چندین معیار استفاده کنید، زیرا یک عدد واحد میتواند بدهبستانهای مهم را پنهان کند. برای طبقهبندی، دقت/فراخوانی/F1 را با ماتریسهای تنظیم آستانه و سردرگمی بر اساس بخش جفت کنید. برای رگرسیون، MAE یا RMSE را بر اساس نحوه جریمه خطاها انتخاب کنید و وقتی خروجیها مانند نمرات عمل میکنند، بررسیهای سبک کالیبراسیون را اضافه کنید. برای رتبهبندی، از NDCG/MAP/MRR و پرسوجوهای برش بر اساس سر در مقابل دم برای تشخیص عملکرد ناهموار استفاده کنید.
ارزیابی خروجیهای LLM زمانی که معیارهای خودکار ناکافی هستند
با آن به عنوان یک سیستم سریع و سیاستگذاری رفتار کنید و به رفتار امتیاز دهید، نه فقط شباهت متن. بسیاری از تیمها ارزیابی انسانی را با ترجیحات جفتی (نرخ برد A/B) به علاوه بررسیهای مبتنی بر وظیفه مانند «آیا فیلدهای درست را استخراج کرده است» یا «آیا از سیاست پیروی کرده است» ترکیب میکنند. معیارهای متنی خودکار میتوانند در موارد محدود کمک کنند، اما اغلب آنچه کاربران به آن اهمیت میدهند را از دست میدهند. سرفصلهای واضح و یک مجموعه رگرسیون معمولاً بیش از یک امتیاز واحد اهمیت دارند.
تستهای پایداری برای اجرا تا مدل در ورودیهای نویزدار از کار نیفتد
مدل را با غلطهای املایی، مقادیر از دست رفته، قالببندی عجیب و یونیکد غیراستاندارد، تحت فشار قرار دهید، زیرا کاربران واقعی به ندرت مرتب هستند. موارد تغییر توزیع مانند دستههای جدید، اصطلاحات عامیانه، حسگرها یا الگوهای زبانی را اضافه کنید. مقادیر شدید (رشتههای خالی، بارهای عظیم، اعداد خارج از محدوده) را برای بررسی رفتار شکننده لحاظ کنید. برای LLMها، الگوهای تزریق سریع و خطاهای استفاده از ابزار مانند وقفههای زمانی یا خروجیهای جزئی را نیز آزمایش کنید.
بررسی مسائل مربوط به سوگیری و انصاف بدون غرق شدن در تئوری
عملکرد را در برشهای معنادار ارزیابی کنید و نرخ خطا و کالیبراسیون را در گروههایی که از نظر قانونی و اخلاقی برای اندازهگیری مناسب هستند، مقایسه کنید. به دنبال ویژگیهای پروکسی (مانند کد پستی، نوع دستگاه یا زبان) باشید که میتوانند ویژگیهای حساس را به طور غیرمستقیم رمزگذاری کنند. یک مدل میتواند در حالی که برای گروههای خاص به طور مداوم با شکست مواجه میشود، "به طور کلی دقیق" به نظر برسد. آنچه را که اندازهگیری کردهاید و آنچه را که اندازهگیری نکردهاید، مستند کنید تا تغییرات آینده بیسروصدا رگرسیونها را دوباره ایجاد نکنند.
آزمایشهای ایمنی و امنیتی برای سیستمهای هوش مصنوعی مولد و سیستمهای مدیریت یادگیری خطی (LLM)
تولید محتوای غیرمجاز، نشت حریم خصوصی، توهم در دامنههای پرخطر و امتناع بیش از حد را در جایی که مدل درخواستهای عادی را مسدود میکند، آزمایش کنید. تلاشهای تزریق سریع و خروج دادهها را نیز در نظر بگیرید، به خصوص زمانی که سیستم از ابزارها استفاده میکند یا محتوا را بازیابی میکند. یک گردش کار مبتنی بر این موارد است: تعریف قوانین سیاست، ساخت یک مجموعه تست سریع، امتیازدهی با بررسیهای انسانی به همراه خودکار، و اجرای مجدد آن هر زمان که درخواستها، دادهها یا سیاستها تغییر کنند. ثبات، اجارهای است که شما میپردازید.
راهاندازی و نظارت بر مدلهای هوش مصنوعی پس از پرتاب برای شناسایی رانش و حوادث
از الگوهای انتشار مرحلهای مانند حالت سایه و رمپهای ترافیک تدریجی برای یافتن خرابیها قبل از اینکه کل پایگاه کاربری شما دچار مشکل شود، استفاده کنید. رانش ورودی (تغییرات طرحواره، گمشدگی، تغییرات توزیع) و رانش خروجی (تغییرات امتیاز، تغییرات تعادل کلاس) و همچنین سلامت عملیاتی مانند تأخیر و هزینه را رصد کنید. سیگنالهای بازخورد مانند ویرایشها، تشدیدها و شکایات را ردیابی کنید و رگرسیونهای سطح بخش را تماشا کنید. وقتی چیزی تغییر کرد، همان مهار را دوباره اجرا کنید و نظارت را به طور مداوم ادامه دهید.
منابع
[1] NIST - چارچوب مدیریت ریسک هوش مصنوعی (AI RMF 1.0) (PDF)
[2] Mitchell و همکاران - "کارتهای مدل برای گزارش مدل" (arXiv:1810.03993)
[3] Gebru و همکاران - "برگههای داده برای مجموعه دادهها" (arXiv:1803.09010)
[4] scikit-learn - مستندات "انتخاب و ارزیابی مدل"
[5] Liang و همکاران - "ارزیابی جامع مدلهای زبانی" (arXiv:2211.09110)