پاسخ کوتاه: هوش مصنوعی میتواند در وظایف محدود و کاملاً تعریفشده با حقایق زمینهای واضح، بسیار دقیق باشد، اما «دقت» یک امتیاز واحد نیست که بتوانید به طور جهانی به آن اعتماد کنید. این امتیاز تنها زمانی معتبر است که وظیفه، دادهها و معیار با محیط عملیاتی همسو باشند. وقتی ورودیها تغییر میکنند یا وظایف بیانتها میشوند، خطاها و توهمات ناشی از اعتماد به نفس افزایش مییابد.
نکات کلیدی:
تناسب وظیفه : شغل را دقیقاً تعریف کنید تا «درست» و «غلط» آن قابل آزمایش باشد.
انتخاب معیار : معیارهای ارزیابی را با پیامدهای واقعی تطبیق دهید، نه با سنت یا راحتی.
آزمایش واقعیت : از دادههای نماینده و نویزدار و آزمایشهای استرس خارج از توزیع استفاده کنید.
کالیبراسیون : اندازهگیری اینکه آیا اطمینان با صحت، به ویژه برای آستانهها، همسو است یا خیر.
نظارت بر چرخه عمر : با توجه به تغییر کاربران، دادهها و محیطها در طول زمان، به طور مداوم آنها را ارزیابی مجدد کنید.
مقالاتی که شاید بعد از این مطلب دوست داشته باشید بخوانید:
🔗 چگونه هوش مصنوعی را گام به گام یاد بگیریم
یک نقشه راه مناسب برای مبتدیان برای شروع یادگیری هوش مصنوعی با اطمینان.
🔗 چگونه هوش مصنوعی ناهنجاریها را در دادهها تشخیص میدهد
روشهایی را توضیح میدهد که هوش مصنوعی برای تشخیص خودکار الگوهای غیرمعمول استفاده میکند.
🔗 چرا هوش مصنوعی میتواند برای جامعه مضر باشد؟
خطراتی مانند تعصب، تأثیر بر مشاغل و نگرانیهای مربوط به حریم خصوصی را پوشش میدهد.
🔗 مجموعه داده هوش مصنوعی چیست و چرا اهمیت دارد؟
مجموعه دادهها و نحوه آموزش و ارزیابی مدلهای هوش مصنوعی توسط آنها را تعریف میکند.
۱) خب… هوش مصنوعی چقدر دقیق است؟ 🧠✅
بسیار باشد - بهخصوص زمانی که «پاسخ درست» بدون ابهام و بهراحتی قابل نمرهدهی باشد.
اما در وظایف با پایان باز (بهویژه هوش مصنوعی مولد مانند چتباتها)، «دقت» به سرعت دچار نوسان میشود، زیرا:
-
چندین پاسخ قابل قبول وجود داشته باشد
-
خروجی ممکن است روان باشد اما مبتنی بر واقعیت نباشد
-
این مدل ممکن است برای حس «مفید بودن» تنظیم شده باشد، نه برای صحت محض
-
جهان تغییر میکند و سیستمها میتوانند از واقعیت عقب بمانند
یک مدل ذهنی مفید: دقت ویژگیای نیست که شما «دارید». این ویژگیای است که شما برای یک کار خاص، در یک محیط خاص، با یک چیدمان اندازهگیری خاص «کسب میکنید» . به همین دلیل است که راهنماییهای جدی، ارزیابی را به عنوان یک فعالیت چرخه عمر - نه یک لحظه تابلوی امتیازات یکباره - در نظر میگیرند. [1]

۲) دقت یک چیز نیست - بلکه یک خانوادهی کامل از عناصر رنگارنگ است 👨👩👧👦📏
وقتی مردم میگویند «دقت»، ممکن است منظورشان هر یک از این موارد باشد (و اغلب دو مورد از آنها را همزمان ):
-
صحت : آیا برچسب/پاسخ درست را تولید کرد؟
-
دقت در مقابل فراخوانی : آیا از هشدارهای کاذب جلوگیری کرد، یا همه چیز را ثبت کرد؟
-
کالیبراسیون : وقتی میگوید «من 90٪ مطمئن هستم»، آیا واقعاً تقریباً 90٪ مواقع درست است؟ [3]
-
استحکام : آیا وقتی ورودیها کمی تغییر میکنند (مثلاً نویز، عبارتبندی جدید، منابع جدید، جمعیتشناسی جدید) باز هم کار میکند؟
-
قابلیت اطمینان : آیا تحت شرایط مورد انتظار، رفتار ثابتی دارد؟
-
حقیقت/واقعیت (هوش مصنوعی مولد): آیا با لحنی مطمئن چیزهایی را سرهم میکند (توهم میآفریند)؟ [2]
به همین دلیل است که چارچوبهای متمرکز بر اعتماد، «دقت» را به عنوان یک معیار قهرمان واحد در نظر نمیگیرند. آنها در مورد اعتبار، قابلیت اطمینان، ایمنی، شفافیت، استحکام، انصاف و موارد دیگر به عنوان یک بسته صحبت میکنند - زیرا میتوانید یکی را «بهینه» کنید و به طور تصادفی دیگری را خراب کنید. [1]
3) چه چیزی یک نسخه خوب از سنجش «هوش مصنوعی چقدر دقیق است؟» را میسازد؟ 🧪🔍
این چک لیست «نسخه خوب» است (نسخهای که مردم از آن صرف نظر میکنند... و بعداً پشیمان میشوند):
✅ تعریف واضح وظیفه (یا: قابل آزمایش کردن آن)
-
«خلاصه کردن» مبهم است.
-
«خلاصه کردن در ۵ بخش، گنجاندن ۳ عدد مشخص از منبع و عدم جعل منبع» قابل آزمایش است.
✅ دادههای آزمون نماینده (معروف به: توقف نمرهدهی در حالت آسان)
اگر مجموعه تست شما خیلی تمیز باشد، دقت به صورت کاذب خوب به نظر میرسد. کاربران واقعی غلط املایی، حروف اضافه عجیب و غریب و انرژی «من این را ساعت ۲ بامداد با گوشیام نوشتم» را با خود به همراه میآورند.
✅ معیاری که با ریسک مطابقت دارد
طبقهبندی اشتباه یک میم با طبقهبندی اشتباه یک هشدار پزشکی متفاوت است. شما معیارها را بر اساس سنت انتخاب نمیکنید - آنها را بر اساس عواقب انتخاب میکنید. [1]
✅ آزمایش خارج از توزیع (معروف به: «وقتی واقعیت ظاهر میشود چه اتفاقی میافتد؟»)
عبارات عجیب، ورودیهای مبهم، پیشنهادهای خصمانه، دستهبندیهای جدید، دورههای زمانی جدید را امتحان کنید. این مهم است زیرا تغییر توزیع ، روشی کلاسیک برای مدلسازی چهره در تولید است. [4]
✅ ارزیابی مداوم (به عبارت دیگر: دقت، ویژگی «تنظیم کن و فراموشش کن» نیست)
سیستمها دچار تغییر میشوند. کاربران تغییر میکنند. دادهها تغییر میکنند. مدل «عالی» شما بیسروصدا رو به زوال میرود - مگر اینکه آن را بهطور مداوم اندازهگیری کنید. [1]
الگوی کوچکی در دنیای واقعی که خواهید شناخت: تیمها اغلب با «دقت نمایشی» قوی ارائه میدهند، سپس متوجه میشوند که دلیل اصلی شکست آنها نیست ... بلکه «پاسخهای اشتباه ارائه شده با اطمینان و در مقیاس بزرگ» است. این یک مشکل طراحی ارزیابی است، نه فقط یک مشکل مدل.
۴) هوش مصنوعی معمولاً در چه مواردی بسیار دقیق است (و چرا) 📈🛠️
هوش مصنوعی وقتی مشکل این است که:
-
باریک
-
خوش برچسب
-
پایدار در طول زمان
-
مشابه توزیع آموزشی
-
به راحتی به صورت خودکار امتیازدهی میشود
مثالها:
-
فیلتر کردن هرزنامه
-
استخراج اسناد در طرحبندیهای سازگار
-
حلقههای رتبهبندی/توصیه با سیگنالهای بازخورد فراوان
-
بسیاری از وظایف طبقهبندی بینایی در محیطهای کنترلشده
ابرقدرت کسلکنندهی پشت بسیاری از این موفقیتها: حقیقت محض + مثالهای مرتبط فراوان . نه پر زرق و برق - فوقالعاده مؤثر.
۵) جایی که دقت هوش مصنوعی اغلب پایین میآید 😬🧯
این بخشی است که مردم با تمام وجودشان حس میکنند.
توهم در هوش مصنوعی مولد 🗣️🌪️
LLMها میتوانند محتمل اما غیرواقعی - و بخش «محتمل» دقیقاً دلیل خطرناک بودن آن است. به همین دلیل است که راهنمایی ریسک هوش مصنوعی مولد، به جای نسخههای نمایشی مبتنی بر حس و حال، اهمیت زیادی به پایهریزی، مستندسازی و اندازهگیری . [2]
شیفت توزیع 🧳➡️🏠
مدلی که در یک محیط آموزش دیده است، میتواند در محیط دیگری دچار مشکل شود: زبان کاربری متفاوت، کاتالوگ محصولات متفاوت، هنجارهای منطقهای متفاوت، دوره زمانی متفاوت. معیارهایی مانند WILDS اساساً برای این وجود دارند که فریاد بزنند: «عملکرد درون توزیع میتواند به طور چشمگیری عملکرد دنیای واقعی را بیش از حد واقعی نشان دهد.» [4]
مشوقهایی که به حدسهای مطمئن پاداش میدهند 🏆🤥
برخی از سیستمها به طور تصادفی به جای «فقط وقتی که میدانی جواب بده» به رفتار «همیشه جواب بده» پاداش میدهند. بنابراین سیستمها یاد میگیرند که به جای بودن به نظر برسند . به همین دلیل است که ارزیابی باید شامل رفتار خودداری/عدم قطعیت باشد - نه فقط نرخ پاسخ خام. [2]
حوادث دنیای واقعی و شکستهای عملیاتی 🚨
حتی یک مدل قوی هم میتواند به عنوان یک سیستم شکست بخورد: بازیابی بد، دادههای قدیمی، گاردریلهای شکسته، یا گردش کاری که بیسروصدا مدل را در اطراف بررسیهای ایمنی هدایت میکند. راهنماییهای مدرن، دقت را به عنوان بخشی از قابلیت اعتماد سیستم ، و نه فقط یک امتیاز مدل، در نظر میگیرند. [1]
۶) ابرقدرت دست کم گرفته شده: کالیبراسیون (معروف به «دانستن آنچه نمیدانید») 🎚️🧠
حتی وقتی دو مدل «دقت» یکسانی دارند، یکی از آنها میتواند بسیار ایمنتر باشد زیرا:
-
عدم قطعیت را به طور مناسب بیان میکند
-
از پاسخهای اشتباه و بیش از حد مطمئن اجتناب میکند
-
احتمالاتی را ارائه میدهد که با واقعیت مطابقت دارند
کالیبراسیون فقط یک موضوع آکادمیک نیست - بلکه چیزی است که اعتماد را قابل اجرا . یک یافته کلاسیک در شبکههای عصبی مدرن این است که امتیاز اعتماد میتواند با صحت واقعی همسو نباشد
اگر خط تولید شما از آستانههایی مانند «تأیید خودکار بالای ۰.۹» استفاده میکند، کالیبراسیون تفاوت بین «اتوماسیون» و «آشوب خودکار» است
۷) نحوه ارزیابی دقت هوش مصنوعی برای انواع مختلف هوش مصنوعی 🧩📚
برای مدلهای پیشبینی کلاسیک (طبقهبندی/رگرسیون) 📊
معیارهای رایج:
-
دقت، صحت، فراخوانی، F1
-
ROC-AUC / PR-AUC (اغلب برای مشکلات عدم تعادل بهتر است)
-
بررسیهای کالیبراسیون (منحنیهای قابلیت اطمینان، تفکر در مورد سبک خطای کالیبراسیون مورد انتظار) [3]
برای مدلهای زبانی و دستیاران 💬
ارزیابی چند بعدی میشود:
-
صحت (جایی که وظیفه شرط درستی دارد)
-
پیروی از دستورالعمل
-
رفتار ایمنی و امتناع (امتناعهای خوب به طرز عجیبی سخت هستند)
-
زمینهسازی واقعی / نظم استنادی (زمانی که مورد استفاده شما به آن نیاز دارد)
-
پایداری در برابر درخواستها و سبکهای کاربری
یکی از دستاوردهای بزرگ تفکر ارزیابی «کلنگر»، بیان صریح این نکته است: شما به معیارهای چندگانه در سناریوهای متعدد نیاز دارید، زیرا بدهبستانها واقعی هستند. [5]
برای سیستمهای ساخته شده بر اساس LLM (گردشهای کاری، عاملها، بازیابی) 🧰
حالا شما در حال ارزیابی کل خط لوله هستید:
-
کیفیت بازیابی (آیا اطلاعات صحیح را بازیابی کرد؟)
-
منطق ابزار (آیا از روند پیروی کرد؟)
-
کیفیت خروجی (آیا صحیح و مفید است؟)
-
نردههای محافظ (آیا از رفتارهای پرخطر جلوگیری کرد؟)
-
نظارت (آیا در طبیعت متوجه خرابیها شدید؟) [1]
یک پیوند ضعیف در هر جایی میتواند کل سیستم را «نادرست» جلوه دهد، حتی اگر مدل پایه مناسب باشد.
۸) جدول مقایسه: روشهای عملی برای ارزیابی «هوش مصنوعی چقدر دقیق است؟» 🧾⚖️
| ابزار / رویکرد | بهترین برای | هزینه و جو | چرا کار میکند؟ |
|---|---|---|---|
| مجموعههای تست مورد استفاده | برنامههای LLM + معیارهای موفقیت سفارشی | رایگان | شما خود را ، نه یک جدول امتیازات تصادفی. |
| پوشش سناریوهای چند معیاره | مقایسه مسئولانه مدلها | رایگان | شما یک «پروفایل» از قابلیتها دریافت میکنید، نه یک عدد جادویی واحد. [5] |
| ریسک چرخه عمر + طرز فکر ارزیابی | سیستمهای پرمخاطره که نیاز به دقت دارند | رایگان | شما را به سمت تعریف، اندازهگیری، مدیریت و نظارت مداوم سوق میدهد. [1] |
| بررسیهای کالیبراسیون | هر سیستمی که از آستانههای اطمینان استفاده میکند | رایگان | بررسی میکند که آیا «90% مطمئن» معنایی دارد یا خیر. [3] |
| پنلهای بررسی انسانی | ایمنی، لحن، ظرافت، «آیا این حس بدی دارد؟» | $$ | انسانها زمینه و آسیبی را دریافت میکنند که معیارهای خودکار از آن غافل میشوند. |
| نظارت بر حادثه + حلقههای بازخورد | درس گرفتن از شکستهای دنیای واقعی | رایگان | واقعیت، نتایجی دارد - و دادههای تولید، سریعتر از نظرات به شما درس میدهند. [1] |
اعتراف عجیب قالببندی: «رایگان» بودن اینجا خیلی کار میبره چون هزینه واقعی اغلب ساعات کاری افراده، نه مجوزها 😅
۹) چگونه هوش مصنوعی را دقیقتر کنیم (اهرمهای کاربردی) 🔧✨
دادههای بهتر و آزمایشهای بهتر 📦🧪
-
موارد حاشیهای را گسترش دهید
-
سناریوهای نادر اما حیاتی را متعادل کنید
-
یک «مجموعه طلایی» داشته باشید که نشاندهندهی درد واقعی کاربر باشد (و مرتباً آن را بهروزرسانی کنید)
زمینهسازی برای انجام وظایف مبتنی بر واقعیت 📚🔍
اگر به قابلیت اطمینان واقعی نیاز دارید، از سیستمهایی استفاده کنید که از اسناد معتبر استخراج میشوند و بر اساس آنها پاسخ میدهند. بسیاری از راهنماییهای ریسک هوش مصنوعی مولد بر روی مستندات، منشأ و تنظیمات ارزیابی تمرکز دارند که محتوای ساختگی را کاهش میدهند، نه اینکه فقط امیدوار باشند مدل «درست عمل کند». [2]
حلقههای ارزیابی قویتر 🔁
-
اجرای ارزیابیها روی هر تغییر معنادار
-
مراقب رگرسیونها باشید
-
تست استرس برای درخواستهای عجیب و غریب و ورودیهای مخرب
رفتار سنجیده را تشویق کنید 🙏
-
«نمیدانم» را خیلی سخت تنبیه نکنید
-
کیفیت رأی ممتنع را ارزیابی کنید، نه فقط میزان پاسخها را
-
اعتماد به نفس را به عنوان چیزی که میسنجید و اعتبار میدهید، ، نه چیزی که بر اساس احساسات و عواطف خود میپذیرید [3]
۱۰) یک بررسی سریع: چه زمانی باید به دقت هوش مصنوعی اعتماد کرد؟ 🧭🤔
وقتی بیشتر به آن اعتماد کنید:
-
وظیفه محدود و قابل تکرار است
-
خروجیها میتوانند به طور خودکار تأیید شوند
-
سیستم تحت نظارت و بهروزرسانی است
-
اعتماد به نفس کالیبره شده است و میتواند از آن خودداری کند [3]
کمتر به آن اعتماد کنید وقتی:
-
مخاطرات بالا و عواقب واقعی هستند
-
سوال به صورت باز پرسیده میشود ("همه چیز را در مورد ... به من بگو") 😵💫
-
هیچ پایه گذاری، هیچ مرحله تأیید، هیچ بررسی انسانی وجود ندارد
-
سیستم به طور پیشفرض با اطمینان عمل میکند [2]
یک استعاره کمی ناقص: تکیه بر هوش مصنوعی تأیید نشده برای تصمیمات حساس مانند خوردن سوشی است که زیر آفتاب مانده است... شاید خوب باشد، اما معده شما قماری میکند که شما در آن ثبت نام نکردهاید.
۱۱) نکات پایانی و خلاصه سریع 🧃✅
بنابراین، هوش مصنوعی چقدر دقیق است؟
هوش مصنوعی میتواند فوقالعاده دقیق باشد - اما فقط نسبت به یک وظیفه تعریفشده، یک روش اندازهگیری و محیطی که در آن مستقر میشود . و برای هوش مصنوعی مولد، «دقت» اغلب کمتر در مورد یک امتیاز واحد و بیشتر در مورد طراحی یک سیستم قابل اعتماد : اتصال به زمین، کالیبراسیون، پوشش، نظارت و ارزیابی صادقانه. [1][2][5]
خلاصه سریع 🎯
-
«دقت» یک امتیاز نیست - بلکه شامل درستی، کالیبراسیون، استحکام، قابلیت اطمینان و (برای هوش مصنوعی مولد) صداقت است. [1][2][3]
-
بنچمارکها مفید هستند، اما ارزیابی موارد استفاده شما را صادق نگه میدارد. [5]
-
اگر به اعتبار واقعی نیاز دارید، مراحل پایه + تأیید + ارزیابی امتناع را اضافه کنید. [2]
-
ارزیابی چرخه عمر، رویکردی بالغانه است... حتی اگر به اندازه اسکرینشات از جدول امتیازات هیجانانگیز نباشد. [1]
سوالات متداول
دقت هوش مصنوعی در استقرار عملی
هوش مصنوعی میتواند زمانی که وظیفه محدود، به خوبی تعریف شده و مرتبط با حقیقت واضحی باشد که میتوانید به آن امتیاز دهید، بسیار دقیق باشد. در استفاده از آن در محیط عملیاتی، «دقت» به این بستگی دارد که آیا دادههای ارزیابی شما منعکس کننده ورودیهای کاربر پر سر و صدا و شرایطی است که سیستم شما در میدان با آن روبرو خواهد شد یا خیر. با بازتر شدن وظایف (مانند چتباتها)، اشتباهات و توهمات ناشی از اعتماد به نفس بیشتر ظاهر میشوند، مگر اینکه زمینهسازی، تأیید و نظارت را اضافه کنید.
چرا «دقت» یک امتیاز نیست که بتوانید به آن اعتماد کنید؟
مردم از «دقت» برای معانی مختلفی استفاده میکنند: صحت، دقت در مقابل فراخوانی، کالیبراسیون، استحکام و قابلیت اطمینان. یک مدل میتواند در یک مجموعه تست تمیز عالی به نظر برسد، اما هنگام تغییر عبارتبندی، انحراف دادهها یا تغییر ریسکها، دچار مشکل شود. ارزیابی متمرکز بر اعتماد، به جای اینکه با یک عدد به عنوان یک حکم جهانی برخورد کند، از معیارها و سناریوهای متعددی استفاده میکند.
بهترین روش برای اندازهگیری دقت هوش مصنوعی برای یک کار خاص
با تعریف وظیفه شروع کنید تا «درست» و «غلط» قابل آزمایش باشند، نه مبهم. از دادههای آزمایشیِ نماینده و نویزی استفاده کنید که کاربران واقعی و موارد خاص را منعکس میکنند. معیارهایی را انتخاب کنید که با پیامدها مطابقت داشته باشند، به خصوص برای تصمیمات نامتعادل یا پرخطر. سپس آزمونهای استرس خارج از توزیع را اضافه کنید و با گذشت زمان و با تکامل محیط خود، ارزیابی مجدد را ادامه دهید.
چگونه دقت و یادآوری، دقت را در عمل شکل میدهند
دقت و یادآوری، هزینههای خرابی متفاوتی را ترسیم میکنند: دقت بر اجتناب از هشدارهای کاذب تأکید دارد، در حالی که یادآوری بر شناسایی همه چیز تأکید دارد. اگر در حال فیلتر کردن هرزنامهها هستید، ممکن است چند مورد از دست رفته قابل قبول باشد، اما موارد مثبت کاذب میتواند کاربران را ناامید کند. در سایر تنظیمات، از دست دادن موارد نادر اما حیاتی بیشتر از پرچمهای اضافی اهمیت دارد. تعادل مناسب به هزینههای «اشتباه» در گردش کار شما بستگی دارد.
کالیبراسیون چیست و چرا برای دقت اهمیت دارد؟
کالیبراسیون بررسی میکند که آیا اطمینان یک مدل با واقعیت مطابقت دارد یا خیر - وقتی میگوید «۹۰٪ مطمئن»، آیا تقریباً ۹۰٪ مواقع درست است؟ این موضوع زمانی اهمیت پیدا میکند که آستانههایی مانند تأیید خودکار را بالای ۰.۹ تنظیم کنید. دو مدل میتوانند دقت مشابهی داشته باشند، اما مدلی که بهتر کالیبره شده است، ایمنتر است زیرا پاسخهای اشتباه بیش از حد مطمئن را کاهش میدهد و از رفتار پرهیز هوشمندانهتر پشتیبانی میکند.
دقت هوش مصنوعی مولد و دلیل وقوع توهم
هوش مصنوعی مولد میتواند متنی روان و قابل قبول تولید کند، حتی زمانی که مبتنی بر واقعیت نباشد. تعیین دقت دشوارتر میشود زیرا بسیاری از سوالات، چندین پاسخ قابل قبول را ارائه میدهند و مدلها را میتوان برای «مفید بودن» به جای صحت مطلق بهینه کرد. توهمات به ویژه زمانی خطرناک میشوند که خروجیها با اطمینان بالا به دست آیند. برای موارد استفاده واقعی، مبتنی بودن بر اسناد معتبر به علاوه مراحل تأیید به کاهش محتوای ساختگی کمک میکند.
آزمایش تغییر توزیع و ورودیهای خارج از توزیع
معیارهای درون توزیعی میتوانند وقتی دنیا تغییر میکند، عملکرد را بیش از حد واقعی نشان دهند. با عبارات غیرمعمول، غلطهای املایی، ورودیهای مبهم، دورههای زمانی جدید و دستهبندیهای جدید آزمایش کنید تا ببینید سیستم در کجا دچار مشکل میشود. معیارهایی مانند WILDS حول این ایده ساخته شدهاند: وقتی دادهها تغییر میکنند، عملکرد میتواند به شدت کاهش یابد. تست استرس را به عنوان بخش اصلی ارزیابی در نظر بگیرید، نه یک چیز خوب و ضروری.
دقیقتر کردن یک سیستم هوش مصنوعی در طول زمان
با گسترش موارد حاشیهای، متعادل کردن سناریوهای نادر اما حیاتی و حفظ یک «مجموعه طلایی» که منعکس کننده درد واقعی کاربر است، دادهها و آزمایشها را بهبود بخشید. برای وظایف واقعی، به جای امید به رفتار مدل، زمینهسازی و تأیید را اضافه کنید. ارزیابی را روی هر تغییر معنادار انجام دهید، مراقب رگرسیونها باشید و در تولید، انحراف را رصد کنید. همچنین ممتنع بودن را ارزیابی کنید تا «نمیدانم» به حدسهای مطمئن تبدیل نشود.
منابع
[1] NIST AI RMF 1.0 (NIST AI 100-1): یک چارچوب عملی برای شناسایی، ارزیابی و مدیریت ریسکهای هوش مصنوعی در کل چرخه عمر. ادامه مطلب
[2] NIST Generative AI Profile (NIST AI 600-1): یک نمایه همراه با AI RMF که بر ملاحظات ریسک مختص سیستمهای هوش مصنوعی مولد تمرکز دارد. ادامه مطلب
[3] Guo و همکاران (2017) - کالیبراسیون شبکههای عصبی مدرن: مقالهای بنیادی که نشان میدهد چگونه شبکههای عصبی مدرن میتوانند به اشتباه کالیبره شوند و چگونه میتوان کالیبراسیون را بهبود بخشید. ادامه مطلب
[4] Koh و همکاران (2021) - معیار WILDS: یک مجموعه معیار طراحی شده برای آزمایش عملکرد مدل تحت تغییرات توزیع در دنیای واقعی. ادامه مطلب
[5] Liang و همکاران (2023) - HELM (ارزیابی جامع مدلهای زبانی): چارچوبی برای ارزیابی مدلهای زبانی در سناریوها و معیارها برای آشکارسازی بدهبستانهای واقعی. ادامه مطلب