برچسب‌گذاری داده‌های هوش مصنوعی چیست؟

اگر در حال ساخت یا ارزیابی سیستم‌های یادگیری ماشین هستید، دیر یا زود به همان مانع برخورد خواهید کرد: داده‌های برچسب‌گذاری شده. مدل‌ها به طور جادویی نمی‌دانند چه چیزی به چه چیزی مربوط است. افراد، سیاست‌ها و گاهی اوقات برنامه‌ها باید به آنها آموزش دهند. بنابراین، برچسب‌گذاری داده‌های هوش مصنوعی چیست؟ به طور خلاصه، این عمل افزودن معنا به داده‌های خام است تا الگوریتم‌ها بتوانند از آن یاد بگیرند...😊

🔗 اخلاق هوش مصنوعی چیست؟
مروری بر اصول اخلاقی حاکم بر توسعه و استقرار مسئولانه هوش مصنوعی.

🔗 MCP در هوش مصنوعی چیست؟
پروتکل کنترل مدل و نقش آن در مدیریت رفتار هوش مصنوعی را توضیح می‌دهد.

🔗 هوش مصنوعی لبه‌ای چیست؟
نحوه پردازش مستقیم داده‌ها توسط هوش مصنوعی روی دستگاه‌های لبه‌ای را پوشش می‌دهد.

🔗 هوش مصنوعی عامل‌گرا چیست؟
عوامل هوش مصنوعی خودمختاری را معرفی می‌کند که قادر به برنامه‌ریزی، استدلال و اقدام مستقل هستند.

برچسب‌گذاری داده‌های هوش مصنوعی واقعاً چیست؟ 🎯

برچسب‌گذاری داده‌های هوش مصنوعی فرآیندی است که در آن برچسب‌های قابل فهم برای انسان، محدوده‌ها، کادرها، دسته‌ها یا رتبه‌بندی‌ها به ورودی‌های خام مانند متن، تصاویر، صدا، ویدیو یا سری‌های زمانی اضافه می‌شوند تا مدل‌ها بتوانند الگوها را تشخیص داده و پیش‌بینی کنند. به کادرهای محدودکننده اطراف خودروها، برچسب‌های موجودیت روی افراد و مکان‌ها در متن یا رأی‌های ترجیحی که پاسخ ربات چت برای آنها مفیدتر به نظر می‌رسد، فکر کنید. بدون این برچسب‌ها، یادگیری نظارت‌شده کلاسیک هرگز به نتیجه نمی‌رسد.

حقیقت پایه یا داده‌های طلایی خواهید شنید : پاسخ‌های توافق‌شده تحت دستورالعمل‌های واضح، که برای آموزش، اعتبارسنجی و حسابرسی رفتار مدل استفاده می‌شوند. حتی در عصر مدل‌های پایه و داده‌های مصنوعی، مجموعه‌های برچسب‌گذاری‌شده هنوز برای ارزیابی، تنظیم دقیق، تیم‌بندی ایمنی و موارد حاشیه‌ای مهم هستند - یعنی نحوه رفتار مدل شما در مورد کارهای عجیب و غریبی که کاربران شما واقعاً انجام می‌دهند. ناهار رایگانی در کار نیست، فقط ابزارهای آشپزخانه بهتر.

چه چیزی برچسب‌گذاری داده‌های هوش مصنوعی را خوب می‌کند؟

واضح است که: برچسب‌گذاری خوب، در بهترین حالت، کسل‌کننده است. به نظر قابل پیش‌بینی، تکرارپذیر و کمی بیش از حد مستند می‌رسد. این چیزی است که به نظر می‌رسد:

یک هستی‌شناسی دقیق : مجموعه‌ای نام‌گذاری‌شده از کلاس‌ها، ویژگی‌ها و روابطی که برای شما مهم هستند.
دستورالعمل‌های کریستالی : مثال‌های حل‌شده، مثال‌های نقض، موارد خاص و قوانین شکست تساوی
حلقه‌های بررسی : یک جفت چشم دیگر که بر بخشی از وظایف نظارت دارند.
معیارهای توافق : توافق بین مفسران (مثلاً k کوهن، α کریپندورف) بنابراین شما در حال اندازه‌گیری سازگاری هستید، نه ارتعاشات. α به ویژه زمانی مفید است که برچسب‌ها وجود ندارند یا چندین مفسر موارد مختلف را پوشش می‌دهند [1].
باغبانیِ مبتنی بر موارد خاص : مرتباً موارد عجیب، خصمانه یا صرفاً نادر را جمع‌آوری کنید.
بررسی سوگیری‌ها : بررسی منابع داده، داده‌های جمعیتی، مناطق، گویش‌ها، شرایط نوری و موارد دیگر.
منشأ و حریم خصوصی : ردیابی منشأ داده‌ها، حق استفاده از آنها و نحوه مدیریت اطلاعات شخصی (PII چیست، چگونه آن را طبقه‌بندی می‌کنید و موارد حفاظتی) [5].
بازخورد در آموزش : برچسب‌ها در گورستان صفحات گسترده باقی نمی‌مانند - آنها به یادگیری فعال، تنظیم دقیق و ارزیابی‌ها بازخورد می‌دهند.

یک اعتراف کوچک: شما چندین بار دستورالعمل‌هایتان را بازنویسی خواهید کرد. این طبیعی است. مانند چاشنی زدن به خورش، یک تغییر کوچک خیلی موثر است.

حکایتی کوتاه در مورد میدان نبرد: یک تیم یک گزینه «نمی‌توانم تصمیم بگیرم - به سیاست نیاز دارم» را به رابط کاربری خود اضافه کرد. توافق افزایش یافت زیرا حاشیه‌نویس‌ها دیگر مجبور به حدس زدن نمی‌کردند و گزارش تصمیم‌گیری یک شبه واضح‌تر شد. پیروزی‌های کسل‌کننده.

جدول مقایسه: ابزارهای برچسب‌گذاری داده‌های هوش مصنوعی 🔧

جامع نیست، و بله، متن عمداً کمی نامرتب است. قیمت‌گذاری تغییر می‌کند - همیشه قبل از بودجه‌بندی، در سایت‌های فروشندگان تأیید بگیرید.

ابزار	بهترین برای	سبک قیمت (نشان دهنده)	چرا کار می‌کند؟
جعبه برچسب	شرکت‌ها، ترکیبی از رزومه و NLP	مبتنی بر میزان استفاده، سطح رایگان	گردش‌های کاری، هستی‌شناسی‌ها و معیارهای تضمین کیفیت خوبی دارد؛ مقیاس‌پذیری را به خوبی مدیریت می‌کند.
حقیقت میدانی AWS SageMaker	سازمان‌های متمرکز بر AWS، خطوط لوله HITL	به ازای هر وظیفه + میزان استفاده از AWS	مجهز به سرویس‌های AWS، گزینه‌های حضور انسان در حلقه، و قلاب‌های مادون قرمز قوی.
مقیاس هوش مصنوعی	وظایف پیچیده، نیروی کار مدیریت‌شده	پیش فاکتور سفارشی، پلکانی	خدمات با دسترسی بالا به علاوه ابزارآلات؛ گزینه‌های قوی برای موارد دشوار.
سوپرآنوتیت	تیم‌ها و استارتاپ‌های با چشم‌انداز بزرگ	سطوح، دوره آزمایشی رایگان	رابط کاربری روان، همکاری، ابزارهای مفید مبتنی بر مدل.
نابغه	توسعه‌دهندگانی که کنترل محلی می‌خواهند	مجوز مادام العمر، به ازای هر صندلی	قابل اسکریپت‌نویسی، حلقه‌های سریع، دستور العمل‌های سریع - قابل اجرا به صورت محلی؛ عالی برای NLP.
دوکانو	پروژه‌های متن‌باز پردازش زبان طبیعی (NLP)	رایگان، متن‌باز	مبتنی بر جامعه، استقرار آسان، مناسب برای طبقه‌بندی و کارهای توالی‌یابی

بررسی واقعیت در مدل‌های قیمت‌گذاری : فروشندگان واحدهای مصرفی، هزینه‌های هر وظیفه، سطوح، قیمت‌های سفارشی سازمانی، مجوزهای یک‌بار مصرف و متن‌باز را با هم ترکیب می‌کنند. سیاست‌ها تغییر می‌کنند؛ قبل از اینکه تدارکات اعداد را در یک صفحه گسترده قرار دهد، جزئیات را مستقیماً با اسناد فروشنده تأیید کنید.

انواع رایج برچسب‌ها، به همراه تصاویر ذهنی سریع 🧠

طبقه‌بندی تصویر : یک یا چند برچسب برای کل تصویر.
تشخیص شیء : کادرهای محدودکننده یا کادرهای چرخان در اطراف اشیاء.
قطعه‌بندی : ماسک‌های نمونه‌ای در سطح پیکسل یا معنایی؛ وقتی تمیز باشد، به طرز عجیبی رضایت‌بخش است.
نکات و حالت‌های کلیدی : نشانه‌هایی مانند مفاصل یا نقاط صورت.
پردازش زبان طبیعی (NLP) : برچسب‌های سند، محدوده‌های مربوط به موجودیت‌های نام‌گذاری‌شده، روابط، پیوندهای هم‌مرتبط، ویژگی‌ها.
صدا و گفتار : رونویسی، تنظیم خاطرات گوینده، برچسب‌های هدف، رویدادهای آکوستیک.
ویدئو : کادرها یا مسیرهای فریم-محور، رویدادهای زمانی، برچسب‌های اکشن.
سری‌های زمانی و حسگرها : رویدادهای پنجره‌ای، ناهنجاری‌ها، رژیم‌های روند
گردش‌های کاری مولد : رتبه‌بندی ترجیحات، پرچم‌های قرمز ایمنی، امتیازدهی به صداقت، ارزیابی مبتنی بر دستورالعمل.
جستجو و RAG : ارتباط سند پرس‌وجو، قابلیت پاسخگویی، خطاهای بازیابی.

اگر یک تصویر را پیتزا در نظر بگیریم، قطعه‌بندی به معنای برش کامل هر برش است، در حالی که تشخیص به معنای اشاره کردن و گفتن این است که یک برش... جایی آن طرف‌تر وجود دارد.

آناتومی گردش کار: از داده‌های مختصر تا داده‌های طلایی 🧩

یک خط لوله برچسب‌گذاری قوی معمولاً از این شکل پیروی می‌کند:

هستی‌شناسی را تعریف کنید : کلاس‌ها، ویژگی‌ها، روابط و ابهامات مجاز.
پیش‌نویس دستورالعمل‌ها : مثال‌ها، موارد حاشیه‌ای و مثال‌های نقض پیچیده
یک مجموعه آزمایشی را برچسب‌گذاری کنید : چند صد مثال را حاشیه‌نویسی کنید تا حفره‌ها را پیدا کنید.
توافق را اندازه‌گیری کنید : κ/α را محاسبه کنید؛ دستورالعمل‌ها را تا زمانی که حاشیه‌نویس‌ها همگرا شوند، اصلاح کنید [1].
طراحی تضمین کیفیت : رأی‌گیری اجماعی، داوری، بررسی سلسله مراتبی و بررسی‌های موردی
مراحل تولید : نظارت بر توان عملیاتی، کیفیت و رانش.
حلقه را ببندید : همگام با تکامل مدل و محصول، دستورالعمل‌ها را مجدداً آموزش دهید، نمونه‌برداری مجدد کنید و به‌روزرسانی کنید.

نکته‌ای که بعداً از خودتان به خاطرش تشکر خواهید کرد: یک دفترچه یادداشت تصمیمات دلیل آن را بنویسید . در آینده - زمینه را فراموش خواهید کرد. در آینده - از آن بدخلق خواهید شد.

دخالت انسان در حلقه، نظارت ضعیف، و طرز فکر «برچسب بیشتر، کلیک کمتر» 🧑💻🤝

انسان در حلقه (HITL) به این معنی است که افراد با مدل‌ها در طول آموزش، ارزیابی یا عملیات زنده همکاری می‌کنند - تأیید، اصلاح یا خودداری از پیشنهادات مدل. از آن برای افزایش سرعت در عین حفظ مسئولیت کیفیت و ایمنی افراد استفاده کنید. HITL یک روش اصلی در مدیریت ریسک هوش مصنوعی قابل اعتماد (نظارت انسانی، مستندسازی، پایش) است [2].

نظارت ضعیف یک ترفند متفاوت اما مکمل است: قوانین برنامه‌نویسی، روش‌های اکتشافی، نظارت از راه دور یا سایر منابع نویزدار، برچسب‌های موقت را در مقیاس تولید می‌کنند، سپس شما آنها را نویززدایی می‌کنید. برنامه‌نویسی داده، ترکیب بسیاری از منابع برچسب نویزدار (معروف به توابع برچسب‌گذاری ) و یادگیری دقت آنها را برای تولید یک مجموعه آموزشی با کیفیت بالاتر رواج داد [3].

در عمل، تیم‌های با سرعت بالا هر سه را با هم ترکیب می‌کنند: برچسب‌های دستی برای مجموعه‌های طلایی، نظارت ضعیف برای بوت‌استرپ، و HITL برای سرعت بخشیدن به کارهای روزمره. این تقلب نیست. این مهارت است.

یادگیری فعال: بهترین مورد بعدی را برای برچسب زدن انتخاب کنید 🎯📈

یادگیری فعال، جریان معمول را برعکس می‌کند. به جای نمونه‌گیری تصادفی از داده‌ها برای برچسب‌گذاری، به مدل اجازه می‌دهید تا آموزنده‌ترین مثال‌ها را درخواست کند: عدم قطعیت بالا، اختلاف نظر زیاد، نمایندگان متنوع یا نقاط نزدیک به مرز تصمیم‌گیری. با نمونه‌گیری خوب، ضایعات برچسب‌گذاری را کاهش داده و بر تأثیر تمرکز می‌کنید. نظرسنجی‌های مدرن که یادگیری فعال عمیق را پوشش می‌دهند، عملکرد قوی با برچسب‌های کمتر را گزارش می‌دهند، زمانی که حلقه اوراکل به خوبی طراحی شده باشد [4].

یک دستور غذای ساده که می‌توانید با آن شروع کنید، بدون دردسر:

روی یک مجموعه بذر کوچک تمرین کنید.
به استخر بدون برچسب امتیاز دهید.
K برتر را بر اساس عدم قطعیت یا اختلاف نظر در مدل انتخاب کنید.
برچسب بزنید. دوباره تمرین کنید. در دسته‌های کوچک تکرار کنید.
منحنی‌های اعتبارسنجی و معیارهای توافق را زیر نظر داشته باشید تا به دنبال نویز نروید.

وقتی مدل شما بدون دو برابر شدن هزینه برچسب‌گذاری ماهانه‌تان بهبود یابد، متوجه خواهید شد که این روش جواب می‌دهد.

کنترل کیفیتی که واقعاً کار می‌کند 🧪

لازم نیست آب اقیانوس را بجوشانید. این بررسی‌ها را انجام دهید:

سوالات طلایی : موارد شناخته شده را وارد کنید و دقت هر برچسب‌گذار را پیگیری کنید.
اجماع با قضاوت : دو برچسب مستقل به علاوه یک داور در مورد اختلافات.
توافق بین حاشیه‌نویس‌ها : وقتی چندین حاشیه‌نویس یا برچسب‌های ناقص دارید از α و برای جفت‌ها از κ استفاده کنید؛ روی یک آستانه واحد وسواس به خرج ندهید - مسائل مربوط به زمینه [1].
بازنگری در دستورالعمل‌ها : اشتباهات مکرر معمولاً به معنای دستورالعمل‌های مبهم هستند، نه حاشیه‌نویس‌های بد.
بررسی‌های انحراف : مقایسه توزیع برچسب‌ها در طول زمان، جغرافیا و کانال‌های ورودی.

اگر فقط یک معیار را انتخاب می‌کنید، توافق را انتخاب کنید. این یک سیگنال سریع برای سلامت است. استعاره کمی ناقص: اگر برچسب‌های شما همسو نباشند، مدل شما روی چرخ‌های لرزان کار می‌کند.

مدل‌های نیروی کار: درون سازمانی، برون‌سپاری فرآیندها، جمعی یا ترکیبی 👥

درون سازمانی : بهترین گزینه برای داده‌های حساس، حوزه‌های ظریف و یادگیری سریع بین‌رشته‌ای.
فروشندگان متخصص : توان عملیاتی ثابت، تضمین کیفیت آموزش‌دیده و پوشش در مناطق زمانی مختلف.
جمع‌سپاری : ارزان برای هر کار، اما به طلاهای قوی و کنترل هرزنامه نیاز دارید.
ترکیبی : یک تیم متخصص اصلی را حفظ کنید و از ظرفیت‌های خارجی نیز بهره ببرید.

هر چه را که انتخاب می‌کنید، روی جلسات اولیه، آموزش دستورالعمل‌ها، دوره‌های کالیبراسیون و بازخوردهای مکرر سرمایه‌گذاری کنید. برچسب‌های ارزانی که شما را مجبور به سه بار برچسب‌گذاری مجدد می‌کنند، ارزان نیستند.

هزینه، زمان و بازگشت سرمایه: بررسی سریع واقعیت 💸⏱️

هزینه‌ها به نیروی کار، پلتفرم و تضمین کیفیت تقسیم می‌شوند. برای برنامه‌ریزی تقریبی، مسیر فروش خود را به این شکل ترسیم کنید:

هدف توان عملیاتی : تعداد اقلام در روز به ازای هر برچسب‌گذار × برچسب‌گذارها.
سربار تضمین کیفیت : % دوبار برچسب‌گذاری شده یا بررسی شده.
نرخ دوباره‌کاری : بودجه برای حاشیه‌نویسی مجدد پس از به‌روزرسانی دستورالعمل‌ها.
ارتقای خودکارسازی : پیش‌برچسب‌های مبتنی بر مدل یا قوانین برنامه‌نویسی می‌توانند به طور معناداری (نه جادویی، اما معنادار) از حجم کار دستی بکاهند.

اگر بخش تدارکات از شما عددی را درخواست کرد، یک مدل به آنها بدهید - نه یک حدس - و همزمان با تثبیت دستورالعمل‌هایتان، آن را به‌روز نگه دارید.

تله‌هایی که حداقل یک بار به آنها برخورد خواهید کرد، و چگونه از آنها جاخالی دهید 🪤

دستورالعمل‌ها به طرز فزاینده‌ای گسترش می‌یابند : دستورالعمل‌ها به یک رمان کوتاه تبدیل می‌شوند. با درخت‌های تصمیم‌گیری + مثال‌های ساده آن را اصلاح کنید.
تورم کلاس : کلاس‌های بسیار زیاد با مرزهای نامشخص. ادغام یا تعریف یک «دیگری» دقیق با سیاست.
شاخص‌گذاری بیش از حد در سرعت : برچسب‌های شتاب‌زده بی‌سروصدا داده‌های آموزشی را مسموم می‌کنند. طلاها را وارد کنید؛ بدترین شیب‌ها را با محدودیت سرعت محدود کنید.
قفل ابزار : فرمت‌های خروجی. در مورد طرح‌های JSONL و شناسه‌های آیتم‌های خودتوان از قبل تصمیم بگیرید.
نادیده گرفتن ارزیابی : اگر ابتدا یک مجموعه ارزیابی را برچسب‌گذاری نکنید، هرگز مطمئن نخواهید شد که چه چیزی بهبود یافته است.

بیایید صادق باشیم، شما گاهی اوقات عقب‌نشینی می‌کنید. اشکالی ندارد. نکته این است که عقب‌نشینی‌هایتان را یادداشت کنید تا دفعه‌ی بعد عمدی باشد.

سوالات متداول کوتاه: پاسخ‌های سریع و صادقانه 🙋♀️

س: برچسب‌گذاری در مقابل حاشیه‌نویسی - آیا آنها متفاوت هستند؟
ج: در عمل مردم آنها را به جای یکدیگر استفاده می‌کنند. حاشیه‌نویسی عمل علامت‌گذاری یا برچسب‌گذاری است. برچسب‌گذاری اغلب به معنای یک طرز فکر مبتنی بر حقیقت با پرسش و پاسخ و دستورالعمل‌ها است. سیب‌زمینی، سیب‌زمینی.

س: آیا می‌توانم به لطف داده‌های مصنوعی یا خودنظارتی از برچسب‌گذاری صرف‌نظر کنم؟
ج: می‌توانید کاهش دهید ، نه اینکه از آن صرف‌نظر کنید. شما هنوز به داده‌های برچسب‌گذاری شده برای ارزیابی، ایجاد موانع، تنظیم دقیق و رفتارهای خاص محصول نیاز دارید. نظارت ضعیف می‌تواند شما را در مقیاس بزرگ‌تری قرار دهد، زمانی که برچسب‌گذاری دستی به تنهایی کافی نیست [3].

س: آیا اگر داوران من متخصص باشند، هنوز به معیارهای کیفیت نیاز دارم؟
ج: بله. متخصصان نیز مخالفند. از معیارهای توافق (κ/α) برای یافتن تعاریف مبهم و کلاس‌های مبهم استفاده کنید، سپس هستی‌شناسی یا قوانین را محدودتر کنید [1].

س: آیا دخالت انسان در حلقه فقط بازاریابی است؟
ج: خیر. این یک الگوی عملی است که در آن انسان‌ها رفتار مدل را هدایت، اصلاح و ارزیابی می‌کنند. این روش در شیوه‌های مدیریت ریسک هوش مصنوعی قابل اعتماد توصیه می‌شود [2].

س: چگونه اولویت‌بندی کنم که در مرحله بعد چه چیزی را برچسب‌گذاری کنم؟
ج: با یادگیری فعال شروع کنید: نامشخص‌ترین یا متنوع‌ترین نمونه‌ها را انتخاب کنید تا هر برچسب جدید حداکثر بهبود مدل را برای شما به ارمغان بیاورد [4].

یادداشت‌های میدانی: چیزهای کوچکی که تفاوت‌های بزرگی ایجاد می‌کنند ✍️

یک طبقه‌بندی زنده در مخزن خود داشته باشید و با آن مانند کد رفتار کنید.
هر زمان که دستورالعمل‌ها را به‌روزرسانی می‌کنید، نمونه‌های قبل و بعد ذخیره کنید
مجموعه طلای کوچک و بی‌نقص بسازید و آن را از آلودگی محافظت کنید.
چرخش جلسات کالیبراسیون : نمایش 10 مورد، برچسب‌گذاری بی‌صدا، مقایسه، بحث، به‌روزرسانی قوانین.
تحلیل‌گرِ ردیابی ، بدون هیچ شرمساری. شما فرصت‌های آموزشی پیدا خواهید کرد، نه افراد شرور.
پیشنهادهای مبتنی بر مدل را اضافه کنید . اگر پیش‌برچسب‌ها اشتباه باشند، سرعت انسان را کاهش می‌دهند. اگر اغلب درست باشند، جادویی است.

سخنان پایانی: برچسب‌ها حافظه محصول شما هستند 🧩💡

برچسب‌گذاری داده‌های هوش مصنوعی در هسته خود چیست؟ این روش شما برای تصمیم‌گیری در مورد چگونگی نگاه مدل به جهان است، یک تصمیم دقیق در هر زمان. اگر این کار را به خوبی انجام دهید، همه چیز در مراحل بعدی آسان‌تر می‌شود: دقت بهتر، رگرسیون کمتر، بحث‌های واضح‌تر در مورد ایمنی و سوگیری، ارسال روان‌تر. اگر این کار را با بی‌دقتی انجام دهید، مدام از خود می‌پرسید که چرا مدل بدرفتاری می‌کند - وقتی پاسخ در مجموعه داده‌های شما با برچسب نام اشتباه قرار دارد. همه چیز به یک تیم بزرگ یا نرم‌افزار پیچیده نیاز ندارد - اما همه چیز به مراقبت نیاز دارد.

خیلی طولانی بود، نخوندمش : روی یک هستی‌شناسی واضح سرمایه‌گذاری کنید، قوانین واضح بنویسید، توافق را بسنجید، برچسب‌های دستی و برنامه‌نویسی را با هم ترکیب کنید، و بگذارید یادگیری فعال بهترین مورد بعدی شما را انتخاب کند. سپس تکرار کنید. دوباره. و دوباره... و به طرز عجیبی، از آن لذت خواهید برد. 😄

منابع

[1] آرتستین، ر.، و پوئسیو، م. (2008). توافق بین کدگذاران برای زبان‌شناسی محاسباتی . زبان‌شناسی محاسباتی، 34(4)، 555-596. (شامل κ/α و نحوه تفسیر توافق، از جمله داده‌های از دست رفته.)
PDF

[2] NIST (2023). چارچوب مدیریت ریسک هوش مصنوعی (AI RMF 1.0) . (نظارت انسانی، مستندسازی و کنترل ریسک برای هوش مصنوعی قابل اعتماد.)
PDF

[3] رتنر، ای‌جی، دی سا، سی.، وو، اس.، سلسام، دی.، و ره، سی. (2016). برنامه‌نویسی داده‌ها: ایجاد سریع مجموعه‌های آموزشی بزرگ . NeurIPS. (رویکرد بنیادی به نظارت ضعیف و حذف نویز برچسب‌های نویزی.)
PDF

[4] لی، دی.، وانگ، زد.، چن، وای. و همکاران (2024). بررسی یادگیری فعال عمیق: پیشرفت‌های اخیر و مرزهای جدید . (شواهد و الگوهایی برای یادگیری فعال با برچسب کارآمد.)
PDF

[5] NIST (2010). SP 800-122: راهنمای حفاظت از محرمانگی اطلاعات شخصی قابل شناسایی (PII) . (چه چیزی به عنوان PII محسوب می‌شود و چگونه می‌توان آن را در خط لوله داده خود محافظت کرد.)
PDF

جدیدترین هوش مصنوعی را در فروشگاه رسمی دستیار هوش مصنوعی پیدا کنید

درباره ما

بازگشت به وبلاگ

کشور/منطقه