مجموعه داده هوش مصنوعی چیست؟

مجموعه داده هوش مصنوعی چیست؟

اگر در حال ساخت، خرید یا حتی ارزیابی سیستم‌های هوش مصنوعی هستید، با یک سوال ساده و فریبنده مواجه خواهید شد: مجموعه داده هوش مصنوعی چیست و چرا اینقدر اهمیت دارد؟ به طور خلاصه: این سوخت، کتاب آشپزی و گاهی اوقات قطب‌نمای مدل شماست. 

مقالاتی که شاید بعد از این مطلب دوست داشته باشید بخوانید:

🔗 هوش مصنوعی چگونه روندها را پیش‌بینی می‌کند؟
بررسی می‌کند که چگونه هوش مصنوعی الگوها را برای پیش‌بینی رویدادها و رفتارهای آینده تجزیه و تحلیل می‌کند.

🔗 چگونه عملکرد هوش مصنوعی را اندازه‌گیری کنیم
معیارها و روش‌های ارزیابی دقت، کارایی و قابلیت اطمینان مدل.

🔗 چگونه با هوش مصنوعی صحبت کنیم
راهنمایی در مورد ایجاد تعاملات بهتر برای بهبود پاسخ‌های تولید شده توسط هوش مصنوعی.

🔗 هوش مصنوعی چه چیزی را القا می‌کند؟
مروری بر چگونگی شکل‌گیری خروجی‌های هوش مصنوعی و کیفیت کلی ارتباط توسط دستورالعمل‌ها.


مجموعه داده هوش مصنوعی چیست؟ یک تعریف سریع 🧩

مجموعه داده هوش مصنوعی چیست؟ مجموعه‌ای از مثال‌هایی است مدل شما از آنها یاد می‌گیرد یا بر اساس آنها ارزیابی می‌شود. هر مثال دارای موارد زیر است:

  • ورودی‌ها - ویژگی‌هایی که مدل می‌بیند، مانند قطعه‌های متن، تصاویر، صدا، ردیف‌های جدولی، خوانش حسگرها، نمودارها.

  • اهداف - برچسب‌ها یا نتایجی که مدل باید پیش‌بینی کند، مانند دسته‌ها، اعداد، محدوده متن، اقدامات یا گاهی اوقات هیچ چیز.

  • فراداده - زمینه‌ای مانند منبع، روش جمع‌آوری، مهرهای زمانی، مجوزها، اطلاعات رضایت و یادداشت‌های مربوط به کیفیت.

آن را مانند یک جعبه ناهار با دقت بسته‌بندی شده برای مدل خود در نظر بگیرید: مواد تشکیل دهنده، برچسب‌ها، اطلاعات تغذیه‌ای و بله، یادداشت چسبی که می‌گوید "این قسمت را نخورید". 🍱

برای وظایف تحت نظارت، ورودی‌هایی را خواهید دید که با برچسب‌های صریح جفت شده‌اند. برای وظایف بدون نظارت، ورودی‌هایی بدون برچسب خواهید دید. برای یادگیری تقویتی، داده‌ها اغلب شبیه قسمت‌ها یا مسیرهایی با حالت‌ها، اقدامات و پاداش‌ها به نظر می‌رسند. برای کارهای چندوجهی، مثال‌ها می‌توانند متن + تصویر + صدا را در یک رکورد واحد ترکیب کنند. شیک به نظر می‌رسد؛ بیشتر شبیه لوله‌کشی است.

مقدمات و تمرین‌های مفید: ایده‌ی « برگه‌های داده برای مجموعه داده‌ها» به تیم‌ها کمک می‌کند تا توضیح دهند چه چیزی درون مجموعه داده است و چگونه باید از آن استفاده شود [1]، و کارت‌های مدل، مستندسازی داده‌ها را در سمت مدل تکمیل می‌کنند [2].

 

مجموعه داده‌های هوش مصنوعی

چه چیزی یک مجموعه داده خوب هوش مصنوعی را می‌سازد؟

بیایید صادق باشیم، بسیاری از مدل‌ها به این دلیل موفق می‌شوند که مجموعه داده‌ها افتضاح نبوده‌اند. یک مجموعه داده «خوب» این ویژگی‌ها را دارد:

  • نماینده موارد استفاده واقعی، نه فقط شرایط آزمایشگاهی.

  • با برچسب‌گذاری دقیق ، همراه با دستورالعمل‌های روشن و داوری دوره‌ای. معیارهای توافق (مثلاً معیارهای سبک کاپا) به بررسی صحت و سقم داده‌ها کمک می‌کنند.

  • کامل و متعادل باشد تا از شکست خاموش در دنباله‌های طولانی جلوگیری شود. عدم تعادل طبیعی است؛ سهل‌انگاری نه.

  • منشأ واضح ، با رضایت، مجوز و مجوزهای مستند. کاغذبازی‌های خسته‌کننده مانع از طرح دعاوی هیجان‌انگیز می‌شود.

  • با استفاده از کارت‌های داده یا برگه‌های داده که کاربرد مورد نظر، محدودیت‌ها و حالت‌های خرابی شناخته شده را شرح می‌دهند، به خوبی مستند شده است

  • مدیریت می‌شود . اگر نتوانید مجموعه داده‌ها را بازتولید کنید، نمی‌توانید مدل را بازتولید کنید. راهنمایی‌های چارچوب مدیریت ریسک هوش مصنوعی NIST، کیفیت داده‌ها و مستندسازی را به عنوان دغدغه‌های درجه یک در نظر می‌گیرد [3].


انواع مجموعه داده‌های هوش مصنوعی، بر اساس کاری که انجام می‌دهید 🧰

بر اساس وظیفه

  • طبقه‌بندی - مثلاً، اسپم در مقابل غیر اسپم، دسته‌بندی تصاویر.

  • رگرسیون - پیش‌بینی یک مقدار پیوسته مانند قیمت یا دما.

  • برچسب‌گذاری توالی - موجودیت‌های نامگذاری‌شده، بخش‌هایی از کلام.

  • تولید - خلاصه‌سازی، ترجمه، شرح تصاویر.

  • توصیه - کاربر، مورد، تعاملات، زمینه.

  • تشخیص ناهنجاری - رویدادهای نادر در سری‌های زمانی یا لاگ‌ها.

  • یادگیری تقویتی - حالت، عمل، پاداش، توالی حالت‌های بعدی.

  • بازیابی - اسناد، پرس‌وجوها، قضاوت‌های مربوط به مرتبط بودن.

بر اساس روش

  • جدولی - ستون‌هایی مانند سن، درآمد، ریزش مشتری. دست کم گرفته شده، به طرز وحشیانه‌ای مؤثر.

  • متن - اسناد، چت‌ها، کد، پست‌های انجمن، توضیحات محصول.

  • تصاویر - عکس‌ها، اسکن‌های پزشکی، کاشی‌های ماهواره‌ای؛ با یا بدون ماسک، کادر، نکات کلیدی.

  • صدا - شکل موج‌ها، رونوشت‌ها، برچسب‌های گوینده.

  • ویدئو - فریم‌ها، حاشیه‌نویسی‌های زمانی، برچسب‌های اکشن.

  • نمودارها - گره‌ها، یال‌ها، ویژگی‌ها.

  • سری‌های زمانی - حسگرها، امور مالی، دورسنجی

با نظارت

  • دارای برچسب (طلایی، نقره‌ای، برچسب خودکار)، برچسب ضعیف ، بدون برچسب ، مصنوعی . پودر کیک آماده می‌تواند مناسب باشد - اگر روی جعبه را بخوانید.


درون جعبه: ساختار، تقسیم‌بندی‌ها و فراداده 📦

یک مجموعه داده قوی معمولاً شامل موارد زیر است:

  • طرحواره - فیلدهای تایپی، واحدها، مقادیر مجاز، مدیریت تهی.

  • تقسیم‌بندی‌ها - آموزش، اعتبارسنجی، آزمایش. داده‌های آزمایش را مهر و موم شده نگه دارید - با آنها مانند آخرین تکه شکلات رفتار کنید.

  • طرح نمونه‌گیری - نحوه‌ی انتخاب نمونه‌ها از جمعیت؛ از نمونه‌های در دسترس از یک منطقه یا دستگاه خاص خودداری کنید.

  • تقویت‌ها - وارونه‌سازی‌ها، کراپ‌ها، نویزها، پارازیت‌ها، ماسک‌ها. وقتی صادقانه باشند خوبند؛ وقتی الگوهایی ابداع می‌کنند که هرگز در واقعیت اتفاق نمی‌افتند مضرند.

  • نسخه‌بندی - مجموعه داده نسخه‌های ۰.۱، ۰.۲… به همراه گزارش تغییرات که دلتاها را توصیف می‌کنند.

  • مجوزها و رضایت‌نامه‌ها - حقوق استفاده، توزیع مجدد و جریان‌های حذف. نهادهای نظارتی ملی حفاظت از داده‌ها (مثلاً ICO بریتانیا) چک‌لیست‌های پردازش قانونی و کاربردی ارائه می‌دهند [4].


چرخه حیات مجموعه داده‌ها، گام به گام 🔁

  1. تصمیم را تعریف کنید - مدل چه تصمیمی خواهد گرفت و اگر اشتباه باشد چه اتفاقی می‌افتد.

  2. ویژگی‌ها و برچسب‌های محدوده - قابل اندازه‌گیری، قابل مشاهده، اخلاقی برای جمع‌آوری.

  3. داده‌های منبع - ابزارها، گزارش‌ها، نظرسنجی‌ها، شرکت‌های دولتی، شرکا.

  4. رضایت و موارد قانونی - اطلاعیه‌های حریم خصوصی، انصراف از عضویت، کاهش حجم داده‌ها. برای «چرایی» و «چگونگی» به راهنمای تنظیم‌کننده مراجعه کنید [4].

  5. جمع‌آوری و ذخیره - ذخیره‌سازی امن، دسترسی مبتنی بر نقش، مدیریت اطلاعات شخصی (PII).

  6. برچسب - حاشیه‌نویسان داخلی، جمع‌سپاری، متخصصان؛ مدیریت کیفیت با وظایف طلایی، ممیزی‌ها و معیارهای توافقی.

  7. تمیز و نرمال‌سازی - حذف کدهای تکراری، مدیریت گم‌شدگی‌ها، استانداردسازی واحدها، اصلاح کدگذاری. کاری خسته‌کننده و قهرمانانه.

  8. تقسیم و اعتبارسنجی - از نشت داده‌ها جلوگیری کنید؛ در صورت لزوم طبقه‌بندی کنید؛ برای داده‌های زمانی، تقسیم‌بندی‌های آگاه از زمان را ترجیح دهید؛ و برای تخمین‌های قوی، از اعتبارسنجی متقابل با دقت استفاده کنید [5].

  9. سند - برگه اطلاعات یا کارت اطلاعات؛ کاربرد مورد نظر، هشدارها، محدودیت‌ها [1].

  10. نظارت و به‌روزرسانی - تشخیص رانش، آهنگ به‌روزرسانی، برنامه‌های پایان کار. چارچوب مدیریت منابع انسانی هوش مصنوعی NIST این حلقه‌ی مدیریتی مداوم را چارچوب‌بندی می‌کند [3].

نکته‌ای سریع و واقعی: تیم‌ها اغلب «در نسخه آزمایشی برنده می‌شوند» اما در تولید دچار مشکل می‌شوند، زیرا مجموعه داده‌هایشان بی‌سروصدا تغییر می‌کند - خطوط تولید جدید، تغییر نام یک فیلد یا تغییر سیاست. یک گزارش تغییرات ساده + یک مرحله حاشیه‌نویسی مجدد دوره‌ای، بخش عمده‌ای از این دردسر را از بین می‌برد.


کیفیت و ارزیابی داده‌ها - آنقدرها هم که به نظر می‌رسد کسل‌کننده نیست 🧪

کیفیت چند بعدی است:

  • دقت - آیا برچسب‌ها درست هستند؟ از معیارهای توافقی و داوری دوره‌ای استفاده کنید.

  • کامل بودن - فیلدها و کلاس‌هایی را که واقعاً به آنها نیاز دارید، پوشش دهید.

  • ثبات - از برچسب‌های متناقض برای ورودی‌های مشابه خودداری کنید.

  • به‌موقع بودن - داده‌های قدیمی فرضیات را متحجر می‌کنند.

  • انصاف و جانبداری - پوشش در میان جمعیت‌ها، زبان‌ها، دستگاه‌ها، محیط‌ها؛ با ممیزی‌های توصیفی شروع کنید، سپس آزمون‌های استرس. رویه‌های مبتنی بر مستندسازی (برگه‌های داده، کارت‌های مدل) این بررسی‌ها را قابل مشاهده می‌کنند [1]، و چارچوب‌های حاکمیتی بر آنها به عنوان کنترل‌های ریسک تأکید می‌کنند [3].

برای ارزیابی مدل، از تقسیم‌بندی‌های مناسب و هم معیارهای میانگین و هم معیارهای بدترین گروه را پیگیری کنید. یک میانگین درخشان می‌تواند یک حفره را پنهان کند. اصول اعتبارسنجی متقابل به خوبی در اسناد استاندارد ابزار یادگیری ماشین [5] پوشش داده شده است.


اخلاق، حریم خصوصی و صدور مجوز - نرده‌های محافظ 🛡️

داده‌های اخلاقی یک حس و حال نیست، بلکه یک فرآیند است:

  • محدودیت رضایت و هدف - در مورد موارد استفاده و مبانی قانونی صریح باشید [4].

  • مدیریت اطلاعات شخصی (PII) - در صورت لزوم، کوچک‌سازی، استفاده از نام مستعار یا ناشناس‌سازی؛ در صورت بالا بودن خطرات، فناوری‌های افزایش حریم خصوصی را در نظر بگیرید.

  • انتساب و مجوزها - محدودیت‌های اشتراک‌گذاری و استفاده تجاری را رعایت کنید.

  • سوگیری و آسیب - بررسی همبستگی‌های کاذب ("روشنایی روز = ایمن" در شب بسیار گیج‌کننده خواهد بود).

  • جبران خسارت - بدانید که چگونه داده‌ها را در صورت درخواست حذف کنید و چگونه مدل‌های آموزش دیده بر روی آن را به حالت اولیه برگردانید (این را در برگه اطلاعات خود مستند کنید) [1].


چقدر بزرگ، به اندازه کافی بزرگ است؟ اندازه و نسبت سیگنال به نویز 📏

قاعده کلی: مثال‌های بیشتر معمولاً در صورتی مفید هستند که مرتبط باشند و تقریباً تکراری نباشند. اما گاهی اوقات بهتر است کمتر، تمیزتر و با برچسب بهتر تا اینکه کوهی از نمونه‌های نامرتب داشته باشید.

مراقب باشید برای:

  • منحنی‌های یادگیری - عملکرد را در مقابل اندازه نمونه رسم کنید تا ببینید آیا به داده وابسته هستید یا به مدل وابسته.

  • پوشش طولانی مدت - دسته‌های نادر اما حیاتی اغلب به جمع‌آوری هدفمند نیاز دارند، نه فقط حجم بیشتر.

  • نویز را برچسب گذاری کنید - اندازه گیری کنید، سپس کاهش دهید؛ مقدار کمی قابل تحمل است، اما موج جزر و مد قابل تحمل نیست.

  • تغییر توزیع - داده‌های آموزشی از یک ناحیه یا کانال ممکن است به ناحیه یا کانال دیگر تعمیم داده نشوند؛ اعتبارسنجی روی داده‌های آزمایشی مشابه هدف [5].

وقتی شک دارید، نمونه‌های کوچک را اجرا کنید و گسترش دهید. مثل چاشنی زدن است - اضافه کنید، بچشید، تنظیم کنید، تکرار کنید.


از کجا می‌توان مجموعه داده‌ها را پیدا و مدیریت کرد 🗂️

منابع و ابزارهای محبوب (نیازی به حفظ کردن آدرس‌های اینترنتی نیست):

  • مجموعه داده‌های چهره در آغوش گرفته - بارگذاری، پردازش، اشتراک‌گذاری برنامه‌ریزی‌شده.

  • جستجوی مجموعه داده‌های گوگل - متا-جستجو در سراسر وب.

  • مخزن UCI ML - آثار کلاسیک گردآوری‌شده برای مبانی و آموزش.

  • OpenML - وظایف + مجموعه داده‌ها + اجراها با منشأ.

  • داده‌های باز AWS / مجموعه داده‌های عمومی Google Cloud - شرکت‌های بزرگ میزبانی شده.

نکته حرفه‌ای: فقط دانلود نکنید. مجوز و برگه اطلاعات را بخوانید ، سپس نسخه خودتان را با شماره نسخه و منبع [1] مستند کنید.


برچسب‌گذاری و حاشیه‌نویسی - جایی که حقیقت مورد مذاکره قرار می‌گیرد ✍️

حاشیه‌نویسی جایی است که راهنمای برچسب نظری شما با واقعیت دست و پنجه نرم می‌کند:

  • طراحی وظیفه - دستورالعمل‌های واضحی را با مثال‌ها و مثال‌های نقض بنویسید.

  • آموزش حاشیه‌نویسی - بذر با پاسخ‌های طلایی، اجرای دورهای کالیبراسیون.

  • کنترل کیفیت - از معیارهای توافقی، مکانیسم‌های اجماع و ممیزی‌های دوره‌ای استفاده کنید.

  • ابزارسازی - ابزارهایی را انتخاب کنید که اعتبارسنجی طرحواره و صف‌های بررسی را اجرا می‌کنند؛ حتی صفحات گسترده می‌توانند با قوانین و بررسی‌ها کار کنند.

  • حلقه‌های بازخورد - یادداشت‌های حاشیه‌نویسان را ثبت کنید و اشتباهات را مدل‌سازی کنید تا راهنما را اصلاح کنید.

اگر حس می‌کنید که دارید با سه دوست که سر ویرگول‌ها با هم اختلاف نظر دارند، یک دیکشنری را ویرایش می‌کنید... طبیعی است. 🙃


مستندسازی داده‌ها - تبدیل دانش ضمنی به دانش صریح 📒

یک برگه اطلاعات یا کارت اطلاعات باید موارد زیر را پوشش دهد:

  • چه کسی، چگونه و چرا آن را جمع‌آوری کرده است.

  • کاربردهای مورد نظر و کاربردهای خارج از محدوده.

  • شکاف‌ها، سوگیری‌ها و حالت‌های شکست شناخته‌شده.

  • پروتکل برچسب‌گذاری، مراحل تضمین کیفیت و آمار توافق‌نامه.

  • مجوز، رضایت‌نامه، تماس برای مشکلات، فرآیند حذف.

الگوها و مثال‌ها: برگه‌های داده برای مجموعه داده‌ها و کارت‌های مدل، نقاط شروع پرکاربردی هستند [1].

آن را هنگام ساخت بنویسید، نه بعد از آن. حافظه یک رسانه ذخیره‌سازی ناپایدار است.


جدول مقایسه - مکان‌هایی برای یافتن یا میزبانی مجموعه داده‌های هوش مصنوعی 📊

بله، این کمی جانبدارانه است. و متن آن عمداً کمی نامنظم است. اشکالی ندارد.

ابزار / مخزن مخاطب قیمت چرا در عمل جواب می‌دهد
مجموعه داده‌های چهره در آغوش گرفته محققان، مهندسان رایگان بارگذاری سریع، پخش جریانی، اسکریپت‌های انجمنی؛ مستندات عالی؛ مجموعه داده‌های نسخه‌بندی‌شده
جستجوی مجموعه داده‌های گوگل همه رایگان مساحت سطح وسیع؛ عالی برای کشف؛ گاهی اوقات فراداده‌های متناقضی دارد، هرچند
مخزن UCI ML دانش‌آموزان، فرهنگیان رایگان آثار کلاسیک گلچین‌شده؛ کوچک اما مرتب؛ مناسب برای شروع و آموزش
اوپن‌ام‌ال محققان Repro رایگان وظایف + مجموعه داده‌ها + اجراها با هم؛ مسیرهای منشأ خوب
رجیستری داده‌های باز AWS مهندسان داده عمدتاً رایگان میزبانی در مقیاس پتابایت؛ دسترسی ابری بومی؛ نظارت بر هزینه‌های خروجی
مجموعه داده‌های کاگل پزشکان رایگان اشتراک‌گذاری آسان، اسکریپت‌ها، مسابقات؛ سیگنال‌های انجمن به فیلتر کردن نویز کمک می‌کنند
مجموعه داده‌های عمومی گوگل کلود تحلیلگران، تیم‌ها رایگان + فضای ابری میزبانی نزدیک به محاسبات؛ ادغام با BigQuery؛ دقت در پرداخت صورتحساب
پورتال‌های دانشگاهی، آزمایشگاه‌ها متخصصان حوزه‌های تخصصی متفاوت است بسیار تخصصی؛ گاهی اوقات به اندازه کافی مستند نشده است - هنوز هم ارزش جستجو را دارد

(اگر یک سلول شلوغ به نظر می‌رسد، عمدی است.)


ساخت اولین کیت - یک کیت شروع کاربردی 🛠️

شما می‌خواهید از «مجموعه داده هوش مصنوعی چیست» به «من یکی ساختم، کار می‌کند» بروید. این مسیر مینیمال را امتحان کنید:

  1. تصمیم و معیار را بنویسید - مثلاً، با پیش‌بینی تیم مناسب، مسیرهای اشتباه پشتیبانی ورودی را کاهش دهید. معیار: ماکرو-F1.

  2. ۵ مثال مثبت و ۵ مثال منفی را فهرست کنید - از بلیط‌های واقعی نمونه بگیرید؛ از جعل بلیط خودداری کنید.

  3. یک راهنمای برچسب تهیه کنید - یک صفحه؛ قوانین صریح برای گنجاندن/عدم گنجاندن.

  4. یک نمونه کوچک و واقعی - چند صد بلیط در دسته‌های مختلف - جمع‌آوری کنید؛ اطلاعات شخصی (PII) مورد نیاز خود را حذف کنید.

  5. تقسیم‌بندی با بررسی نشتی - تمام پیام‌های یک مشتری را در یک تقسیم‌بندی نگه دارید؛ از اعتبارسنجی متقابل برای تخمین واریانس استفاده کنید [5].

  6. حاشیه‌نویسی با تضمین کیفیت - دو حاشیه‌نویس روی یک زیرمجموعه؛ حل اختلاف‌نظرها؛ به‌روزرسانی راهنما.

  7. یک خط پایه ساده را آموزش دهید - ابتدا لجستیک (مثلاً مدل‌های خطی یا ترانسفورماتورهای فشرده). نکته این است که داده‌ها را آزمایش کنید، نه اینکه مدال بگیرید.

  8. خطاها را بررسی کنید - کجا و چرا خطا می‌دهد؛ مجموعه داده‌ها را به‌روزرسانی کنید، نه فقط مدل را.

  9. سند - برگه اطلاعات کوچک: منبع، لینک راهنمای برچسب، تقسیم‌بندی‌ها، محدودیت‌های شناخته‌شده، مجوز [1].

  10. به‌روزرسانی برنامه‌ریزی کنید - دسته‌بندی‌های جدید، اصطلاحات عامیانه جدید، دامنه‌های جدید از راه می‌رسند؛ به‌روزرسانی‌های کوچک و مکرر را برنامه‌ریزی کنید [3].

از این حلقه بیشتر از هزار برداشت داغ یاد خواهید گرفت. همچنین، لطفاً از نسخه‌های پشتیبان هم استفاده کنید.


دام‌های رایجی که مخفیانه وارد تیم‌ها می‌شوند 🪤

  • نشت داده‌ها - پاسخ به درون ویژگی‌ها می‌لغزد (مثلاً استفاده از فیلدهای پس از حل مسئله برای پیش‌بینی نتایج). به نظر می‌رسد تقلب است، چون واقعاً هم همینطور است.

  • تنوع سطحی - یک جغرافیا یا دستگاه به عنوان جهانی جلوه می‌کند. آزمایش‌ها، پیچش داستانی را آشکار خواهند کرد.

  • تغییر برچسب - معیارها با گذشت زمان تغییر می‌کنند اما راهنمای برچسب تغییر نمی‌کند. هستی‌شناسی خود را مستندسازی و نسخه‌بندی کنید.

  • اهداف نامشخص - اگر نتوانید یک پیش‌بینی بد را تعریف کنید، داده‌های شما نیز نمی‌توانند.

  • مجوزهای نامرتب - الان پاک کردن، بعداً عذرخواهی کردن، یک استراتژی نیست.

  • تقویت بیش از حد - داده‌های مصنوعی که مصنوعات غیرواقعی را آموزش می‌دهند، مانند آموزش یک سرآشپز در مورد میوه‌های پلاستیکی.


سوالات متداول در مورد خود عبارت ❓

  • آیا «مجموعه داده هوش مصنوعی چیست؟» فقط یک تعریف است؟ عمدتاً، اما همچنین نشانه‌ای است که شما به بخش‌های خسته‌کننده‌ای که مدل‌ها را قابل اعتماد می‌کنند، اهمیت می‌دهید.

  • آیا همیشه به برچسب‌ها نیاز دارم؟ خیر. تنظیمات بدون نظارت، خودنظارتی و RL اغلب از برچسب‌های صریح صرف نظر می‌کنند، اما گردآوری داده‌ها همچنان مهم است.

  • آیا می‌توانم از داده‌های عمومی برای هر کاری استفاده کنم؟ خیر. به مجوزها، شرایط پلتفرم و تعهدات مربوط به حریم خصوصی احترام بگذارید [4].

  • بزرگتر یا بهتر؟ در حالت ایده‌آل، هر دو. اگر مجبور به انتخاب هستید، اول بهتر را انتخاب کنید.


سخنان پایانی - از چه چیزهایی می‌توانید اسکرین شات بگیرید 📌

اگر کسی از شما بپرسد مجموعه داده هوش مصنوعی چیست ، بگویید: مجموعه‌ای از مثال‌های گردآوری‌شده و مستند است که یک مدل را آموزش داده و آزمایش می‌کند و در چارچوبی از مدیریت قرار گرفته تا مردم بتوانند به نتایج آن اعتماد کنند. بهترین مجموعه داده‌ها، نمونه‌هایی هستند که نماینده، دارای برچسب‌گذاری خوب، از نظر قانونی بی‌عیب و نقص و به‌طور مداوم نگهداری می‌شوند. بقیه جزئیات هستند - جزئیات مهم - در مورد ساختار، تقسیم‌بندی‌ها و تمام آن نرده‌های کوچکی که مانع از سرگردانی مدل‌ها در ترافیک می‌شوند. گاهی اوقات این فرآیند مانند باغبانی با صفحات گسترده است؛ گاهی اوقات مانند جمع‌آوری پیکسل‌ها. در هر صورت، روی داده‌ها سرمایه‌گذاری کنید و مدل‌های شما کمتر عجیب و غریب عمل خواهند کرد. 🌱🤖


منابع

[1] برگه‌های داده برای مجموعه داده‌ها - Gebru و همکاران، arXiv. لینک
[2] کارت‌های مدل برای گزارش مدل - Mitchell و همکاران، arXiv. لینک
[3] چارچوب مدیریت ریسک هوش مصنوعی NIST (AI RMF 1.0) . لینک
[4] راهنمایی و منابع GDPR بریتانیا - دفتر کمیسر اطلاعات (ICO). لینک
[5] اعتبارسنجی متقابل: ارزیابی عملکرد تخمین‌گر - راهنمای کاربر scikit-learn. لینک


جدیدترین هوش مصنوعی را در فروشگاه رسمی دستیار هوش مصنوعی پیدا کنید

درباره ما

بازگشت به وبلاگ