هوش مصنوعی گاهی اوقات تقریباً شبیه یک شعبدهبازی به نظر میرسد. شما یک سؤال تصادفی تایپ میکنید و ناگهان - یک پاسخ روان و مرتب در عرض چند ثانیه ظاهر میشود. اما نکته اینجاست: پشت هر ماشین «نابغه»، افراد واقعی هستند که آن را هدایت، اصلاح و در طول مسیر شکل میدهند. به این افراد مربیان هوش مصنوعی و کاری که انجام میدهند عجیبتر، خندهدارتر و صادقانه بگویم انسانیتر از آن چیزی است که اکثر مردم تصور میکنند.
بیایید بررسی کنیم که چرا این مربیان اهمیت دارند، کارهای روزمره آنها چگونه است و چرا این نقش سریعتر از آنچه پیشبینی میشد، در حال گسترش است.
مقالاتی که شاید بعد از این مطلب دوست داشته باشید بخوانید:
🔗 آربیتراژ هوش مصنوعی چیست: حقیقت پشت این اصطلاح رایج
آربیتراژ هوش مصنوعی، خطرات، مزایا و تصورات غلط رایج در مورد آن را توضیح میدهد.
🔗 الزامات ذخیرهسازی دادهها برای هوش مصنوعی: آنچه واقعاً باید بدانید
نیازهای ذخیرهسازی، مقیاسپذیری و کارایی سیستمهای هوش مصنوعی را پوشش میدهد.
🔗 پدر هوش مصنوعی کیست؟
پیشگامان هوش مصنوعی و ریشههای هوش مصنوعی را بررسی میکند.
چه چیزی یک مربی هوش مصنوعی خوب را میسازد؟ 🏆
این یک کار طاقتفرسا نیست. بهترین مربیان به ترکیبی عجیب از استعدادها متکی هستند:
-
صبر (به مقدار زیاد) - مدلها در یک مرحله یاد نمیگیرند. مربیان آنقدر اصلاحات یکسان را تکرار میکنند تا بالاخره نتیجه بگیرند.
-
تشخیص نکات ظریف - تشخیص طعنه، زمینه فرهنگی یا تعصب چیزی است که به بازخورد انسانی برتری میبخشد [1].
-
ارتباط مستقیم - نیمی از کار نوشتن دستورالعملهای واضحی است که هوش مصنوعی نتواند آنها را اشتباه بخواند.
-
کنجکاوی + اخلاق - یک مربی خوب این سوال را مطرح میکند که آیا یک پاسخ «از نظر واقعی درست» است اما از نظر اجتماعی فاقد درک متقابل است یا خیر - موضوعی اصلی در نظارت بر هوش مصنوعی [2].
به عبارت ساده: یک مربی بخشی معلم، بخشی ویراستار و کمی هم اخلاقگرا است.
نگاهی اجمالی به نقشهای مربی هوش مصنوعی (با برخی تفاوتها 😉)
| نوع نقش | چه کسی مناسبتر است؟ | پرداخت معمولی | چرا کار میکند (یا نمیکند) |
|---|---|---|---|
| برچسبگذار داده | افرادی که عاشق جزئیات ظریف هستند | کم تا متوسط $$ | کاملاً حیاتی؛ اگر برچسبها نامرتب باشند، کل مدل آسیب میبیند [3] 📊 |
| متخصص RLHF | نویسندگان، ویراستاران، تحلیلگران | متوسط-بالا $$ | پاسخها را رتبهبندی و بازنویسی میکند تا لحن و وضوح آنها با انتظارات انسانی همسو باشد [1] |
| مربی دامنه | وکلا، پزشکان، کارشناسان | در سراسر نقشه 💼 | اصطلاحات تخصصی و موارد حاشیهای را برای سیستمهای خاص صنعت مدیریت میکند |
| بازرس ایمنی | افراد اخلاقمدار | متوسط $$ | دستورالعملهایی را اعمال میکند تا هوش مصنوعی از محتوای مضر جلوگیری کند [2][5] |
| مربی خلاق | هنرمندان، قصهگوها | غیرقابل پیشبینی💡 | به هوش مصنوعی کمک میکند تا تخیل را منعکس کند و در عین حال در محدودههای امن باقی بماند [5] |
(بله، قالببندی کمی بههمریخته است - تقریباً مثل خود کار.)
یک روز از زندگی یک مربی هوش مصنوعی
خب، کار واقعی چه شکلی است؟ به جای کدنویسی پر زرق و برق، به چیزهای بیشتری فکر کنید:
-
رتبهبندی پاسخهای نوشتهشده توسط هوش مصنوعی از بدترین به بهترین (مرحله کلاسیک RLHF) [1].
-
رفع اشتباهات (مثلاً وقتی مدل فراموش میکند که زهره، مریخ نیست).
-
پاسخهای چتبات را بازنویسی کنید تا طبیعیتر به نظر برسند.
-
برچسبگذاری انبوهی از متن، تصویر یا صدا - جایی که دقت واقعاً اهمیت دارد [3].
-
بحث در مورد اینکه آیا «صحت فنی» کافی است یا اینکه دستورالعملهای ایمنی باید نادیده گرفته شوند [2].
این کار تا حدی طاقتفرسا و تا حدی معماگونه است. راستش را بخواهید، تصور کنید که به یک طوطی نه تنها حرف زدن، بلکه دست برداشتن از کلمات کمی اشتباه را هم یاد بدهید - این حس و حالش را دارد. 🦜
چرا مربیان ورزشی خیلی بیشتر از آنچه فکر میکنید اهمیت دارند؟
بدون هدایت انسان، هوش مصنوعی:
-
صدایی خشک و رباتیک.
-
تعصب را بدون کنترل گسترش دهید (فکر ترسناک).
-
کاملاً دلتنگ طنز یا همدلی هستم.
-
در زمینههای حساس، امنیت کمتری داشته باشید.
مربیان کسانی هستند که «چیزهای انسانیِ بههمریخته» - اصطلاحات عامیانه، گرمی، و گاهی اوقات استعارههای دستوپاگیر - را دزدکی وارد میکنند، در حالی که برای ایمن نگه داشتن چیزها، نردههای محافظ نیز نصب میکنند [2][5].
مهارتهایی که واقعاً مهم هستند
این افسانه که به دکترا نیاز دارید را فراموش کنید. چیزی که بیشترین کمک را میکند این است:
-
نگارش + ویرایش - متنی شسته رفته اما با صدایی طبیعی [1].
-
تفکر تحلیلی - تشخیص اشتباهات مکرر مدل و اصلاح آنها.
-
آگاهی فرهنگی - دانستن اینکه چه زمانی ممکن است عبارتبندی اشتباه باشد [2].
-
صبر - زیرا هوش مصنوعی فوراً متوجه نمیشود.
امتیاز اضافی برای مهارتهای چندزبانه یا تخصص در حوزههای تخصصی.
جایی که مربیان حضور دارند 🌍
این شغل فقط مربوط به چتباتها نیست - بلکه به هر بخشی نفوذ کرده است:
-
مراقبتهای بهداشتی - نوشتن قوانین حاشیهنویسی برای موارد مرزی (که در راهنمای هوش مصنوعی سلامت نیز تکرار شده است) [2].
-
امور مالی - آموزش سیستمهای تشخیص تقلب بدون غرق کردن مردم در هشدارهای کاذب [2].
-
خردهفروشی - آموزش دستیاران برای یادگیری اصطلاحات رایج خریداران در عین پایبندی به لحن برند [5].
-
آموزش - شکلدهی رباتهای آموزشی به گونهای که به جای رفتار آمرانه، مشوق باشند [5].
اساساً: اگر هوش مصنوعی جایی در جدول داشته باشد، یک مربی در پس زمینه پنهان شده است.
بخش اخلاق (از این قسمت نمیشه گذشت)
اینجاست که مسئله اهمیت پیدا میکند. اگر هوش مصنوعی کنترل نشود، کلیشهها، اطلاعات نادرست یا بدتر از آن را تکرار میکند. مربیان با استفاده از روشهایی مانند RLHF یا قوانین اساسی که مدلها را به سمت پاسخهای مفید و بیضرر هدایت میکنند، جلوی این کار را میگیرند [1][5].
مثال: اگر یک ربات توصیههای شغلی جانبدارانهای ارائه دهد، مربی آن را علامتگذاری میکند، آییننامه را بازنویسی میکند و مطمئن میشود که دیگر این اتفاق نیفتد. این همان نظارت در عمل است [2].
جنبه نه چندان سرگرمکننده
همه چیز هم خوب و جذاب نیست. مربیان با موارد زیر سر و کار دارند:
-
یکنواختی - برچسب زدنهای بیپایان، قدیمی میشود.
-
خستگی عاطفی - مرور محتوای مضر یا آزاردهنده میتواند آسیبزا باشد؛ سیستمهای پشتیبانی بسیار مهم هستند [4].
-
عدم شناخت - کاربران به ندرت متوجه وجود کفشهای ورزشی میشوند.
-
تغییر مداوم - ابزارها بدون توقف تکامل مییابند، به این معنی که مربیان باید همگام با آنها پیش بروند.
با این حال، برای بسیاری، هیجان شکل دادن به «مغزهای» فناوری، آنها را مجذوب خود نگه میدارد.
MVP های پنهان هوش مصنوعی
خب، مربیان هوش مصنوعی چه کسانی هستند؟ آنها پل ارتباطی بین الگوریتمهای خام و سیستمهایی هستند که واقعاً کار میکنند . بدون آنها، هوش مصنوعی مانند کتابخانهای بدون کتابدار خواهد بود - انبوهی از اطلاعات، اما تقریباً غیرممکن برای استفاده.
دفعهی بعدی که یک چتبات شما را به خنده میاندازد یا به طرز شگفتآوری شما را «با حال» میکند، از یک مربی تشکر کنید. آنها موجودات بیسروصدایی هستند که ماشینها را نه تنها به محاسبه، بلکه به ارتباط [1][2][5] وادار میکنند.
منابع
[1] اویانگ، ل. و همکاران (2022). آموزش مدلهای زبانی برای پیروی از دستورالعملها با بازخورد انسانی (InstructGPT). NeurIPS. لینک
[2] NIST (2023). چارچوب مدیریت ریسک هوش مصنوعی (AI RMF 1.0). لینک
[3] نورثکات، سی. و همکاران. (2021). خطاهای برچسبگذاری فراگیر در مجموعههای آزمایشی، معیارهای یادگیری ماشین را بیثبات میکنند. مجموعه دادهها و معیارهای NeurIPS. لینک
[4] سازمان بهداشت جهانی/سازمان بینالمللی کار (2022). دستورالعملهای مربوط به سلامت روان در محل کار. لینک
[5] بای، وای. و همکاران (2022). هوش مصنوعی قانون اساسی: بیضرری از بازخورد هوش مصنوعی. arXiv. لینک