هوش مصنوعی از کجا اطلاعات می‌گیرد؟

هوش مصنوعی اطلاعات خود را از کجا می‌آورد؟

تا حالا شده بشینی و سرت رو بخارونی، مثلاً... این چیزا واقعاً از کجا میان ؟ منظورم اینه که هوش مصنوعی توی قفسه‌های خاک‌گرفته‌ی کتابخونه‌ها نمی‌چرخه یا یواشکی ویدیوهای کوتاه یوتیوب رو تماشا نمی‌کنه. با این حال، به نحوی جواب همه چیز رو پیدا می‌کنه - از ترفندهای لازانیا گرفته تا فیزیک سیاه‌چاله - انگار یه کمد بایگانی بی‌انتها توی خودش داره. واقعیت عجیب‌تر و شاید جذاب‌تر از چیزیه که حدس می‌زنی. بیایید کمی بازش کنیم (و بله، شاید در این مسیر چند تا افسانه رو هم کنار بذاریم).


آیا این جادوگری است؟ 🌐

این جادو نیست، هرچند گاهی اوقات اینطور به نظر می‌رسد. آنچه در پشت صحنه اتفاق می‌افتد، اساساً پیش‌بینی الگو حقایق را مانند مغز شما که دستور پخت کوکی مادربزرگتان را نگه می‌دارد، ذخیره نمی‌کنند ؛ در عوض، آنها آموزش دیده‌اند که کلمه بعدی (توکن) را بر اساس آنچه قبل از آن آمده است حدس بزنند [2]. در عمل، این بدان معناست که آنها به روابط می‌چسبند: کدام کلمات با هم جور در می‌آیند، جملات معمولاً چگونه شکل می‌گیرند، چگونه ایده‌های کامل مانند داربست ساخته می‌شوند. به همین دلیل است که خروجی به نظر می‌رسد ، هرچند - با صداقت کامل - این تقلید آماری است، نه درک مطلب [4].

بنابراین چه چیزی واقعاً اطلاعات تولید شده توسط هوش مصنوعی را مفید ؟ چند نکته:

  • تنوع داده‌ها - استخراج داده‌ها از منابع بی‌شمار، نه از یک جریان محدود.

  • به‌روزرسانی‌ها - بدون چرخه‌های به‌روزرسانی، به سرعت قدیمی می‌شود.

  • فیلتر کردن - در حالت ایده‌آل، گرفتن آشغال‌ها قبل از اینکه به داخل نفوذ کنند (البته، بیایید واقع‌بین باشیم، آن تور سوراخ‌هایی دارد).

  • بررسی متقابل - تکیه بر منابع معتبر (مثل ناسا، سازمان بهداشت جهانی، دانشگاه‌های بزرگ)، که در اکثر کتاب‌های راهنمای مدیریت هوش مصنوعی ضروری است [3].

با این حال، گاهی اوقات با اطمینان خاطر دروغ می‌گوید. آن به اصطلاح توهمات ؟ اساساً مزخرفات آراسته‌ای که با قیافه‌ای جدی بیان می‌شوند [2][3].

مقالاتی که شاید بعد از این مطلب دوست داشته باشید بخوانید:

🔗 آیا هوش مصنوعی می‌تواند اعداد لاتاری را پیش‌بینی کند؟
بررسی افسانه‌ها و حقایق مربوط به پیش‌بینی‌های قرعه‌کشی هوش مصنوعی.

🔗 منظور از رویکرد جامع به هوش مصنوعی چیست؟
درک هوش مصنوعی با دیدگاه‌های متعادل در مورد اخلاق و تأثیر

🔗 کتاب مقدس درباره هوش مصنوعی چه می‌گوید؟
بررسی دیدگاه‌های کتاب مقدس در مورد فناوری و خلقت انسان.


مقایسه سریع: هوش مصنوعی از کجا می‌آید 📊

همه منابع یکسان نیستند، اما هر کدام نقش خود را ایفا می‌کنند. در اینجا یک نمای کلی از آن آورده شده است.

نوع منبع چه کسی از آن استفاده می‌کند (هوش مصنوعی) هزینه/ارزش چرا کار می‌کند (یا نمی‌کند...)
کتاب‌ها و مقالات مدل‌های زبانی بزرگ بی‌قیمت (یا: تقریباً بی‌قیمت) دانش متراکم و ساختاریافته - فقط زود کهنه می‌شود.
وب‌سایت‌ها و وبلاگ‌ها تقریباً همه هوش مصنوعی‌ها رایگان (با سر و صدا) گونه وحشی؛ ترکیبی از درخشندگی و آشغال مطلق.
مقالات دانشگاهی هوش مصنوعی‌های سنگین تحقیقاتی گاهی اوقات پرداخت می‌شود دقت + اعتبار، اما در لفافه با اصطلاحات تخصصی سنگین.
داده‌های کاربر هوش مصنوعی شخصی‌سازی‌شده بسیار حساس⚠️ دوخت و دوز دقیقی داره، اما دردسرهای مربوط به حریم خصوصی خیلی زیاده.
وب بلادرنگ هوش مصنوعی‌های مرتبط با جستجو رایگان (در صورت آنلاین بودن) اطلاعات را به‌روز نگه می‌دارد؛ نکته منفی آن خطر تقویت شایعه است.

دنیای داده‌های آموزشی 🌌

این مرحله «یادگیری دوران کودکی» است. تصور کنید که میلیون‌ها کتاب داستان، بریده‌های اخبار و مطالب عجیب و غریب ویکی‌پدیا را به طور همزمان به یک کودک بدهید. پیش‌آموزش به این شکل است. در دنیای واقعی، ارائه‌دهندگان، داده‌های در دسترس عموم، منابع دارای مجوز و متن تولید شده توسط مربی را [2].

لایه‌های رویی: نمونه‌های انسانی گلچین‌شده - پاسخ‌های خوب، پاسخ‌های بد، تلنگرهایی در جهت درست - قبل از اینکه حتی تقویت شروع شود [1].

هشدار شفافیت: شرکت‌ها تمام جزئیات را فاش نمی‌کنند. برخی از موارد امنیتی محرمانه هستند (IP، نگرانی‌های ایمنی)، بنابراین شما فقط بخشی از جزئیات را می‌بینید [2].


جستجوی همزمان: چاشنی اضافی 🍒

برخی از مدل‌ها اکنون می‌توانند به بیرون از حباب آموزشی خود نگاه کنند. این نسل بازیابی-تقویت‌شده (RAG) - اساساً بخش‌هایی از یک فهرست یا مخزن اسناد زنده را بیرون می‌کشد و سپس آن را در پاسخ قرار می‌دهد [5]. برای مواردی که به سرعت در حال تغییر هستند مانند عناوین خبری یا قیمت سهام، ایده‌آل است.

مشکل؟ اینترنت ترکیبی از نبوغ و زباله است. اگر فیلترها یا بررسی‌های منشأ ضعیف باشند، خطر بازگشت داده‌های ناخواسته وجود دارد - دقیقاً همان چیزی که چارچوب‌های ریسک در مورد آن هشدار می‌دهند [3].

یک راه حل رایج: شرکت‌ها مدل‌ها را به خود ، بنابراین پاسخ‌ها به جای اینکه به سیاست منابع انسانی فعلی یا سند محصول به‌روز شده استناد کنند، به آن استناد می‌کنند. به این فکر کنید: لحظات «اوه اوه» کمتر، پاسخ‌های قابل اعتمادتر.


تنظیم دقیق: مرحله‌ی اصلاح هوش مصنوعی 🧪

مدل‌های خام از پیش آموزش‌دیده، دست و پاگیر هستند. بنابراین، آن‌ها را به دقت تنظیم :

  • مفید، بی‌ضرر و صادق باشند (از طریق یادگیری تقویتی از بازخورد انسانی، RLHF) [1].

  • سنباده زدن لبه‌های ناامن یا سمی (هم‌ترازی) [1].

  • تنظیم لحن - چه دوستانه، رسمی یا طعنه‌آمیز و شوخی‌آمیز باشد.

این کار صیقل دادن یک الماس نیست، بلکه بیشتر شبیه به مهار کردن یک بهمن آماری است تا بیشتر شبیه یک شریک گفتگو رفتار کند.


شکست‌ها و ناکامی‌ها 🚧

وانمود نکنیم که بی‌عیب و نقص است:

  • توهمات - پاسخ‌های واضح و کاملاً اشتباه [2][3].

  • سوگیری - الگوهای موجود در داده‌ها را منعکس می‌کند؛ حتی اگر کنترل نشود می‌تواند آنها را تقویت کند [3][4].

  • هیچ تجربه دست اولی ندارد - می‌تواند صحبت کند اما هرگز آن را نچشیده است [4].

  • اعتماد به نفس بیش از حد - نثر طوری جریان می‌یابد که انگار می‌داند، حتی وقتی که نمی‌داند. چارچوب‌های ریسک بر فرضیات ضعیف تأکید دارند [3].


چرا حس دانستن به آدم دست می‌دهد 🧠

هیچ باوری ندارد، هیچ حافظه‌ای به معنای انسانی آن ندارد، و مطمئناً هیچ «خودی» هم ندارد. با این حال، چون جملات را به نرمی کنار هم قرار می‌دهد، مغز شما آن را طوری می‌خواند که انگار می‌فهمد . آنچه اتفاق می‌افتد فقط پیش‌بینی نشانه بعدی در مقیاس بزرگ : خرد کردن تریلیون‌ها احتمال در کسری از ثانیه [2].

حس «هوش» همان رفتار نوظهور است - محققان آن را، با کمی کنایه، «اثر طوطی تصادفی» [4].


قیاس مناسب کودکان 🎨

طوطی‌ای را تصور کنید که تمام کتاب‌های کتابخانه را خوانده است. داستان‌ها را نمی‌فهمد، اما می‌تواند کلمات را با هم ترکیب کند و چیزی بسازد که به نظر عاقلانه بیاید. گاهی اوقات درست و حسابی است؛ گاهی اوقات بی‌معنی - اما با هوش کافی، همیشه نمی‌توانید تفاوت را تشخیص دهید.


جمع‌بندی: اطلاعات هوش مصنوعی از کجا می‌آید 📌

به عبارت ساده:

  • داده‌های آموزشی انبوه (عمومی + دارای مجوز + تولید شده توسط مربی) [2].

  • تنظیم دقیق با بازخورد انسانی برای شکل‌دهی به لحن/رفتار [1].

  • سیستم‌های بازیابی هنگام اتصال به جریان‌های داده زنده [5].

هوش مصنوعی چیزی را «نمی‌داند» - متن را پیش‌بینی می‌کند . این هم قدرت فوق‌العاده و هم نقطه ضعف آن است. در نهایت؟ همیشه مطالب مهم را با یک منبع معتبر [3] مقایسه کنید.


منابع

  1. اویانگ، ل. و همکاران (2022). آموزش مدل‌های زبانی برای پیروی از دستورالعمل‌ها با بازخورد انسانی (InstructGPT) . arXiv .

  2. OpenAI (2023). گزارش فنی GPT-4 - ترکیبی از داده‌های دارای مجوز، عمومی و ایجاد شده توسط انسان؛ هدف و محدودیت‌های پیش‌بینی توکن بعدی. arXiv .

  3. NIST (2023). چارچوب مدیریت ریسک هوش مصنوعی (AI RMF 1.0) - منشأ، قابلیت اعتماد و کنترل‌های ریسک. PDF .

  4. بندر، ای‌ام، گبرو، تی.، مک‌میلان-ماژور، ای.، میچل، اس. (۲۰۲۱). درباره خطرات طوطی‌های تصادفی: آیا مدل‌های زبانی می‌توانند خیلی بزرگ باشند؟ پی‌دی‌اف .

  5. لوئیس، پی. و همکاران. (۲۰۲۰). تولید افزوده بازیابی برای پردازش زبان طبیعی دانش‌محور . arXiv .


جدیدترین هوش مصنوعی را در فروشگاه رسمی دستیار هوش مصنوعی پیدا کنید

درباره ما

بازگشت به وبلاگ