چگونه آشکارسازهای هوش مصنوعی میتوانند در فرآیند نوشتن به من کمک کنند؟

آشکارسازهای هوش مصنوعی میتوانند بینشهایی در مورد میزان شباهت نوشته شما به الگوهای معمول متن تولید شده توسط هوش مصنوعی ارائه دهند. این میتواند به شما کمک کند سبک نوشتاری خود را اصلاح کنید، از قالبها اجتناب کنید و مطمئن شوید که اثر شما منعکس کننده اصالت نویسندگی است.

در مورد تشخیصهای کاذب با آشکارسازهای هوش مصنوعی، باید از چه مواردی آگاه باشم؟

نتایج مثبت کاذب میتوانند زمانی رخ دهند که نوشتههای رسمی یا فنی، انگلیسی غیربومی یا متون بیش از حد تمیز به عنوان متونی شبیه هوش مصنوعی علامتگذاری شوند. مهم است که امتیاز یک آشکارساز را به عنوان سیگنالی برای بررسی در نظر بگیرید، نه یک نتیجهگیری قطعی.

آیا سبکهای نوشتاری خاصی وجود دارد که آشکارسازهای هوش مصنوعی با آنها مشکل دارند؟

بله، تشخیصدهندگان هوش مصنوعی اغلب با نوشتههای بسیار رسمی، فنی یا مبتنی بر الگو مشکل دارند، زیرا این سبکها میتوانند از نظر آماری شبیه به محتوای تولید شده توسط هوش مصنوعی باشند. تنوع در سبکهای نوشتاری میتواند منجر به ارزیابیهای نادرست شود.

چه چیزی یک آشکارساز هوش مصنوعی را قابل اعتماد میکند؟

یک تشخیصدهندهی هوش مصنوعی قابل اعتماد، موارد مثبت کاذب را به حداقل میرساند، توضیحات روشنی برای نمرات خود ارائه میدهد و شفافیت را نشان میدهد. این تشخیصدهنده باید نتایج ثابتی را در ژانرهای مختلف نوشتاری ارائه دهد و حتی با ویرایشهای انسانی متن، همچنان مؤثر باقی بماند.

چگونه میتوانم امتیازهای مختلف آشکارساز هوش مصنوعی را تفسیر کنم؟

نمرات باید به عنوان سیگنالهای خطر در نظر گرفته شوند، نه قضاوتهای قطعی. نمرات پایینتر معمولاً نشان دهندهی نوشتاری شبیه به انسان هستند، در حالی که نمرات بالاتر الگوهایی شبیه به هوش مصنوعی را نشان میدهند. نمرات متوسط میتوانند مبهم باشند، بنابراین زمینهی بیشتری را در نظر بگیرید.

آیا میتوانم برای ارزیابیهای حساس به آشکارسازهای هوش مصنوعی اعتماد کنم؟

اگرچه آشکارسازهای هوش مصنوعی میتوانند بینشهای مفیدی ارائه دهند، اما بینقص نیستند و نباید صرفاً برای ارزیابیهای حساس به آنها تکیه کرد. ضروری است که یافتههای آنها را با قضاوت خود و بررسی بیشتر محتوا ترکیب کنید.

چگونه درک تشخیص هوش مصنوعی، نوشتار من را بهبود میبخشد؟

با درک تشخیص هوش مصنوعی، میتوانید بر ایجاد محتوای معتبرتر و متنوعتر تمرکز کنید. این آگاهی به شما کمک میکند تا از اشتباهات رایجی که میتواند منجر به تفسیر نادرست توسط ابزارهای تشخیص شود، اجتناب کنید و در نهایت کیفیت نوشتاری خود را افزایش دهید.

آشکارسازهای هوش مصنوعی چگونه کار می‌کنند؟ [ویدئو و آزمون]

پاسخ کوتاه: آشکارسازهای هوش مصنوعی «ثابت نمی‌کنند» که چه کسی چیزی را نوشته است؛ آنها تخمین می‌زنند که یک متن چقدر با الگوهای مدل زبانی آشنا مطابقت دارد. اکثر آنها به ترکیبی از طبقه‌بندی‌کننده‌ها، سیگنال‌های پیش‌بینی‌پذیری (پیچیدگی/انفجار)، سبک‌سنجی و در موارد نادرتر، بررسی واترمارک متکی هستند. وقتی نمونه کوتاه، بسیار رسمی، فنی یا توسط یک نویسنده ESL نوشته شده است، نمره را به عنوان نشانه ای برای بررسی در نظر بگیرید - نه یک حکم.

نکات کلیدی:

احتمال، نه اثبات: درصدها را به عنوان سیگنال‌های ریسک «شباهت به هوش مصنوعی» در نظر بگیرید، نه قطعیت.

نکات مثبت کاذب: نوشته‌های رسمی، فنی، قالبی یا غیربومی اغلب اشتباه علامت‌گذاری می‌شوند.

ترکیب روش‌ها: ابزارها، طبقه‌بندی‌کننده‌ها، پیچیدگی/شکاف، سبک‌سنجی و بررسی‌های غیرمعمول واترمارک را ترکیب می‌کنند.

شفافیت: آشکارسازهایی را ترجیح می‌دهند که سطح آنها شامل گستره‌ها، ویژگی‌ها و عدم قطعیت باشد - نه فقط یک عدد واحد.

قابلیت اعتراض: پیش‌نویس‌ها/یادداشت‌ها و شواهد مربوط به فرآیند را برای اختلافات و تجدیدنظرخواهی‌ها آماده نگه دارید.

اینفوگرافیک: آشکارسازهای هوش مصنوعی چگونه کار می‌کنند؟

مقالاتی که شاید بعد از این مطلب دوست داشته باشید بخوانید:

🔗 بهترین آشکارساز هوش مصنوعی چیست؟
ابزارهای برتر تشخیص هوش مصنوعی از نظر دقت، ویژگی‌ها و موارد استفاده مقایسه شده‌اند.

🔗 آیا آشکارسازهای هوش مصنوعی قابل اعتماد هستند؟
قابلیت اطمینان، نتایج مثبت کاذب و دلیل تفاوت اغلب نتایج را توضیح می‌دهد.

🔗 آیا ترنیتین می‌تواند هوش مصنوعی را تشخیص دهد؟
راهنمای کامل برای تشخیص، محدودیت‌ها و بهترین شیوه‌های هوش مصنوعی Turnitin.

🔗 آیا تشخیص‌دهنده هوش مصنوعی QuillBot دقیق است؟
بررسی دقیق دقت، نقاط قوت، نقاط ضعف و آزمایش‌های دنیای واقعی.

۱) ایده سریع - یک آشکارساز هوش مصنوعی واقعاً چه کاری انجام می‌دهد ⚙️

بیشتر آشکارسازهای هوش مصنوعی، هوش مصنوعی را مانند توری که ماهی را می‌گیرد، «صید نمی‌کنند». آنها کاری کسل‌کننده‌تر انجام می‌دهند:

آنها احتمال اینکه یک تکه متن طوری به نظر برسد که انگار از یک مدل زبانی آمده است (یا به شدت توسط آن پشتیبانی شده است) را تخمین می‌زنند. (بررسی تشخیص متن تولید شده توسط LLM؛ OpenAI)
آنها متن شما را با الگوهای مشاهده شده در داده‌های آموزشی (نوشته‌های انسانی در مقابل نوشته‌های تولید شده توسط مدل) مقایسه می‌کنند. (بررسی تشخیص متن تولید شده توسط LLM)
آنها امتیازی (اغلب درصد) ارائه می‌دهند که قطعی به نظر می‌رسد... اما معمولاً اینطور نیست. (راهنمای ترنیتین)

بیایید صادق باشیم - رابط کاربری چیزی شبیه به «۹۲٪ هوش مصنوعی» می‌گوید و مغز شما می‌گوید «خب، حدس می‌زنم این یک واقعیت است». این یک واقعیت نیست. این حدس یک مدل در مورد اثر انگشت مدل دیگر است. که کمی خنده‌دار است، مثل اینکه سگ‌ها سگ‌ها را بو بکشند 🐕🐕

۲) نحوه کار آشکارسازهای هوش مصنوعی: رایج‌ترین «موتورهای تشخیص» 🔍

آشکارسازها معمولاً از یکی (یا ترکیبی) از این رویکردها استفاده می‌کنند: (بررسی تشخیص متن تولید شده توسط LLM)

الف) مدل‌های طبقه‌بندی‌کننده (رایج‌ترین)

یک طبقه‌بندی‌کننده روی نمونه‌های برچسب‌گذاری‌شده آموزش داده می‌شود:

نمونه‌های نوشته‌شده توسط انسان
نمونه‌های تولید شده توسط هوش مصنوعی
گاهی اوقات نمونه‌های «ترکیبی» (متن هوش مصنوعی ویرایش‌شده توسط انسان)

سپس الگوهایی را یاد می‌گیرد که گروه‌ها را از هم جدا می‌کند. این رویکرد کلاسیک یادگیری ماشین است و می‌تواند به طرز شگفت‌آوری مناسب باشد... تا زمانی که دیگر مناسب نباشد. (بررسی تشخیص متن تولید شده توسط LLM)

ب) امتیازدهی به سرگشتگی و «انفجار» 📈

برخی از آشکارسازها محاسبه می‌کنند که متن چقدر «قابل پیش‌بینی» است.

سرگشتگی: تقریباً، میزان تعجب یک مدل زبانی از کلمه بعدی. (دانشگاه بوستون - پست‌های سرگشتگی)
سردرگمی کمتر می‌تواند نشان دهد که متن بسیار قابل پیش‌بینی است (که می‌تواند در خروجی‌های هوش مصنوعی اتفاق بیفتد). (DetectGPT)
«انفجار» سعی دارد میزان تنوع در پیچیدگی و ریتم جمله را اندازه‌گیری کند. (GPTZero)

این رویکرد ساده و سریع است. همچنین به راحتی می‌توان آن را گیج کرد، زیرا انسان‌ها هم می‌توانند به طور قابل پیش‌بینی بنویسند (سلام ایمیل‌های شرکتی). (OpenAI)

ج) استایلومتری (انگشت نگاری نوشتاری) ✍️

استایلومتری به الگوهایی مانند موارد زیر نگاه می‌کند:

میانگین طول جمله
سبک نقطه گذاری
فراوانی کلمات تابعی (the، and، but…)
تنوع واژگان
نمرات خوانایی

مثل «تحلیل دستخط» است، البته برای متن. گاهی اوقات مفید است. گاهی اوقات مثل تشخیص سرماخوردگی با نگاه کردن به کفش‌های کسی است. (استایلومتری و علوم جنایی: مروری بر ادبیات؛ کلمات کلیدی در انتساب نویسندگی)

د) تشخیص واترمارک (در صورت وجود) 🧩

برخی از ارائه‌دهندگان مدل می‌توانند الگوهای ظریفی ("علامت‌های آبی") را در متن تولید شده جاسازی کنند. اگر یک آشکارساز طرح علامت آبی را بداند، می‌تواند برای تأیید آن تلاش کند. (علامت آبی برای مدل‌های زبان بزرگ؛ SynthID Text)

اما... همه مدل‌ها واترمارک ندارند، همه خروجی‌ها پس از ویرایش واترمارک را حفظ نمی‌کنند و همه آشکارسازها به راز دسترسی ندارند. بنابراین این یک راه حل جهانی نیست. (درباره قابلیت اطمینان واترمارک‌ها برای مدل‌های زبانی بزرگ؛ OpenAI)

۳) چه چیزی یک نسخه خوب از یک آشکارساز هوش مصنوعی را می‌سازد؟

یک آشکارساز «خوب» (طبق تجربه من که تعدادی از آنها را در کنار هم برای کارهای ویرایشی آزمایش کرده‌ام) آن آشکارسازی نیست که بیشترین فریاد را می‌زند. بلکه آن آشکارسازی است که مسئولانه رفتار می‌کند.

در اینجا به مواردی که یک آشکارساز هوش مصنوعی را قدرتمند می‌کند، اشاره می‌کنیم:

اطمینان کالیبره شده: ۷۰٪ باید به معنای چیزی ثابت باشد، نه یک پیش‌بینی. (بررسی تشخیص متن تولید شده توسط LLM)
درصد خطای پایین: نباید متون غیربومی انگلیسی، متون حقوقی یا راهنماهای فنی را صرفاً به دلیل تمیز بودن، به عنوان «هوش مصنوعی» علامت‌گذاری کند. (Stanford HAI; Liang et al. (arXiv))
محدودیت‌های شفاف: باید عدم قطعیت را بپذیرد و محدوده‌ها را نشان دهد، نه اینکه وانمود کند دانای کل است. (OpenAI؛ Turnitin)
آگاهی از دامنه: تشخیص‌دهنده‌هایی که در وبلاگ‌های معمولی آموزش دیده‌اند، اغلب در تشخیص متون دانشگاهی مشکل دارند و برعکس. (بررسی تشخیص متن تولید شده توسط LLM)
مدیریت متن کوتاه: ابزارهای خوب از نمرات بیش از حد مطمئن در نمونه‌های کوچک جلوگیری می‌کنند (یک پاراگراف به معنای کل جهان نیست). (OpenAI؛ Turnitin)
حساسیت به ویرایش: باید ویرایش انسانی را بدون اینکه فوراً به نتایج بی‌معنی تبدیل شود، مدیریت کند. (بررسی تشخیص متن تولید شده توسط LLM)

بهترین‌هایی که دیده‌ام معمولاً کمی فروتن هستند. بدترین‌ها طوری رفتار می‌کنند که انگار ذهن دیگران را می‌خوانند 😬

۴) جدول مقایسه - «انواع» رایج آشکارسازهای هوش مصنوعی و نقاط قوت آنها 🧾

در زیر یک مقایسه عملی آورده شده است. اینها نام‌های تجاری نیستند - اینها دسته‌های اصلی هستند که با آنها مواجه خواهید شد. (بررسی تشخیص متن تولید شده توسط LLM)

نوع ابزار (معمولی)	بهترین مخاطب	حس قیمت	چرا کار می‌کند (گاهی اوقات)
جستجوگر سرگشتگی آرشیو	معلمان، بررسی‌های سریع	رایگان	سیگنال سریع در مورد پیش‌بینی‌پذیری - اما می‌تواند جهنده باشد..
اسکنر طبقه بندی حرفه ای	ویراستاران، منابع انسانی، انطباق با قوانین	اشتراک	الگوها را از داده‌های برچسب‌گذاری شده یاد می‌گیرد - برای متن‌های با طول متوسط مناسب است
آنالایزر استایلومتری	محققان، متخصصان پزشکی قانونی	$$$ یا جایگاه ویژه	مقایسه اثر انگشت‌های نوشتاری - عجیب اما مفید در فرم طولانی
یابنده واترمارک	پلتفرم‌ها، تیم‌های داخلی	اغلب به صورت بسته‌ای	وقتی واترمارک وجود دارد قوی است - اگر نباشد، اساساً شانه بالا انداختن است
مجموعه سازمانی هیبریدی	سازمان‌های بزرگ	قراردادها به ازای هر صندلی	چندین سیگنال را ترکیب می‌کند - پوشش بهتر، دکمه‌های تنظیم بیشتر (و راه‌های بیشتر برای پیکربندی اشتباه، ای وای)

به ستون «احساس قیمت» توجه کنید. بله، این علمی نیست. اما رک و صریح است 😄

۵) سیگنال‌های اصلی که آشکارسازها به دنبال آنها هستند - «نشانه‌ها» 🧠

در اینجا مواردی که بسیاری از آشکارسازها سعی در اندازه‌گیری آنها دارند، آورده شده است:

پیش‌بینی‌پذیری (احتمال نشانه)

مدل‌های زبانی با پیش‌بینی توکن‌های احتمالی بعدی، متن تولید می‌کنند. این امر منجر به ایجاد موارد زیر می‌شود:

انتقال‌های نرم‌تر
انتخاب کلمات غافلگیرکننده کمتر
مماس‌های عجیب و غریب کمتر (مگر اینکه از شما خواسته شود)
لحن ثابت (دانشگاه بوستون - پست‌های سرگشتگی؛ DetectGPT)

از طرف دیگر، انسان‌ها اغلب بیشتر زیگزاگ می‌روند. ما خودمان را نقض می‌کنیم، نظرات حاشیه‌ای تصادفی اضافه می‌کنیم، از استعاره‌های کمی بی‌ربط استفاده می‌کنیم - مانند مقایسه یک آشکارساز هوش مصنوعی با یک توستر که شعر را قضاوت می‌کند. این استعاره بد است، اما شما آن را درک می‌کنید.

الگوهای تکرار و ساختار

نوشته‌های هوش مصنوعی می‌توانند تکرارهای ظریفی را نشان دهند:

جملات تکراری (مثلاً «در نتیجه…»، «علاوه بر این…»، «به علاوه…»)
طول پاراگراف‌های مشابه
سرعت ثابت (بررسی تشخیص متن تولید شده توسط LLM)

اما همچنین - بسیاری از انسان‌ها، به خصوص در محیط‌های مدرسه یا شرکت، اینگونه می‌نویسند. بنابراین تکرار یک سرنخ است، نه یک مدرک.

وضوح بیش از حد و نثر «خیلی تمیز» ✨

این مورد عجیب است. برخی از آشکارسازها تلویحاً «نوشته‌ی بسیار تمیز» را مشکوک می‌دانند. (OpenAI)

که ناخوشایند است زیرا:

نویسندگان خوب وجود دارند
ویرایشگرها وجود دارند
غلط یاب املایی وجود دارد

بنابراین اگر به این فکر می‌کنید که آشکارسازهای هوش مصنوعی چگونه کار می‌کنند، بخشی از پاسخ این است: گاهی اوقات آنها به ناهمواری پاداش می‌دهند. که... نوعی وارونه‌گویی است.

تراکم معنایی و عبارت‌بندی عمومی

آشکارسازها ممکن است متنی را که احساس می‌کنند:

بیش از حد کلی
جزئیات زنده خاص کم است
زیاد بر عبارات متعادل و خنثی (بررسی تشخیص متن تولید شده توسط LLM)

هوش مصنوعی اغلب محتوایی تولید می‌کند که منطقی به نظر می‌رسد اما کمی دستکاری شده است. مانند اتاق هتلی که زیبا به نظر می‌رسد اما هیچ شخصیت خاصی ندارد 🛏️

۶) رویکرد طبقه‌بندی‌کننده - نحوه آموزش آن (و دلیل خرابی آن) 🧪

یک آشکارساز طبقه‌بندی‌کننده معمولاً به این صورت آموزش داده می‌شود:

جمع‌آوری مجموعه‌ای از متون انسانی (مقاله‌ها، مقالات، انجمن‌ها و غیره)
تولید متن هوش مصنوعی (چندین دستور، سبک، طول)
نمونه‌ها را برچسب‌گذاری کنید
یک مدل را آموزش دهید تا آنها را با استفاده از ویژگی‌ها یا جاسازی‌ها جدا کند
اعتبارسنجی آن روی داده‌های ذخیره‌شده
ارسالش کن... و بعد واقعیت به صورتش مشت می‌زند (بررسی تشخیص متن تولید شده توسط LLM)

چرا واقعیت آن را تحت تأثیر قرار می‌دهد:

تغییر دامنه: داده‌های آموزشی با نوشته‌های واقعی کاربر مطابقت ندارند
تغییر مدل: مدل‌های نسل جدید مانند مدل‌های موجود در مجموعه داده‌ها رفتار نمی‌کنند
جلوه‌های ویرایش: ویرایش‌های انسانی می‌توانند الگوهای واضح را حذف کنند اما الگوهای ظریف را حفظ کنند
تنوع زبانی: گویش‌ها، نوشتار ESL و سبک‌های رسمی اشتباه خوانده می‌شوند (بررسی تشخیص متن تولید شده توسط LLM؛ لیانگ و همکاران (arXiv))

من ردیاب‌هایی را دیده‌ام که در نسخه آزمایشی خودشان «عالی» بودند، اما در نوشتن متن‌های واقعی در محل کار از کار افتادند. مثل این است که به یک سگ بویاب فقط یک مارک کلوچه آموزش دهید و انتظار داشته باشید که هر خوراکی دنیا را پیدا کند 🍪

۷) سردرگمی و انفجار - میانبر ریاضی 📉

این خانواده از آشکارسازها تمایل دارند به امتیازدهی مدل زبانی متکی باشند:

آنها متن شما را از طریق مدلی اجرا می‌کنند که تخمین می‌زند هر نشانه بعدی چقدر محتمل است.
آنها «شگفتی» کلی (سرگشتگی) را محاسبه می‌کنند. (دانشگاه بوستون - پست‌های سرگشتگی)
آنها ممکن است معیارهای تغییر ("انفجار") را اضافه کنند تا ببینند آیا ریتم حس انسانی دارد یا خیر. (GPTZero)

چرا گاهی اوقات کار می‌کند:

متن خام هوش مصنوعی می‌تواند بسیار روان و از نظر آماری قابل پیش‌بینی باشد (DetectGPT)

چرا شکست می‌خورد:

نمونه‌های کوتاه نویز دارند
نوشتن رسمی قابل پیش‌بینی است
نوشتن فنی قابل پیش‌بینی است
نوشته‌های غیربومی می‌توانند قابل پیش‌بینی باشند
متن هوش مصنوعی که به شدت ویرایش شده است می‌تواند شبیه متن انسانی به نظر برسد (OpenAI؛ Turnitin)

بنابراین، نحوه‌ی کار آشکارسازهای هوش مصنوعی گاهی اوقات شبیه یک تفنگ سرعت است که دوچرخه و موتورسیکلت را با هم اشتباه می‌گیرد. جاده‌ی یکسان، موتورهای متفاوت 🚲🏍️

۸) واترمارک - ایده «اثر انگشت روی جوهر» 🖋️

واترمارک کردن به نظر راه‌حل ساده‌ای می‌آید: متن هوش مصنوعی را در زمان تولید علامت‌گذاری کنید، سپس بعداً آن را شناسایی کنید. (واترمارک برای مدل‌های زبانی بزرگ؛ SynthID Text)

در عمل، واترمارک‌ها می‌توانند شکننده باشند:

بازنویسی می‌تواند آنها را تضعیف کند
ترجمه می‌تواند آنها را از بین ببرد
نقل قول جزئی می‌تواند آنها را حذف کند
ترکیب چندین منبع می‌تواند الگو را محو کند (درباره‌ی قابلیت اطمینان واترمارک‌ها برای مدل‌های زبانی بزرگ)

همچنین، تشخیص واترمارک فقط در صورتی کار می‌کند که:

از واترمارک استفاده شده است
آشکارساز می‌داند چگونه آن را بررسی کند
متن خیلی تغییر نکرده است (OpenAI; SynthID Text)

بله، واترمارک‌ها می‌توانند قدرتمند باشند، اما یک نشان پلیس جهانی نیستند.

۹) نتایج مثبت کاذب و دلیل وقوع آنها (بخش دردناک) 😬

این موضوع سزاوار یک بخش جداگانه است، زیرا بیشترین جنجال‌ها در آنجا رخ می‌دهد.

محرک‌های مثبت کاذب رایج:

لحن بسیار رسمی (نوشتن متون دانشگاهی، حقوقی، مربوط به رعایت مقررات)
انگلیسی غیربومی (ساختارهای جملات ساده‌تر می‌توانند «شبیه مدل» به نظر برسند)
نگارش مبتنی بر الگو (نامه‌های درخواست، SOPها، گزارش‌های آزمایشگاهی)
نمونه‌های متن کوتاه (سیگنال کافی نیست)
محدودیت‌های موضوعی (برخی از موضوعات، عبارات تکراری را ایجاب می‌کنند) (لیانگ و همکاران (arXiv)؛ ترنیتین)

اگر تا به حال کسی را دیده‌اید که به خاطر خیلی خوب نوشتن، جریمه شده باشد... بله. این اتفاق می‌افتد. و این بی‌رحمانه است.

امتیاز آشکارساز باید مانند موارد زیر در نظر گرفته شود:

یک دزدگیر دود، نه حکم دادگاه 🔥
به شما می‌گوید «شاید بررسی شود»، نه اینکه «پرونده بسته شده است.» (OpenAI؛ Turnitin)

۱۰) چگونه نمرات ردیاب را مانند یک بزرگسال تفسیر کنیم 🧠🙂

در اینجا یک روش عملی برای خواندن نتایج آورده شده است:

اگر ابزار یک درصد واحد ارائه دهد

آن را به عنوان یک سیگنال خطر تقریبی در نظر بگیرید:

0-30%: احتمالاً توسط انسان یا به شدت ویرایش شده
30-70%: منطقه مبهم - هیچ چیز را فرض نکنید
۷۰-۱۰۰٪: احتمال بیشتری وجود دارد که الگوهایی شبیه به هوش مصنوعی باشند، اما هنوز اثبات نشده‌اند (راهنماهای Turnitin)

حتی نمرات بالا هم می‌توانند اشتباه باشند، به خصوص برای:

نوشتن استاندارد
ژانرهای خاص (خلاصه‌ها، تعاریف)
نگارش ESL (لیانگ و همکاران (arXiv))

به دنبال توضیحات باشید، نه فقط اعداد

آشکارسازهای بهتر موارد زیر را ارائه می‌دهند:

دهانه‌های برجسته
یادداشت‌های ویژگی (قابلیت پیش‌بینی، تکرار و غیره)
فواصل اطمینان یا زبان عدم قطعیت (بررسی تشخیص متن تولید شده توسط LLM)

اگر ابزاری از توضیح چیزی امتناع می‌کند و فقط یک عدد را به پیشانی شما می‌چسباند... من به آن اعتماد ندارم. شما هم نباید اعتماد کنید.

۱۱) نحوه‌ی کار آشکارسازهای هوش مصنوعی: یک مدل ذهنی ساده 🧠🧩

اگر می‌خواهید یک غذای آماده و بی‌نقص داشته باشید، از این مدل ذهنی استفاده کنید:

آشکارسازهای هوش مصنوعی به دنبال الگوهای آماری و سبکی رایج در متن تولید شده توسط ماشین هستند. (بررسی تشخیص متن تولید شده توسط LLM)
آنها این الگوها را با آنچه از نمونه‌های آموزشی آموخته‌اند مقایسه می‌کنند. (بررسی تشخیص متن تولید شده توسط LLM)
آنها یک حدس شبیه به احتمال، نه یک داستان واقعی از منشأ آن. (OpenAI)
این حدس به ژانر، موضوع، طول، ویرایش‌ها و داده‌های آموزشی آشکارساز. (بررسی تشخیص متن تولید شده توسط LLM)

به عبارت دیگر، نحوه‌ی کار آشکارسازهای هوش مصنوعی به این صورت است که آنها «شباهت را قضاوت می‌کنند»، نه نویسندگی را. مانند اینکه بگوییم کسی شبیه پسرعمویش است. این با آزمایش DNA متفاوت است... و حتی آزمایش‌های DNA هم موارد خاص خود را دارند.

۱۲) نکات کاربردی برای کاهش پرچم‌های تصادفی (بدون انجام بازی) ✍️✅

نه اینکه «چگونه آشکارسازها را فریب دهیم». بیشتر شبیه این است که چگونه به شیوه‌ای بنویسیم که منعکس‌کننده‌ی نویسنده‌ی واقعی باشد و از سوءبرداشت‌های عجیب و غریب جلوگیری کند.

جزئیات مشخص را اضافه کنید: نام مفاهیمی که واقعاً استفاده کرده‌اید، مراحلی که انجام داده‌اید، بده‌بستان‌هایی که در نظر گرفته‌اید
از تنوع طبیعی استفاده کنید: جملات کوتاه و بلند را با هم ترکیب کنید (مانند کاری که انسان‌ها هنگام فکر کردن انجام می‌دهند)
محدودیت‌های واقعی را لحاظ کنید: محدودیت‌های زمانی، ابزارهای مورد استفاده، اشتباهات رخ داده، و اینکه چه کاری را متفاوت انجام می‌دادید
از کلمات کلیشه‌ای و بیش از حد استفاده نکنید: به جای «Moreover» چیزی بنویسید که واقعاً می‌خواهید بگویید
پیش‌نویس‌ها و یادداشت‌ها را نگه دارید: اگر اختلافی پیش آمد، شواهد فرآیندی بیشتر از احساس درونی اهمیت دارند

در حقیقت، بهترین دفاع فقط... صادق بودن است. صادق ناقص، نه یک «بروشور بی‌نقص» صادق.

نکات پایانی 🧠✨

آشکارسازهای هوش مصنوعی می‌توانند ارزشمند باشند، اما ماشین‌های حقیقت‌یاب نیستند. آن‌ها تطبیق‌دهنده‌های الگو هستند که بر روی داده‌های ناقص آموزش دیده‌اند و در جهانی کار می‌کنند که سبک‌های نوشتاری دائماً با هم همپوشانی دارند. (OpenAI؛ بررسی‌ای بر تشخیص متن تولید شده توسط LLM)

به طور خلاصه:

آشکارسازها به طبقه‌بندی‌کننده‌ها، پیچیدگی/برش، سبک‌سنجی و گاهی اوقات واترمارک‌ها متکی هستند 🧩 (بررسی تشخیص متن تولید شده توسط LLM)
آنها «شباهت به هوش مصنوعی» را تخمین می‌زنند، نه قطعیت (OpenAI)
مثبت کاذب در نوشتار رسمی، فنی یا غیربومی زیاد اتفاق می‌افتد 😬 (لیانگ و همکاران (arXiv); Turnitin)
از نتایج آشکارساز به عنوان راهنمایی برای بررسی استفاده کنید، نه به عنوان حکم (ترنیتین)

و بله... اگر کسی دوباره بپرسد، آشکارسازهای هوش مصنوعی چگونه کار می‌کنند، می‌توانید به آنها بگویید: «آنها بر اساس الگوها حدس می‌زنند - گاهی هوشمندانه، گاهی احمقانه، همیشه محدود.»

مثال دنیای واقعی: بررسی مقاله یک دانش‌آموز علامت‌گذاری شده بدون قضاوت عجولانه 🧑🏫

سناریو

تصور کنید یک استاد نگارش دانشگاه، یک مقاله تاریخی ۱۲۰۰ کلمه‌ای دریافت می‌کند که یک آشکارساز هوش مصنوعی آن را با عنوان «احتمال هوش مصنوعی ۸۶٪» علامت‌گذاری می‌کند. این مقاله رسمی، با ساختار منظم و متکی بر عبارات تکراری مانند «این نشان می‌دهد که» و «می‌توان در مورد آن بحث کرد» است. در نگاه اول، ممکن است مشکوک به نظر برسد.

اما این دانش‌آموز یک نویسنده‌ی ESL است، از یک الگوی مقاله‌ی سختگیرانه از کلاس استفاده کرده و پیش‌نویس را با نرم‌افزار بررسی گرامر ویرایش کرده است. به عبارت دیگر، این دقیقاً همان موردی است که نمره‌ی آشکارساز باید باعث بررسی شود، نه تنبیه.

هدف «گیر انداختن» دانش‌آموز نیست. هدف این است که تصمیم گرفته شود آیا نمره توسط شواهد دیگری پشتیبانی می‌شود یا خیر.

آنچه منتقد نیاز دارد

قبل از هرگونه قضاوت، مدرس موارد زیر را جمع‌آوری می‌کند:

گزارش آشکارساز، شامل بخش‌های هایلایت شده در صورت وجود
خلاصه مقاله و سرفصل نمره‌دهی
پیش‌نویس تاریخچه، یادداشت‌ها، طرح کلی یا کتابشناسی دانش‌آموز
هرگونه ابزار پشتیبانی نوشتاری مجاز که در سیاست دوره ذکر شده است
یک یا دو نمونه نوشته قبلی از همان دانش‌آموز، در صورت اجازه سیاست‌ها
توضیح کوتاهی از دانش‌آموز در مورد روند نوشتنش

این مهم است زیرا آشکارساز فقط متن نهایی را می‌بیند. نمی‌داند که آیا دانش‌آموز چهار روز را صرف نوشتن پیش‌نویس کرده، از یک الگو استفاده کرده، عبارات کلاس را کپی کرده، یادداشت‌هایش را ترجمه کرده یا با بازخورد اصلاح کرده است.

دستورالعمل مثال

یک مدرس می‌تواند هنگام ارزیابی پرونده از این دستورالعمل مرور استفاده کند:

این مقاله را به عنوان یک بررسی فرآیند نگارش، نه به عنوان مدرکی دال بر استفاده از هوش مصنوعی، مرور کنید. نکات برجسته آشکارساز را با یادداشت‌ها، تاریخچه پیش‌نویس، فهرست منابع و نمونه نوشتاری قبلی دانش‌آموز مقایسه کنید. مشخص کنید کدام بخش‌ها واقعاً مشکوک هستند و کدام‌ها ممکن است صرفاً رسمی، قالبی یا تحت تأثیر ESL باشند. شواهد را به سه گروه تقسیم کنید: سیگنال آشکارساز، شواهد فرآیند نگارش و قضاوت انسانی. اقدام انضباطی را توصیه نکنید، مگر اینکه شواهد پشتیبان واضحی فراتر از نمره آشکارساز وجود داشته باشد.

چگونه آن را آزمایش کنیم

یک فرآیند بررسی منصفانه می‌تواند از سه بررسی ساده استفاده کند:

از دانش‌آموز بخواهید دو پاراگراف را به صورت شفاهی توضیح دهد.
اگر بتواند استدلال، منابع و دلیل بیان آن را به این شکل توضیح دهد، این یک مدرک ارزشمند برای فرآیند است.
بخش‌های علامت‌گذاری شده را با الگوی مقاله مقایسه کنید.
اگر دستگاه تشخیص‌دهنده عمدتاً عباراتی با سبک الگو را برجسته کند، ممکن است نمره به جای نویسندگی، به ساختار واکنش نشان دهد.
فقط بخش‌های طولانی‌تر را دوباره بخوانید، نه بخش‌های کوچک را
. یک پاراگراف می‌تواند شلوغ باشد. یک نمونه ۶۰۰ تا ۹۰۰ کلمه‌ای معمولاً سیگنال معنادارتری نسبت به سه جمله‌ی مجزا ارائه می‌دهد.

نتیجه

نتیجه‌ی تشریحی: در یک تمرین مرور پنج مقاله، یک مدرس، فرآیند را قبل و بعد از استفاده از این گردش کار، زمان‌بندی می‌کند.

قبل از این گردش کار، بررسی هر مقاله علامت‌گذاری شده حدود ۳۵ دقیقه طول می‌کشید، زیرا استاد راهنما مجبور بود تصمیم بگیرد که چه مواردی را از ابتدا بررسی کند.

پس از استفاده از گردش کار، هر بررسی حدود ۱۸ دقیقه طول کشید:

۵ دقیقه برای خواندن نکات برجسته آشکارساز
۶ دقیقه برای بررسی پیش‌نویس‌ها، یادداشت‌ها و منابع
۴ دقیقه برای مقایسه نوشته‌های قبلی یا زبان الگو
۳ دقیقه برای نوشتن یک یادداشت کوتاه مروری

این یعنی به ازای هر مقاله ۱۷ دقیقه یا برای پنج مقاله علامت‌گذاری‌شده ۸۵ دقیقه صرفه‌جویی شده است. تأیید این معیار آسان است: زمان هر بررسی را اندازه‌گیری کنید، تعداد مواردی که نیاز به تشدید رسیدگی داشتند را بشمارید و ثبت کنید که آیا تصمیم نهایی فقط بر اساس امتیاز آشکارساز بوده یا بر اساس شواهد پشتیبان.

معیار موفقیت بهتر این نیست که «چند دانش‌آموز شناسایی شدند» بلکه این است که چه تعداد از نمرات مشکوک به طور مداوم، با شواهد روشن و فرضیات عجولانه کمتر بررسی شدند.

چه چیزی می‌تواند اشتباه پیش برود؟

بزرگترین اشتباه این است که درصد آشکارساز را به عنوان تصمیم در نظر بگیریم. «احتمال ۸۶٪ هوش مصنوعی» رسمی به نظر می‌رسد، اما هنوز هم می‌تواند اشتباه باشد.

سایر اشتباهات رایج عبارتند از:

فقط بررسی مقاله نهایی و نادیده گرفتن پیش‌نویس‌ها
جریمه کردن نوشته‌های ESL روان به دلیل اینکه «بیش از حد روان» به نظر می‌رسند
استفاده از یک آشکارساز به عنوان یک ابزار پزشکی قانونی
اجرای قطعه کدهای کوچک و در نظر گرفتن امتیاز به عنوان یک نتیجه قابل اعتماد
عدم اطلاع رسانی به دانشجویان در مورد مدارکی که می‌توانند ارائه دهند
فراموش کردن اینکه ابزارهای گرامر، قالب‌ها و بازخوردها می‌توانند سبک را تغییر دهند

یک فرآیند بررسی خوب باید از حریم خصوصی نیز محافظت کند. نباید از دانشجویان خواسته شود یادداشت‌های خصوصی، پیام‌های شخصی یا اسناد نامربوط را بارگذاری کنند، مگر اینکه سیاست به وضوح اجازه این کار را بدهد.

نکته کاربردی

از آشکارسازهای هوش مصنوعی به عنوان یک ابزار اولویت‌بندی استفاده کنید، نه یک ماشین حقیقت‌یاب. یک فرآیند قوی، امتیاز را با پیش‌نویس‌ها، بررسی منابع، تاریخچه نگارش، توضیحات دانشجو و قضاوت انسانی ترکیب می‌کند. این به مدارس، ویراستاران و داوران چیزی بسیار ارزشمندتر از یک درصد ترسناک می‌دهد: تصمیمی که می‌توانند با اطمینان از آن دفاع کنند.

سوالات متداول

آشکارسازهای هوش مصنوعی در عمل چگونه کار می‌کنند؟

اکثر آشکارسازهای هوش مصنوعی، «تأیید» نمی‌کنند که نویسنده متن کیست. آن‌ها تخمین می‌زنند که متن شما چقدر به الگوهایی که معمولاً توسط مدل‌های زبانی تولید می‌شوند، شباهت دارد و سپس یک امتیاز احتمال مانند ارائه می‌دهند. در پشت صحنه، آن‌ها ممکن است از مدل‌های طبقه‌بندی، امتیازدهی پیش‌بینی‌پذیری به سبک سرگشتگی، ویژگی‌های استایلومتری یا بررسی واترمارک استفاده کنند. نتیجه بهتر است به عنوان یک سیگنال خطر در نظر گرفته شود، نه یک حکم قطعی.

آشکارسازهای هوش مصنوعی چه سیگنال‌هایی را در نوشته‌ها جستجو می‌کنند؟

سیگنال‌های رایج شامل پیش‌بینی‌پذیری (اینکه یک مدل چقدر از کلمات بعدی شما «متعجب» می‌شود)، تکرار در چارچوب‌های جمله، سرعت غیرمعمول و ثابت، و عبارت‌بندی عمومی با جزئیات ملموس کم است. برخی از ابزارها همچنین نشانگرهای سبک‌سنجی مانند طول جمله، عادات نگارشی و فراوانی کلمات تابع را بررسی می‌کنند. این سیگنال‌ها می‌توانند با نوشتار انسان، به ویژه در ژانرهای رسمی، دانشگاهی یا فنی، همپوشانی داشته باشند.

چرا آشکارسازهای هوش مصنوعی، نوشته‌های انسانی را به عنوان نوشته‌های هوش مصنوعی علامت‌گذاری می‌کنند؟

مثبت کاذب زمانی اتفاق می‌افتد که نوشته‌ی انسان از نظر آماری «روان» یا شبیه الگو به نظر برسد. لحن رسمی، کلمات به سبک انطباق، توضیحات فنی، نمونه‌های کوتاه و انگلیسی غیربومی، همگی می‌توانند به اشتباه شبیه هوش مصنوعی تلقی شوند زیرا تنوع را کاهش می‌دهند. به همین دلیل است که یک پاراگراف تمیز و ویرایش‌شده می‌تواند امتیاز بالایی کسب کند. یک آشکارساز در حال مقایسه‌ی شباهت است، نه تأیید اصالت.

آیا آشکارسازهای سرگشتگی و "انفجار" قابل اعتماد هستند؟

روش‌های مبتنی بر سرگشتگی می‌توانند زمانی که متن خام و خروجی هوش مصنوعی بسیار قابل پیش‌بینی است، کار کنند. اما آنها شکننده هستند: بخش‌های کوتاه نویز دارند و بسیاری از ژانرهای مشروع انسانی به طور طبیعی قابل پیش‌بینی هستند (خلاصه‌ها، تعاریف، ایمیل‌های شرکتی، کتابچه‌های راهنما). ویرایش و اصلاح نیز می‌تواند امتیاز را به طرز چشمگیری تغییر دهد. این ابزارها برای اولویت‌بندی سریع مناسب هستند، نه تصمیمات پرمخاطره به تنهایی.

تفاوت بین آشکارسازهای طبقه‌بندی‌کننده و ابزارهای استایلومتری چیست؟

آشکارسازهای طبقه‌بندی‌کننده از مجموعه داده‌های برچسب‌گذاری‌شده متن انسانی در مقابل هوش مصنوعی (و گاهی اوقات ترکیبی) یاد می‌گیرند و پیش‌بینی می‌کنند که متن شما بیشتر به کدام دسته شباهت دارد. ابزارهای استایلومتری بر «اثر انگشت» نوشتاری مانند الگوهای انتخاب کلمه، کلمات تابعی و سیگنال‌های خوانایی تمرکز دارند که می‌توانند در تجزیه و تحلیل‌های طولانی آموزنده‌تر باشند. هر دو رویکرد از تغییر دامنه رنج می‌برند و وقتی سبک یا موضوع نوشتار با داده‌های آموزشی آنها متفاوت باشد، می‌توانند با مشکل مواجه شوند.

آیا واترمارک‌ها مشکل تشخیص هوش مصنوعی را برای همیشه حل می‌کنند؟

واترمارک‌ها می‌توانند زمانی قوی باشند که یک مدل از آنها استفاده کند و آشکارساز، طرح واترمارک را بداند. در واقعیت، همه ارائه دهندگان واترمارک این کار را نمی‌کنند و تبدیل‌های رایج - بازنویسی، ترجمه، نقل قول جزئی یا ترکیب منابع - می‌توانند الگو را تضعیف یا بشکنند. تشخیص واترمارک در موارد محدودی که کل زنجیره در یک راستا قرار می‌گیرد، قدرتمند است، اما پوشش جهانی ندارد.

چگونه باید امتیاز «X% هوش مصنوعی» را تفسیر کنم؟

یک درصد واحد را به عنوان یک شاخص تقریبی از «شباهت به هوش مصنوعی» در نظر بگیرید، نه مدرکی برای اثبات نویسندگی هوش مصنوعی. نمرات متوسط به طور خاص مبهم هستند و حتی نمرات بالا نیز می‌توانند در نگارش استاندارد یا رسمی اشتباه باشند. ابزارهای بهتر توضیحاتی مانند محدوده‌های برجسته، یادداشت‌های ویژگی‌ها و زبان عدم قطعیت را ارائه می‌دهند. اگر یک آشکارساز خود را توضیح نمی‌دهد، آن عدد را معتبر در نظر نگیرید.

چه چیزی یک آشکارساز هوش مصنوعی خوب را برای مدارس یا گردش کارهای تحریریه ایجاد می‌کند؟

یک آشکارساز قوی کالیبره شده است، موارد مثبت کاذب را به حداقل می‌رساند و محدودیت‌ها را به وضوح بیان می‌کند. باید از ادعاهای بیش از حد مطمئن در نمونه‌های کوتاه اجتناب کند، حوزه‌های مختلف (دانشگاهی در مقابل وبلاگ در مقابل فنی) را مدیریت کند و هنگام اصلاح متن توسط انسان، پایدار بماند. مسئولانه‌ترین ابزارها با فروتنی رفتار می‌کنند: آنها به جای اینکه مانند خوانندگان ذهن عمل کنند، شواهد و عدم قطعیت ارائه می‌دهند.

چگونه می‌توانم بدون «بازی دادن» سیستم، تعداد پرچم‌های تصادفی هوش مصنوعی را کاهش دهم؟

به جای ترفندها، روی نشانه‌های معتبر نویسندگی تمرکز کنید. جزئیات مشخص (مراحل انجام شده، محدودیت‌ها، بده‌بستان‌ها) را اضافه کنید، ریتم جملات را به طور طبیعی تغییر دهید و از انتقال‌های بیش از حد قالب‌بندی شده که معمولاً استفاده نمی‌کنید، خودداری کنید. پیش‌نویس‌ها، یادداشت‌ها و تاریخچه ویرایش‌ها را نگه دارید - شواهد فرآیند اغلب در اختلافات بیشتر از امتیاز آشکارساز اهمیت دارند. هدف، وضوح با شخصیت است، نه نثر بروشور بی‌نقص.

منابع

انجمن زبان‌شناسی محاسباتی (گلچین ACL) - بررسی تشخیص متن تولید شده توسط LLM - aclanthology.org
OpenAI - طبقه‌بندی‌کننده جدید هوش مصنوعی برای نشان دادن متن نوشته‌شده توسط هوش مصنوعی - openai.com
راهنماهای Turnitin - تشخیص نوشتن با هوش مصنوعی در نمای گزارش کلاسیک - guides.turnitin.com
راهنماهای Turnitin - مدل تشخیص نوشتار هوش مصنوعی - guides.turnitin.com
Turnitin - درک نکات مثبت کاذب در قابلیت‌های تشخیص نوشتار هوش مصنوعی ما - turnitin.com
arXiv - تشخیص GPT - arxiv.org
دانشگاه بوستون - پست‌های مربوط به سرگشتگی - cs.bu.edu
GPTZero - سرگشتگی و انفجار: چیست؟ - gptzero.me
PubMed Central (NCBI) - استایلومتری و علوم پزشکی قانونی: مروری بر مقالات - ncbi.nlm.nih.gov
انجمن زبان‌شناسی محاسباتی (گلچین ACL) - کلمات تابع در انتساب نویسندگی - aclanthology.org
arXiv - علامت اختصاری برای مدل‌های زبان بزرگ - arxiv.org
هوش مصنوعی گوگل برای توسعه‌دهندگان - SynthID Text - ai.google.dev
arXiv - در مورد قابلیت اطمینان واترمارک‌ها برای مدل‌های زبانی بزرگ - arxiv.org
OpenAI - درک منبع آنچه که به صورت آنلاین می‌بینیم و می‌شنویم - openai.com
استنفورد HAI - آشکارسازهای هوش مصنوعی علیه نویسندگان غیربومی انگلیسی جانبدارانه عمل می‌کنند - hai.stanford.edu
arXiv - لیانگ و همکاران - arxiv.org

جدیدترین هوش مصنوعی را در فروشگاه رسمی دستیار هوش مصنوعی پیدا کنید

درباره ما

بازگشت به وبلاگ