ارتقاء کیفیت تصویر با هوش مصنوعی چگونه کار می‌کند؟

ارتقاء کیفیت تصویر با هوش مصنوعی چگونه کار می‌کند؟

پاسخ کوتاه: ارتقای کیفیت تصویر با هوش مصنوعی با آموزش یک مدل روی تصاویر با وضوح پایین و بالا و سپس استفاده از آن برای پیش‌بینی پیکسل‌های اضافی باورپذیر در طول ارتقای کیفیت انجام می‌شود. اگر مدل در آموزش بافت‌ها یا چهره‌های مشابهی را دیده باشد، می‌تواند جزئیات قانع‌کننده‌ای را اضافه کند؛ در غیر این صورت، ممکن است در ویدیو دچار «توهم» شود و آثاری مانند هاله، پوست مومی یا سوسو زدن را نشان دهد.

نکات کلیدی:

پیش‌بینی : مدل جزئیات قابل قبولی ارائه می‌دهد، نه بازسازی تضمین‌شده‌ای از واقعیت.

انتخاب مدل : CNNها معمولاً ثابت‌تر هستند؛ GANها می‌توانند واضح‌تر به نظر برسند اما ریسک ایجاد ویژگی‌ها را دارند.

بررسی آثار باستانی : مراقب هاله‌ها، بافت‌های تکراری، «تقریباً حروف» و چهره‌های پلاستیکی باشید.

پایداری ویدیو : از روش‌های زمانی استفاده کنید، در غیر این صورت شاهد لرزش و رانش فریم به فریم خواهید بود.

کاربرد پرخطر : اگر دقت اهمیت دارد، پردازش را افشا کنید و نتایج را به عنوان نمونه در نظر بگیرید.

اینفوگرافیک: ارتقای کیفیت با هوش مصنوعی چگونه کار می‌کند؟.

احتمالاً آن را دیده‌اید: یک تصویر کوچک و ترد به چیزی تبدیل می‌شود که به اندازه کافی واضح است تا بدون هیچ مشکلی چاپ شود، پخش شود یا در یک ارائه قرار گیرد. این حس تقلب را می‌دهد. و - به بهترین شکل - تقریباً همینطور است 😅

بنابراین، نحوه‌ی عملکرد ارتقاء کیفیت تصویر با هوش مصنوعی به چیزی خاص‌تر از «افزایش جزئیات توسط کامپیوتر» (حرکت دست) و نزدیک‌تر به «پیش‌بینی ساختار با وضوح بالا توسط یک مدل بر اساس الگوهایی که از نمونه‌های فراوان آموخته است» ( یادگیری عمیق برای وضوح فوق‌العاده تصویر: یک نظرسنجی ) خلاصه می‌شود. این مرحله‌ی پیش‌بینی، کل ماجرا است - و به همین دلیل است که ارتقاء کیفیت تصویر با هوش مصنوعی می‌تواند خیره‌کننده به نظر برسد... یا کمی پلاستیکی... یا مانند گربه‌ی شما که سبیل‌های اضافی رشد کرده است.

مقالاتی که شاید بعد از این مطلب دوست داشته باشید بخوانید:

🔗 نحوه کار هوش مصنوعی
اصول اولیه مدل‌ها، داده‌ها و استنتاج در هوش مصنوعی را بیاموزید.

🔗 نحوه یادگیری هوش مصنوعی
ببینید که چگونه داده‌های آموزشی و بازخورد، عملکرد مدل را در طول زمان بهبود می‌بخشند.

🔗 چگونه هوش مصنوعی ناهنجاری‌ها را تشخیص می‌دهد
الگوهای پایه و نحوه تشخیص سریع رفتارهای غیرمعمول توسط هوش مصنوعی را درک کنید.

🔗 چگونه هوش مصنوعی روندها را پیش‌بینی می‌کند
روش‌های پیش‌بینی که سیگنال‌ها را شناسایی کرده و تقاضای آینده را پیش‌بینی می‌کنند، بررسی کنید.


نحوه عملکرد ارتقاء کیفیت با هوش مصنوعی: ایده اصلی، به زبان روزمره 🧩

ارتقاء تصویر به معنای افزایش وضوح تصویر است: پیکسل‌های بیشتر، تصویر بزرگتر. ارتقاء تصویر سنتی (مانند bicubic) اساساً پیکسل‌ها را کشیده و انتقال‌ها را هموار می‌کند ( درون‌یابی Bicubic ). خوب است، اما نمی‌تواند جدیدی - فقط درون‌یابی می‌کند.

ارتقای کیفیت تصویر با هوش مصنوعی، چیزی جسورانه‌تر (که در دنیای تحقیقات به آن «فوق وضوح» هم می‌گویند) را امتحان می‌کند ( یادگیری عمیق برای وضوح فوق‌العاده تصویر: یک بررسی ):

  • به ورودی با وضوح پایین نگاه می‌کند

  • الگوها (لبه‌ها، بافت‌ها، ویژگی‌های صورت، خطوط متن، بافت پارچه و ...) را تشخیص می‌دهد

  • پیش‌بینی می‌کند که یک نسخه با وضوح بالاتر چگونه باید باشد

  • داده‌های پیکسلی اضافی تولید می‌کند که با آن الگوها مطابقت دارند

نه اینکه «واقعیت را به‌طور کامل بازیابی کند»، بلکه بیشتر شبیه «یک حدس بسیار باورپذیر بزند» ( ابروضوح تصویر با استفاده از شبکه‌های پیچشی عمیق (SRCNN) ). اگر این کمی مشکوک به نظر می‌رسد، اشتباه نمی‌کنید - اما به همین دلیل است که اینقدر خوب کار می‌کند 😄

و بله، این یعنی ارتقای کیفیت با هوش مصنوعی اساساً یک توهم کنترل‌شده است... اما به شیوه‌ای سازنده و با حفظ پیکسل‌ها.


چه چیزی یک نسخه خوب از ارتقاء کیفیت تصویر با هوش مصنوعی را می‌سازد؟ ✅🛠️

اگر در حال قضاوت در مورد یک ارتقا دهنده کیفیت تصویر با هوش مصنوعی (یا یک تنظیمات از پیش تعیین شده) هستید، موارد زیر بیشترین اهمیت را دارند:

  • بازیابی جزئیات بدون پخت بیش از حد.
    ارتقای خوب، تردی و ساختار را افزایش می‌دهد، نه نویز ترد یا منافذ مصنوعی.

  • نظم و انضباط در لبه‌ها،
    خطوط تمیز، تمیز می‌مانند. مدل‌های بد باعث می‌شوند لبه‌ها لق بزنند یا هاله‌هایی ایجاد کنند.

  • واقع‌گرایی بافت
    مو نباید به ضربه قلم‌مو تبدیل شود. آجر نباید به مهر الگوی تکرارشونده تبدیل شود.

  • مدیریت نویز و فشرده‌سازی
    بسیاری از تصاویر روزمره به دلیل فشرده‌سازی JPEG از بین می‌روند. یک ارتقا دهنده خوب این آسیب را تشدید نمی‌کند ( Real-ESRGAN ).

  • آگاهی از چهره و متن
    چهره‌ها و متن ساده‌ترین مکان‌ها برای تشخیص اشتباهات هستند. مدل‌های خوب با آنها به آرامی رفتار می‌کنند (یا حالت‌های تخصصی دارند).

  • ثبات در فریم‌ها (برای ویدیو)
    اگر جزئیات فریم به فریم سوسو بزنند، چشمان شما جیغ خواهند زد. ارتقای کیفیت ویدیو با ثبات زمانی زنده می‌ماند یا می‌میرد ( BasicVSR (CVPR 2021) ).

  • کنترل‌هایی که منطقی باشند.
    شما اسلایدرهایی می‌خواهید که به نتایج واقعی منجر شوند: حذف نویز، محو کردن تاری، حذف آرتیفکت، حفظ دانه‌ها، افزایش وضوح... چیزهای کاربردی.

یک قانون بی‌سروصدا که پابرجاست: «بهترین» ارتقاء کیفیت اغلب همانی است که به سختی متوجه آن می‌شوید. فقط به نظر می‌رسد که از ابتدا دوربین بهتری داشته‌اید 📷✨


جدول مقایسه: گزینه‌های محبوب ارتقای کیفیت با هوش مصنوعی (و کاربرد آنها) 📊🙂

در زیر یک مقایسه عملی آورده شده است. قیمت‌ها عمداً نامشخص هستند زیرا ابزارها بر اساس مجوز، بسته‌ها، هزینه‌های محاسباتی و همه چیزهای جالب دیگر متفاوت هستند.

ابزار / رویکرد بهترین برای حس و حال قیمت چرا کار می‌کند (تقریباً)
دستگاه‌های افزایش کیفیت تصویر رومیزی به سبک توپاز ( توپاز فوتو ، توپاز ویدیو ) عکس، ویدئو، گردش کار آسان پولی مدل‌های عمومی قوی + تنظیمات زیاد، معمولاً «فقط کار می‌کنند»... بیشتر اوقات
ویژگی‌های نوع «Super Resolution» ادوبی ( Adobe Enhance > Super Resolution ) عکاسانی که از قبل در آن اکوسیستم هستند اشتراک-y بازسازی دقیق جزئیات، معمولاً محافظه‌کارانه (کمتر نمایشی)
انواع Real-ESRGAN / ESRGAN ( Real-ESRGAN ، ESRGAN ) خودتان انجام دهید، توسعه‌دهندگان، کارهای دسته‌ای رایگان (اما زمان‌بر) در جزئیات بافت عالی است، اگر مراقب نباشید می‌تواند روی صورت‌ها تند و زننده باشد
حالت‌های ارتقاء مبتنی بر انتشار ( SR3 ) کار خلاقانه، نتایج سبک‌مند مختلط می‌تواند جزئیات زیبایی خلق کند - همچنین می‌تواند مزخرفات را اختراع کند، پس... بله
ارتقا دهنده‌های بازی (به سبک DLSS/FSR) ( NVIDIA DLSS ، AMD FSR 2 ) بازی و رندرینگ بلادرنگ بسته‌بندی‌شده از داده‌های حرکتی و اطلاعات قبلی استفاده می‌کند - عملکرد روان، برنده است 🕹️
سرویس‌های ارتقاء ابری راحتی، بردهای سریع پرداخت به ازای هر بار استفاده سریع + مقیاس‌پذیر، اما شما کنترل و گاهی اوقات ظرافت را معامله می‌کنید
ارتقادهنده‌های هوش مصنوعی متمرکز بر ویدیو ( BasicVSR ، Topaz Video ) فیلم‌های قدیمی، انیمه، آرشیو پولی ترفندهای زمانی برای کاهش سوسو زدن + مدل‌های ویدیویی تخصصی
ارتقاء کیفیت گوشی/گالری «هوشمند» استفاده گاه به گاه شامل مدل‌های سبک وزن برای خروجی مطلوب تنظیم شده‌اند، نه برای کمال (هنوز هم مفید هستند)

اعتراف عجیب قالب‌بندی: «پرداختی» یعنی کلی کار تو اون جدول انجام دادن. ولی منظورم رو متوجه شدید 😅


راز بزرگ: مدل‌ها یاد می‌گیرند که از وضوح پایین به وضوح بالا نگاشت کنند 🧠➡️🖼️

در قلب اکثر روش‌های ارتقاء کیفیت با هوش مصنوعی، یک سیستم یادگیری نظارت‌شده ( تصویر با وضوح فوق‌العاده بالا با استفاده از شبکه‌های پیچشی عمیق (SRCNN) ) قرار دارد:

  1. با تصاویر با وضوح بالا شروع کنید ("حقیقت")

  2. آنها را به نسخه‌های با وضوح پایین ("ورودی") کاهش نمونه دهید

  3. آموزش مدلی برای بازسازی تصویر با وضوح بالا از تصویر با وضوح پایین

با گذشت زمان، مدل همبستگی‌هایی مانند موارد زیر را یاد می‌گیرد:

  • «این نوع تیرگی دور چشم معمولاً مربوط به مژه‌ها است»

  • «این خوشه پیکسلی اغلب نشان‌دهنده متن serif است»

  • «این گرادیان لبه شبیه خط روی پشت بام است، نه نویز تصادفی»

این به خاطر سپردن تصاویر خاص (به معنای ساده) نیست، بلکه یادگیری ساختار آماری است ( یادگیری عمیق برای وضوح فوق‌العاده تصویر: یک بررسی ). آن را مانند یادگیری دستور زبان بافت‌ها و لبه‌ها در نظر بگیرید. نه دستور زبان شعر، بیشتر شبیه... دستور زبان دستی IKEA 🪑📦 (استعاره دست و پا گیر، اما به اندازه کافی نزدیک).


جزئیات: چه اتفاقی در طول استنتاج می‌افتد (وقتی مقیاس را ارتقا می‌دهید) ⚙️✨

وقتی تصویری را به یک ارتقادهنده‌ی کیفیت هوش مصنوعی می‌دهید، معمولاً مسیری مانند این وجود دارد:

  • پیش‌پردازش

    • تبدیل فضای رنگی (گاهی اوقات)

    • مقادیر پیکسل را نرمال‌سازی کنید

    • اگر تصویر بزرگ است، آن را به قطعات کوچک تقسیم کنید (بررسی واقعیت VRAM 😭) ( مخزن Real-ESRGAN (گزینه‌های کاشی) )

  • استخراج ویژگی

    • لایه‌های اولیه لبه‌ها، گوشه‌ها و گرادیان‌ها را تشخیص می‌دهند

    • لایه‌های عمیق‌تر الگوها را تشخیص می‌دهند: بافت‌ها، شکل‌ها، اجزای صورت

  • بازسازی

    • این مدل یک نقشه ویژگی با وضوح بالاتر تولید می‌کند

    • سپس آن را به خروجی پیکسلی واقعی تبدیل می‌کند

  • پس پردازش

    • تیز کردن اختیاری

    • نویززدایی اختیاری

    • حذف آرتیفکت اختیاری (زنگ، هاله، انسداد)

یک نکته ظریف: بسیاری از ابزارها کاشی‌ها را بزرگ می‌کنند، سپس درزها را با هم ترکیب می‌کنند. ابزارهای عالی مرزهای کاشی را پنهان می‌کنند. ابزارهای معمولی اگر با دقت نگاه کنید، ردهای شبکه‌ای کمرنگی از خود به جا می‌گذارند. و بله، با دقت نگاه خواهید کرد، زیرا انسان‌ها عاشق بررسی نقص‌های کوچک با بزرگنمایی ۳۰۰٪ مانند بچه‌گرملین‌ها هستند 🧌


خانواده‌های اصلی مدل‌های مورد استفاده برای ارتقای کیفیت با هوش مصنوعی (و دلیل متفاوت بودن آنها) 🤖📚

۱) ابرتفکیک‌پذیری مبتنی بر CNN (روش کلاسیک و کارآمد)

شبکه‌های عصبی کانولوشن در الگوهای محلی عالی هستند: لبه‌ها، بافت‌ها، ساختارهای کوچک ( تصویر با وضوح فوق‌العاده با استفاده از شبکه‌های کانولوشن عمیق (SRCNN) ).

  • مزایا: سریع، پایدار، غافلگیری‌های کمتر

  • معایب: اگر محکم فشار داده شود، ممکن است کمی «پردازش‌شده» به نظر برسد

۲) ارتقاء مقیاس مبتنی بر GAN (به سبک ESRGAN) 🎭

شبکه‌های مولد تخاصمی (GAN) یک مولد را آموزش می‌دهند تا تصاویر با وضوح بالا تولید کند که یک متمایزکننده نتواند آنها را از تصاویر واقعی ( Generative Adversarial Networks ) تشخیص دهد.

  • مزایا: جزئیات دقیق، بافت چشمگیر

  • معایب: می‌تواند جزئیاتی را که وجود نداشته، از خودش دربیاورد - گاهی اوقات اشتباه، گاهی اوقات غیرطبیعی ( SRGAN ، ESRGAN )

یک GAN می‌تواند آن وضوح بی‌نظیر را به شما بدهد. همچنین می‌تواند به سوژه پرتره شما ابرویی اضافه کند. پس... نبردهایتان را انتخاب کنید 😬

۳) ارتقاء کیفیت مبتنی بر انتشار (ایده خلاقانه) 🌫️➡️🖼️

مدل‌های انتشار، نویز را گام به گام حذف می‌کنند و می‌توانند برای تولید جزئیات با وضوح بالا ( SR3 ) هدایت شوند.

  • مزایا: می‌تواند در جزئیات قابل قبول، به خصوص برای کارهای خلاقانه، فوق‌العاده خوب باشد

  • معایب: اگر تنظیمات تهاجمی باشند، می‌توانند از هویت/ساختار اصلی فاصله بگیرند ( SR3 )

اینجاست که «ارتقای کیفیت» با «بازطراحی» ترکیب می‌شود. گاهی اوقات این دقیقاً همان چیزی است که می‌خواهید. گاهی اوقات اینطور نیست.

۴) ارتقاء کیفیت ویدیو با حفظ ثبات زمانی 🎞️

ارتقاء کیفیت ویدیو اغلب منطق تشخیص حرکت را اضافه می‌کند:

  • از فریم‌های همسایه برای تثبیت جزئیات استفاده می‌کند ( BasicVSR (CVPR 2021) )

  • سعی می‌کند از سوسو زدن و آثار خزنده جلوگیری کند

  • اغلب سوپر رزولوشن را با نویززدایی و حذف درهم‌تنیدگی ترکیب می‌کند ( مثل Topaz Video )

اگر ارتقای کیفیت تصویر مانند بازیابی یک نقاشی باشد، ارتقای کیفیت ویدیو مانند بازیابی یک کتاب مصور بدون تغییر شکل بینی شخصیت در هر صفحه است. که البته... سخت‌تر از آن چیزی است که به نظر می‌رسد.


چرا افزایش کیفیت تصویر با هوش مصنوعی گاهی اوقات جعلی به نظر می‌رسد (و چگونه آن را تشخیص دهیم) 👀🚩

ارتقاء کیفیت با هوش مصنوعی به دلایل قابل تشخیصی با شکست مواجه می‌شود. وقتی الگوها را یاد بگیرید، آنها را همه جا خواهید دید، مثل خرید یک ماشین جدید و ناگهان متوجه آن مدل در هر خیابانی می‌شوید 😵💫

رایج می‌گوید:

  • موم کردن پوست صورت (نویززدایی بیش از حد + صاف کردن)

  • هاله‌های بیش از حد تیز در اطراف لبه‌ها (محدوده کلاسیک «بیش‌برآمدگی») ( درون‌یابی دومکعبی )

  • بافت‌های تکراری (دیوارهای آجری تبدیل به الگوهای کپی-پیست می‌شوند)

  • میکروکنتراست ترد که فریاد می‌زند «الگوریتم»

  • دستکاری متن که در آن حروف تقریباً به حروف تبدیل می‌شوند (بدترین نوع)

  • رانش جزئیات که در آن ویژگی‌های کوچک به طور نامحسوس تغییر می‌کنند، به خصوص در گردش‌های کاری انتشار ( SR3 )

قسمت دشوار ماجرا: گاهی اوقات این تصاویر مصنوعی در یک نگاه «بهتر» به نظر می‌رسند. مغز شما وضوح را دوست دارد. اما بعد از لحظه‌ای، احساس می‌کنید که... از کار افتاده‌اند.

یک تاکتیک مناسب این است که زوم کنید و بررسی کنید که آیا در فاصله دید معمولی طبیعی به نظر می‌رسد یا خیر. اگر فقط در زوم ۴۰۰٪ خوب به نظر می‌رسد، این یک برد نیست، این یک سرگرمی است 😅


نحوه‌ی عملکرد ارتقاء هوش مصنوعی: بخش آموزش، بدون سردرد ریاضی 📉🙂

آموزش مدل‌های با وضوح فوق‌العاده معمولاً شامل موارد زیر است:

انواع معمول تلفات:

  • از دست دادن پیکسل (L1/L2)
    دقت را افزایش می‌دهد. می‌تواند نتایج کمی ضعیف ایجاد کند.

  • افت ادراکی (Perceptual loss
    ، ویژگی‌های عمیق‌تر (مانند «آیا این به نظر می‌رسد ؟») را مقایسه می‌کند ( افت ادراکی (Johnson et al., 2016) ).

  • خطای تخاصمی (GAN)
    واقع‌گرایی را تشویق می‌کند، گاهی اوقات به قیمت از دست دادن دقت تحت‌اللفظی ( SRGAN ، شبکه‌های تخاصمی مولد ).

یک کشمکش دائمی وجود دارد:

  • آن را به نسخه اصلی
    وفادار کنید

  • آن را دلپذیر

ابزارهای مختلف در جایگاه‌های متفاوتی از این طیف قرار می‌گیرند. و بسته به اینکه آیا در حال بازیابی عکس‌های خانوادگی هستید یا در حال آماده‌سازی پوستری که در آن «زیبایی» بیشتر از دقت در تشخیص اهمیت دارد، ممکن است یکی را ترجیح دهید.


گردش‌های کاری عملی: عکس‌ها، اسکن‌های قدیمی، انیمه و ویدیو 📸🧾🎥

عکس‌ها (پرتره، منظره، عکس‌های محصول)

بهترین روش معمولاً این است:

  • ابتدا نویززدایی ملایم (در صورت نیاز)

  • با تنظیمات محافظه‌کارانه، ارتقا یافته

  • اگر همه چیز خیلی نرم به نظر رسید، دوباره دانه اضافه کنید (بله، واقعاً)

غلات مثل نمک می‌مونه. مصرف زیادش شام رو خراب می‌کنه، اما هیچ کدومش نمی‌تونه یه ذره بی‌مزه باشه 🍟

اسکن‌های قدیمی و تصاویر به شدت فشرده‌شده

اینها سخت‌تر هستند زیرا مدل ممکن است بلوک‌های فشرده‌سازی را به عنوان «بافت» در نظر بگیرد.
امتحان کنید:

  • حذف یا رفع انسداد مصنوعات

  • سپس مجلل

  • سپس کمی شارپ کردن (نه خیلی زیاد... می‌دانم، همه این را می‌گویند، اما با این حال)

انیمه و هنر خطی

مزایای هنر خطی از:

  • مدل‌هایی که لبه‌های تمیز را حفظ می‌کنند

  • کاهش توهم بافت،
    ارتقای کیفیت انیمه اغلب عالی به نظر می‌رسد زیرا شکل‌ها ساده‌تر و منسجم‌تر هستند. (خوش شانس.)

ویدئو

ویدیو مراحل اضافی را اضافه می‌کند:

  • نویززدایی

  • Deinterlace (برای منابع خاص)

  • مجلل

  • هموارسازی یا تثبیت زمانی ( BasicVSR (CVPR 2021) )

  • اضافه کردن مجدد دانه‌ها به صورت اختیاری برای انسجام

اگر از ثبات زمانی صرف نظر کنید، آن جزئیات درخشان را خواهید دید که سوسو می‌زنند. وقتی متوجه آن شوید، دیگر نمی‌توانید آن را نادیده بگیرید. مانند یک صندلی جیرجیر در یک اتاق ساکت 😖


انتخاب تنظیمات بدون حدس و گمان زیاد (یک ترفند کوچک) 🎛️😵💫

این یک طرز فکر مناسب برای شروع است:

  • اگر چهره‌ها پلاستیکی به نظر می‌رسند،
    نویز را کاهش دهید، وضوح تصویر را کم کنید، یک مدل یا حالت حفظ چهره را امتحان کنید.

  • اگر بافت‌ها خیلی شدید به نظر می‌رسند،
    اسلایدرهای «افزایش جزئیات» یا «بازیابی جزئیات» را پایین‌تر بیاورید، سپس دانه‌بندی ظریفی اضافه کنید.

  • اگر لبه‌ها می‌درخشند،
    وضوح تصویر را کم کنید، گزینه‌های حذف هاله را بررسی کنید.

  • اگر تصویر خیلی «هوش مصنوعی» به نظر می‌رسد،
    کمی محافظه‌کارانه‌تر عمل کنید. گاهی اوقات بهترین حرکت، صرفاً... کمتر کردن است.

همچنین: فقط به خاطر اینکه می‌توانید، کیفیت را ۸ برابر نکنید. یک ۲ یا ۴ برابر تمیز اغلب نقطه مطلوب است. بعد از آن، از مدل می‌خواهید که درباره پیکسل‌های شما فن‌فیکشن بنویسد 📖😂


اخلاق، اصالت و سوال عجیب «حقیقت» 🧭😬

ارتقای کیفیت با هوش مصنوعی مرز بین جزئیات را محو می‌کند:

  • بازسازی به معنای بازیابی آنچه وجود داشته است، می‌باشد

  • بهبود به معنای اضافه کردن چیزی است که وجود نداشته است

با عکس‌های شخصی، معمولاً خوب (و دوست‌داشتنی) است. با روزنامه‌نگاری، شواهد قانونی، تصویربرداری پزشکی یا هر چیزی که در آن صداقت اهمیت دارد... باید مراقب باشید ( OSAC/NIST: راهنمای استاندارد برای مدیریت تصویر دیجیتال پزشکی قانونی ، دستورالعمل‌های SWGDE برای تحلیل تصویر پزشکی قانونی ).

یک قانون ساده:

  • اگر ریسک بالایی وجود دارد، ارتقای هوش مصنوعی را به عنوان یک راهکار توضیحی ، نه قطعی.

همچنین، افشاگری در زمینه‌های حرفه‌ای اهمیت دارد. نه به این دلیل که هوش مصنوعی بد است، بلکه به این دلیل که مخاطبان حق دارند بدانند که آیا جزئیات بازسازی شده‌اند یا ضبط شده‌اند. این فقط... محترمانه است.


نکات پایانی و جمع‌بندی سریع 🧡✅

بنابراین، نحوه‌ی عملکرد ارتقاء کیفیت تصویر با هوش مصنوعی به این صورت است: مدل‌ها یاد می‌گیرند که چگونه جزئیات با وضوح بالا به الگوهای با وضوح پایین مرتبط می‌شوند، سپس در طول ارتقاء کیفیت، پیکسل‌های اضافی باورپذیر را پیش‌بینی می‌کنند ( یادگیری عمیق برای وضوح فوق‌العاده تصویر: یک بررسی ). بسته به خانواده‌ی مدل (CNN، GAN، انتشار، ویدئو-زمانی)، این پیش‌بینی می‌تواند محافظه‌کارانه و دقیق باشد... یا جسورانه و گاهی اوقات بی‌ثبات 😅

خلاصه سریع

اگر مایلید، به من بگویید چه چیزی را می‌خواهید ارتقا دهید (چهره‌ها، عکس‌های قدیمی، ویدیو، انیمه، اسکن‌های متنی)، تا یک استراتژی تنظیمات پیشنهاد کنم که از مشکلات رایج «ظاهر هوش مصنوعی» جلوگیری کند 🎯🙂


سوالات متداول

ارتقاء کیفیت تصویر با هوش مصنوعی و نحوه عملکرد آن

ارتقای تصویر با هوش مصنوعی (که اغلب «فوق وضوح» نامیده می‌شود) با پیش‌بینی جزئیات از دست رفته با وضوح بالا از الگوهای آموخته شده در طول آموزش، وضوح تصویر را افزایش می‌دهد. به جای اینکه پیکسل‌ها مانند درون‌یابی دو مکعبی به سادگی کشیده شوند، یک مدل لبه‌ها، بافت‌ها، چهره‌ها و خطوط متن مانند را مطالعه می‌کند، سپس داده‌های پیکسلی جدیدی تولید می‌کند که با آن الگوهای آموخته شده هماهنگ است. این کار کمتر «بازگرداندن واقعیت» و بیشتر «ایجاد یک حدس باورپذیر» است که طبیعی به نظر می‌رسد.

افزایش مقیاس با هوش مصنوعی در مقابل تغییر اندازه دو مکعبی یا سنتی

روش‌های سنتی ارتقاء کیفیت (مانند bicubic) عمدتاً بین پیکسل‌های موجود درون‌یابی می‌کنند و انتقال‌ها را بدون ایجاد جزئیات جدید واقعی، هموار می‌کنند. ارتقاء کیفیت با هوش مصنوعی با هدف بازسازی ساختار قابل قبول با تشخیص نشانه‌های بصری و پیش‌بینی اینکه نسخه‌های با وضوح بالای آن نشانه‌ها چگونه به نظر می‌رسند، انجام می‌شود. به همین دلیل است که نتایج هوش مصنوعی می‌توانند به طور چشمگیری واضح‌تر به نظر برسند، و همچنین به همین دلیل است که می‌توانند مصنوعات را معرفی کنند یا جزئیاتی را که در منبع وجود نداشتند، "ابداع" کنند.

چرا صورت‌ها می‌توانند مومی یا بیش از حد صاف به نظر برسند؟

چهره‌های مومی معمولاً از نویززدایی و صاف‌سازی شدید همراه با شارپ‌سازی که بافت طبیعی پوست را از بین می‌برد، ناشی می‌شوند. بسیاری از ابزارها با نویز و بافت ظریف به طور مشابه رفتار می‌کنند، بنابراین «تمیز کردن» یک تصویر می‌تواند منافذ و جزئیات ظریف را پاک کند. یک رویکرد رایج، کاهش نویززدایی و شارپ‌سازی، استفاده از حالت حفظ چهره در صورت وجود و سپس اضافه کردن کمی گرین است تا نتیجه کمتر پلاستیکی و بیشتر شبیه عکس به نظر برسد.

مصنوعات رایج ارتقاء مقیاس هوش مصنوعی که باید مراقب آنها باشید

نشانه‌های معمول شامل هاله‌های اطراف لبه‌ها، الگوهای بافت تکراری (مانند آجرهای کپی-پیست)، کنتراست ریز و شکننده و متنی که تقریباً به حروف تبدیل می‌شود، می‌شود. در گردش‌های کاری مبتنی بر انتشار، می‌توانید در جایی که ویژگی‌های کوچک به طور نامحسوس تغییر می‌کنند، شاهد تغییر جزئیات نیز باشید. برای ویدیو، سوسو زدن و جزئیات خزنده در فریم‌ها، پرچم‌های قرمز بزرگی هستند. اگر فقط در بزرگنمایی شدید خوب به نظر می‌رسد، احتمالاً تنظیمات بیش از حد سختگیرانه هستند.

چگونه ارتقادهنده‌های GAN، CNN و انتشار، نتایج متفاوتی ارائه می‌دهند

وضوح فوق‌العاده مبتنی بر CNN معمولاً ثابت‌تر و قابل پیش‌بینی‌تر است، اما اگر به شدت اعمال شود، می‌تواند «پردازش‌شده» به نظر برسد. گزینه‌های مبتنی بر GAN (به سبک ESRGAN) اغلب بافت قوی‌تر و وضوح قابل درک‌تری ایجاد می‌کنند، اما می‌توانند جزئیات نادرستی را، به خصوص در چهره‌ها، ایجاد کنند. ارتقاء مبتنی بر انتشار می‌تواند جزئیات زیبا و قابل باوری ایجاد کند، اما اگر تنظیمات راهنمایی یا قدرت خیلی قوی باشند، ممکن است از ساختار اصلی منحرف شود.

یک استراتژی تنظیمات کاربردی برای جلوگیری از ظاهر «بیش از حد هوش مصنوعی»

با احتیاط شروع کنید: قبل از رسیدن به فاکتورهای شدید، مقیاس را ۲ برابر یا ۴ برابر افزایش دهید. اگر چهره‌ها پلاستیکی به نظر می‌رسند، نویززدایی و وضوح‌سنجی را کاهش دهید و حالت آگاهی از چهره را امتحان کنید. اگر بافت‌ها خیلی شدید شدند، بهبود جزئیات را کمتر کنید و بعداً اضافه کردن دانه‌های ظریف را در نظر بگیرید. اگر لبه‌ها می‌درخشند، وضوح‌سنجی را کاهش دهید و هاله یا حذف مصنوعات را بررسی کنید. در بسیاری از خطوط تولید، «کمتر» برنده است زیرا واقع‌گرایی باورپذیر را حفظ می‌کند.

مدیریت اسکن‌های قدیمی یا تصاویر فشرده‌شده با JPEG قبل از ارتقاء کیفیت

تصاویر فشرده‌شده کار دشواری هستند، زیرا مدل‌ها می‌توانند مصنوعات بلوکی را به عنوان بافت واقعی در نظر بگیرند و آنها را تقویت کنند. یک گردش کار رایج، ابتدا حذف مصنوعات یا رفع انسداد، سپس افزایش مقیاس و در صورت نیاز، تشدید نوری است. برای اسکن‌ها، پاکسازی ملایم می‌تواند به مدل کمک کند تا به جای آسیب، روی ساختار واقعی تمرکز کند. هدف، کاهش «نشانه‌های بافت جعلی» است تا افزایش مقیاس مجبور به حدس‌های مطمئن از ورودی‌های نویزی نشود.

چرا ارتقاء کیفیت ویدیو سخت‌تر از ارتقاء کیفیت عکس است؟

ارتقاء کیفیت ویدیو باید در فریم‌های مختلف ثابت باشد، نه فقط در یک تصویر ثابت. اگر جزئیات فریم به فریم سوسو بزنند، نتیجه به سرعت حواس‌پرت‌کننده می‌شود. رویکردهای متمرکز بر ویدیو از اطلاعات زمانی فریم‌های مجاور برای تثبیت بازسازی و جلوگیری از مصنوعات سوسو زننده استفاده می‌کنند. بسیاری از گردش‌های کاری همچنین شامل حذف نویز، حذف درهم‌تنیدگی برای منابع خاص و معرفی مجدد اختیاری دانه‌ها هستند تا کل سکانس به جای وضوح مصنوعی، منسجم به نظر برسد.

وقتی ارتقای کیفیت با هوش مصنوعی مناسب نیست یا تکیه بر آن خطرناک است

ارتقای کیفیت تصویر با هوش مصنوعی بهتر است به عنوان یک بهبود کیفیت در نظر گرفته شود، نه یک مدرک. در زمینه‌های حساس مانند روزنامه‌نگاری، شواهد حقوقی، تصویربرداری پزشکی یا کارهای پزشکی قانونی، تولید پیکسل‌های «باورپذیر» می‌تواند گمراه‌کننده باشد زیرا ممکن است جزئیاتی را اضافه کند که ثبت نشده‌اند. یک چارچوب‌بندی امن‌تر این است که از آن به صورت تصویری استفاده شود و فاش شود که یک فرآیند هوش مصنوعی جزئیات را بازسازی کرده است. اگر وفاداری بسیار مهم است، نسخه‌های اصلی را حفظ کنید و هر مرحله و تنظیمات پردازش را مستند کنید.

منابع

  1. arXiv - یادگیری عمیق برای وضوح تصویر فوق‌العاده: یک بررسی - arxiv.org

  2. arXiv - وضوح فوق‌العاده تصویر با استفاده از شبکه‌های کانولوشن عمیق (SRCNN) - arxiv.org

  3. arXiv - واقعی-ESRGAN - arxiv.org

  4. arXiv - ESRGAN - arxiv.org

  5. arXiv - SR3 - arxiv.org

  6. توسعه‌دهنده‌ی انویدیا - انویدیا DLSS - developer.nvidia.com

  7. AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com

  8. بنیاد بینایی کامپیوتر (CVF) دسترسی آزاد - BasicVSR: جستجوی اجزای ضروری در وضوح فوق‌العاده ویدیو (CVPR 2021) - openaccess.thecvf.com

  9. arXiv - شبکه‌های مولد تخاصمی - arxiv.org

  10. arXiv - SRGAN - arxiv.org

  11. arXiv - زیان‌های ادراکی (جانسون و همکاران، ۲۰۱۶) - arxiv.org

  12. گیت‌هاب - مخزن Real-ESRGAN (گزینه‌های کاشی) - github.com

  13. ویکی‌پدیا - درون‌یابی دومکعبی - wikipedia.org

  14. آزمایشگاه‌های توپاز - عکس توپاز - topazlabs.com

  15. آزمایشگاه‌های توپاز - ویدیوی توپاز - topazlabs.com

  16. مرکز راهنمای ادوبی - ادوبی اینشنز > سوپر رزولوشن - helpx.adobe.com

  17. NIST / OSAC - راهنمای استاندارد برای مدیریت تصاویر دیجیتال پزشکی قانونی (نسخه 1.0) - nist.gov

  18. SWGDE - دستورالعمل‌های تحلیل تصاویر پزشکی قانونی - swgde.org

جدیدترین هوش مصنوعی را در فروشگاه رسمی دستیار هوش مصنوعی پیدا کنید

درباره ما

بازگشت به وبلاگ