پاسخ کوتاه: ارتقای کیفیت تصویر با هوش مصنوعی با آموزش یک مدل روی تصاویر با وضوح پایین و بالا و سپس استفاده از آن برای پیشبینی پیکسلهای اضافی باورپذیر در طول ارتقای کیفیت انجام میشود. اگر مدل در آموزش بافتها یا چهرههای مشابهی را دیده باشد، میتواند جزئیات قانعکنندهای را اضافه کند؛ در غیر این صورت، ممکن است در ویدیو دچار «توهم» شود و آثاری مانند هاله، پوست مومی یا سوسو زدن را نشان دهد.
نکات کلیدی:
پیشبینی : مدل جزئیات قابل قبولی ارائه میدهد، نه بازسازی تضمینشدهای از واقعیت.
انتخاب مدل : CNNها معمولاً ثابتتر هستند؛ GANها میتوانند واضحتر به نظر برسند اما ریسک ایجاد ویژگیها را دارند.
بررسی آثار باستانی : مراقب هالهها، بافتهای تکراری، «تقریباً حروف» و چهرههای پلاستیکی باشید.
پایداری ویدیو : از روشهای زمانی استفاده کنید، در غیر این صورت شاهد لرزش و رانش فریم به فریم خواهید بود.
کاربرد پرخطر : اگر دقت اهمیت دارد، پردازش را افشا کنید و نتایج را به عنوان نمونه در نظر بگیرید.

احتمالاً آن را دیدهاید: یک تصویر کوچک و ترد به چیزی تبدیل میشود که به اندازه کافی واضح است تا بدون هیچ مشکلی چاپ شود، پخش شود یا در یک ارائه قرار گیرد. این حس تقلب را میدهد. و - به بهترین شکل - تقریباً همینطور است 😅
بنابراین، نحوهی عملکرد ارتقاء کیفیت تصویر با هوش مصنوعی به چیزی خاصتر از «افزایش جزئیات توسط کامپیوتر» (حرکت دست) و نزدیکتر به «پیشبینی ساختار با وضوح بالا توسط یک مدل بر اساس الگوهایی که از نمونههای فراوان آموخته است» ( یادگیری عمیق برای وضوح فوقالعاده تصویر: یک نظرسنجی ) خلاصه میشود. این مرحلهی پیشبینی، کل ماجرا است - و به همین دلیل است که ارتقاء کیفیت تصویر با هوش مصنوعی میتواند خیرهکننده به نظر برسد... یا کمی پلاستیکی... یا مانند گربهی شما که سبیلهای اضافی رشد کرده است.
مقالاتی که شاید بعد از این مطلب دوست داشته باشید بخوانید:
🔗 نحوه کار هوش مصنوعی
اصول اولیه مدلها، دادهها و استنتاج در هوش مصنوعی را بیاموزید.
🔗 نحوه یادگیری هوش مصنوعی
ببینید که چگونه دادههای آموزشی و بازخورد، عملکرد مدل را در طول زمان بهبود میبخشند.
🔗 چگونه هوش مصنوعی ناهنجاریها را تشخیص میدهد
الگوهای پایه و نحوه تشخیص سریع رفتارهای غیرمعمول توسط هوش مصنوعی را درک کنید.
🔗 چگونه هوش مصنوعی روندها را پیشبینی میکند
روشهای پیشبینی که سیگنالها را شناسایی کرده و تقاضای آینده را پیشبینی میکنند، بررسی کنید.
نحوه عملکرد ارتقاء کیفیت با هوش مصنوعی: ایده اصلی، به زبان روزمره 🧩
ارتقاء تصویر به معنای افزایش وضوح تصویر است: پیکسلهای بیشتر، تصویر بزرگتر. ارتقاء تصویر سنتی (مانند bicubic) اساساً پیکسلها را کشیده و انتقالها را هموار میکند ( درونیابی Bicubic ). خوب است، اما نمیتواند جدیدی - فقط درونیابی میکند.
ارتقای کیفیت تصویر با هوش مصنوعی، چیزی جسورانهتر (که در دنیای تحقیقات به آن «فوق وضوح» هم میگویند) را امتحان میکند ( یادگیری عمیق برای وضوح فوقالعاده تصویر: یک بررسی ):
-
به ورودی با وضوح پایین نگاه میکند
-
الگوها (لبهها، بافتها، ویژگیهای صورت، خطوط متن، بافت پارچه و ...) را تشخیص میدهد
-
پیشبینی میکند که یک نسخه با وضوح بالاتر چگونه باید باشد
-
دادههای پیکسلی اضافی تولید میکند که با آن الگوها مطابقت دارند
نه اینکه «واقعیت را بهطور کامل بازیابی کند»، بلکه بیشتر شبیه «یک حدس بسیار باورپذیر بزند» ( ابروضوح تصویر با استفاده از شبکههای پیچشی عمیق (SRCNN) ). اگر این کمی مشکوک به نظر میرسد، اشتباه نمیکنید - اما به همین دلیل است که اینقدر خوب کار میکند 😄
و بله، این یعنی ارتقای کیفیت با هوش مصنوعی اساساً یک توهم کنترلشده است... اما به شیوهای سازنده و با حفظ پیکسلها.
چه چیزی یک نسخه خوب از ارتقاء کیفیت تصویر با هوش مصنوعی را میسازد؟ ✅🛠️
اگر در حال قضاوت در مورد یک ارتقا دهنده کیفیت تصویر با هوش مصنوعی (یا یک تنظیمات از پیش تعیین شده) هستید، موارد زیر بیشترین اهمیت را دارند:
-
بازیابی جزئیات بدون پخت بیش از حد.
ارتقای خوب، تردی و ساختار را افزایش میدهد، نه نویز ترد یا منافذ مصنوعی. -
نظم و انضباط در لبهها،
خطوط تمیز، تمیز میمانند. مدلهای بد باعث میشوند لبهها لق بزنند یا هالههایی ایجاد کنند. -
واقعگرایی بافت
مو نباید به ضربه قلممو تبدیل شود. آجر نباید به مهر الگوی تکرارشونده تبدیل شود. -
مدیریت نویز و فشردهسازی
بسیاری از تصاویر روزمره به دلیل فشردهسازی JPEG از بین میروند. یک ارتقا دهنده خوب این آسیب را تشدید نمیکند ( Real-ESRGAN ). -
آگاهی از چهره و متن
چهرهها و متن سادهترین مکانها برای تشخیص اشتباهات هستند. مدلهای خوب با آنها به آرامی رفتار میکنند (یا حالتهای تخصصی دارند). -
ثبات در فریمها (برای ویدیو)
اگر جزئیات فریم به فریم سوسو بزنند، چشمان شما جیغ خواهند زد. ارتقای کیفیت ویدیو با ثبات زمانی زنده میماند یا میمیرد ( BasicVSR (CVPR 2021) ). -
کنترلهایی که منطقی باشند.
شما اسلایدرهایی میخواهید که به نتایج واقعی منجر شوند: حذف نویز، محو کردن تاری، حذف آرتیفکت، حفظ دانهها، افزایش وضوح... چیزهای کاربردی.
یک قانون بیسروصدا که پابرجاست: «بهترین» ارتقاء کیفیت اغلب همانی است که به سختی متوجه آن میشوید. فقط به نظر میرسد که از ابتدا دوربین بهتری داشتهاید 📷✨
جدول مقایسه: گزینههای محبوب ارتقای کیفیت با هوش مصنوعی (و کاربرد آنها) 📊🙂
در زیر یک مقایسه عملی آورده شده است. قیمتها عمداً نامشخص هستند زیرا ابزارها بر اساس مجوز، بستهها، هزینههای محاسباتی و همه چیزهای جالب دیگر متفاوت هستند.
| ابزار / رویکرد | بهترین برای | حس و حال قیمت | چرا کار میکند (تقریباً) |
|---|---|---|---|
| دستگاههای افزایش کیفیت تصویر رومیزی به سبک توپاز ( توپاز فوتو ، توپاز ویدیو ) | عکس، ویدئو، گردش کار آسان | پولی | مدلهای عمومی قوی + تنظیمات زیاد، معمولاً «فقط کار میکنند»... بیشتر اوقات |
| ویژگیهای نوع «Super Resolution» ادوبی ( Adobe Enhance > Super Resolution ) | عکاسانی که از قبل در آن اکوسیستم هستند | اشتراک-y | بازسازی دقیق جزئیات، معمولاً محافظهکارانه (کمتر نمایشی) |
| انواع Real-ESRGAN / ESRGAN ( Real-ESRGAN ، ESRGAN ) | خودتان انجام دهید، توسعهدهندگان، کارهای دستهای | رایگان (اما زمانبر) | در جزئیات بافت عالی است، اگر مراقب نباشید میتواند روی صورتها تند و زننده باشد |
| حالتهای ارتقاء مبتنی بر انتشار ( SR3 ) | کار خلاقانه، نتایج سبکمند | مختلط | میتواند جزئیات زیبایی خلق کند - همچنین میتواند مزخرفات را اختراع کند، پس... بله |
| ارتقا دهندههای بازی (به سبک DLSS/FSR) ( NVIDIA DLSS ، AMD FSR 2 ) | بازی و رندرینگ بلادرنگ | بستهبندیشده | از دادههای حرکتی و اطلاعات قبلی استفاده میکند - عملکرد روان، برنده است 🕹️ |
| سرویسهای ارتقاء ابری | راحتی، بردهای سریع | پرداخت به ازای هر بار استفاده | سریع + مقیاسپذیر، اما شما کنترل و گاهی اوقات ظرافت را معامله میکنید |
| ارتقادهندههای هوش مصنوعی متمرکز بر ویدیو ( BasicVSR ، Topaz Video ) | فیلمهای قدیمی، انیمه، آرشیو | پولی | ترفندهای زمانی برای کاهش سوسو زدن + مدلهای ویدیویی تخصصی |
| ارتقاء کیفیت گوشی/گالری «هوشمند» | استفاده گاه به گاه | شامل | مدلهای سبک وزن برای خروجی مطلوب تنظیم شدهاند، نه برای کمال (هنوز هم مفید هستند) |
اعتراف عجیب قالببندی: «پرداختی» یعنی کلی کار تو اون جدول انجام دادن. ولی منظورم رو متوجه شدید 😅
راز بزرگ: مدلها یاد میگیرند که از وضوح پایین به وضوح بالا نگاشت کنند 🧠➡️🖼️
در قلب اکثر روشهای ارتقاء کیفیت با هوش مصنوعی، یک سیستم یادگیری نظارتشده ( تصویر با وضوح فوقالعاده بالا با استفاده از شبکههای پیچشی عمیق (SRCNN) ) قرار دارد:
-
با تصاویر با وضوح بالا شروع کنید ("حقیقت")
-
آنها را به نسخههای با وضوح پایین ("ورودی") کاهش نمونه دهید
-
آموزش مدلی برای بازسازی تصویر با وضوح بالا از تصویر با وضوح پایین
با گذشت زمان، مدل همبستگیهایی مانند موارد زیر را یاد میگیرد:
-
«این نوع تیرگی دور چشم معمولاً مربوط به مژهها است»
-
«این خوشه پیکسلی اغلب نشاندهنده متن serif است»
-
«این گرادیان لبه شبیه خط روی پشت بام است، نه نویز تصادفی»
این به خاطر سپردن تصاویر خاص (به معنای ساده) نیست، بلکه یادگیری ساختار آماری است ( یادگیری عمیق برای وضوح فوقالعاده تصویر: یک بررسی ). آن را مانند یادگیری دستور زبان بافتها و لبهها در نظر بگیرید. نه دستور زبان شعر، بیشتر شبیه... دستور زبان دستی IKEA 🪑📦 (استعاره دست و پا گیر، اما به اندازه کافی نزدیک).
جزئیات: چه اتفاقی در طول استنتاج میافتد (وقتی مقیاس را ارتقا میدهید) ⚙️✨
وقتی تصویری را به یک ارتقادهندهی کیفیت هوش مصنوعی میدهید، معمولاً مسیری مانند این وجود دارد:
-
پیشپردازش
-
تبدیل فضای رنگی (گاهی اوقات)
-
مقادیر پیکسل را نرمالسازی کنید
-
اگر تصویر بزرگ است، آن را به قطعات کوچک تقسیم کنید (بررسی واقعیت VRAM 😭) ( مخزن Real-ESRGAN (گزینههای کاشی) )
-
-
استخراج ویژگی
-
لایههای اولیه لبهها، گوشهها و گرادیانها را تشخیص میدهند
-
لایههای عمیقتر الگوها را تشخیص میدهند: بافتها، شکلها، اجزای صورت
-
-
بازسازی
-
این مدل یک نقشه ویژگی با وضوح بالاتر تولید میکند
-
سپس آن را به خروجی پیکسلی واقعی تبدیل میکند
-
-
پس پردازش
-
تیز کردن اختیاری
-
نویززدایی اختیاری
-
حذف آرتیفکت اختیاری (زنگ، هاله، انسداد)
-
یک نکته ظریف: بسیاری از ابزارها کاشیها را بزرگ میکنند، سپس درزها را با هم ترکیب میکنند. ابزارهای عالی مرزهای کاشی را پنهان میکنند. ابزارهای معمولی اگر با دقت نگاه کنید، ردهای شبکهای کمرنگی از خود به جا میگذارند. و بله، با دقت نگاه خواهید کرد، زیرا انسانها عاشق بررسی نقصهای کوچک با بزرگنمایی ۳۰۰٪ مانند بچهگرملینها هستند 🧌
خانوادههای اصلی مدلهای مورد استفاده برای ارتقای کیفیت با هوش مصنوعی (و دلیل متفاوت بودن آنها) 🤖📚
۱) ابرتفکیکپذیری مبتنی بر CNN (روش کلاسیک و کارآمد)
شبکههای عصبی کانولوشن در الگوهای محلی عالی هستند: لبهها، بافتها، ساختارهای کوچک ( تصویر با وضوح فوقالعاده با استفاده از شبکههای کانولوشن عمیق (SRCNN) ).
-
مزایا: سریع، پایدار، غافلگیریهای کمتر
-
معایب: اگر محکم فشار داده شود، ممکن است کمی «پردازششده» به نظر برسد
۲) ارتقاء مقیاس مبتنی بر GAN (به سبک ESRGAN) 🎭
شبکههای مولد تخاصمی (GAN) یک مولد را آموزش میدهند تا تصاویر با وضوح بالا تولید کند که یک متمایزکننده نتواند آنها را از تصاویر واقعی ( Generative Adversarial Networks ) تشخیص دهد.
-
مزایا: جزئیات دقیق، بافت چشمگیر
-
معایب: میتواند جزئیاتی را که وجود نداشته، از خودش دربیاورد - گاهی اوقات اشتباه، گاهی اوقات غیرطبیعی ( SRGAN ، ESRGAN )
یک GAN میتواند آن وضوح بینظیر را به شما بدهد. همچنین میتواند به سوژه پرتره شما ابرویی اضافه کند. پس... نبردهایتان را انتخاب کنید 😬
۳) ارتقاء کیفیت مبتنی بر انتشار (ایده خلاقانه) 🌫️➡️🖼️
مدلهای انتشار، نویز را گام به گام حذف میکنند و میتوانند برای تولید جزئیات با وضوح بالا ( SR3 ) هدایت شوند.
-
مزایا: میتواند در جزئیات قابل قبول، به خصوص برای کارهای خلاقانه، فوقالعاده خوب باشد
-
معایب: اگر تنظیمات تهاجمی باشند، میتوانند از هویت/ساختار اصلی فاصله بگیرند ( SR3 )
اینجاست که «ارتقای کیفیت» با «بازطراحی» ترکیب میشود. گاهی اوقات این دقیقاً همان چیزی است که میخواهید. گاهی اوقات اینطور نیست.
۴) ارتقاء کیفیت ویدیو با حفظ ثبات زمانی 🎞️
ارتقاء کیفیت ویدیو اغلب منطق تشخیص حرکت را اضافه میکند:
-
از فریمهای همسایه برای تثبیت جزئیات استفاده میکند ( BasicVSR (CVPR 2021) )
-
سعی میکند از سوسو زدن و آثار خزنده جلوگیری کند
-
اغلب سوپر رزولوشن را با نویززدایی و حذف درهمتنیدگی ترکیب میکند ( مثل Topaz Video )
اگر ارتقای کیفیت تصویر مانند بازیابی یک نقاشی باشد، ارتقای کیفیت ویدیو مانند بازیابی یک کتاب مصور بدون تغییر شکل بینی شخصیت در هر صفحه است. که البته... سختتر از آن چیزی است که به نظر میرسد.
چرا افزایش کیفیت تصویر با هوش مصنوعی گاهی اوقات جعلی به نظر میرسد (و چگونه آن را تشخیص دهیم) 👀🚩
ارتقاء کیفیت با هوش مصنوعی به دلایل قابل تشخیصی با شکست مواجه میشود. وقتی الگوها را یاد بگیرید، آنها را همه جا خواهید دید، مثل خرید یک ماشین جدید و ناگهان متوجه آن مدل در هر خیابانی میشوید 😵💫
رایج میگوید:
-
موم کردن پوست صورت (نویززدایی بیش از حد + صاف کردن)
-
هالههای بیش از حد تیز در اطراف لبهها (محدوده کلاسیک «بیشبرآمدگی») ( درونیابی دومکعبی )
-
بافتهای تکراری (دیوارهای آجری تبدیل به الگوهای کپی-پیست میشوند)
-
میکروکنتراست ترد که فریاد میزند «الگوریتم»
-
دستکاری متن که در آن حروف تقریباً به حروف تبدیل میشوند (بدترین نوع)
-
رانش جزئیات که در آن ویژگیهای کوچک به طور نامحسوس تغییر میکنند، به خصوص در گردشهای کاری انتشار ( SR3 )
قسمت دشوار ماجرا: گاهی اوقات این تصاویر مصنوعی در یک نگاه «بهتر» به نظر میرسند. مغز شما وضوح را دوست دارد. اما بعد از لحظهای، احساس میکنید که... از کار افتادهاند.
یک تاکتیک مناسب این است که زوم کنید و بررسی کنید که آیا در فاصله دید معمولی طبیعی به نظر میرسد یا خیر. اگر فقط در زوم ۴۰۰٪ خوب به نظر میرسد، این یک برد نیست، این یک سرگرمی است 😅
نحوهی عملکرد ارتقاء هوش مصنوعی: بخش آموزش، بدون سردرد ریاضی 📉🙂
آموزش مدلهای با وضوح فوقالعاده معمولاً شامل موارد زیر است:
-
مجموعه دادههای جفتشده (ورودی کمحجم، هدف باحجم بالا) ( تصویر با وضوح بالا با استفاده از شبکههای کانولوشن عمیق (SRCNN) )
-
توابع زیان که بازسازیهای اشتباه را مجازات میکنند ( SRGAN )
انواع معمول تلفات:
-
از دست دادن پیکسل (L1/L2)
دقت را افزایش میدهد. میتواند نتایج کمی ضعیف ایجاد کند. -
افت ادراکی (Perceptual loss
، ویژگیهای عمیقتر (مانند «آیا این به نظر میرسد ؟») را مقایسه میکند ( افت ادراکی (Johnson et al., 2016) ). -
خطای تخاصمی (GAN)
واقعگرایی را تشویق میکند، گاهی اوقات به قیمت از دست دادن دقت تحتاللفظی ( SRGAN ، شبکههای تخاصمی مولد ).
یک کشمکش دائمی وجود دارد:
-
آن را به نسخه اصلی
وفادار کنید -
آن را دلپذیر
ابزارهای مختلف در جایگاههای متفاوتی از این طیف قرار میگیرند. و بسته به اینکه آیا در حال بازیابی عکسهای خانوادگی هستید یا در حال آمادهسازی پوستری که در آن «زیبایی» بیشتر از دقت در تشخیص اهمیت دارد، ممکن است یکی را ترجیح دهید.
گردشهای کاری عملی: عکسها، اسکنهای قدیمی، انیمه و ویدیو 📸🧾🎥
عکسها (پرتره، منظره، عکسهای محصول)
بهترین روش معمولاً این است:
-
ابتدا نویززدایی ملایم (در صورت نیاز)
-
با تنظیمات محافظهکارانه، ارتقا یافته
-
اگر همه چیز خیلی نرم به نظر رسید، دوباره دانه اضافه کنید (بله، واقعاً)
غلات مثل نمک میمونه. مصرف زیادش شام رو خراب میکنه، اما هیچ کدومش نمیتونه یه ذره بیمزه باشه 🍟
اسکنهای قدیمی و تصاویر به شدت فشردهشده
اینها سختتر هستند زیرا مدل ممکن است بلوکهای فشردهسازی را به عنوان «بافت» در نظر بگیرد.
امتحان کنید:
-
حذف یا رفع انسداد مصنوعات
-
سپس مجلل
-
سپس کمی شارپ کردن (نه خیلی زیاد... میدانم، همه این را میگویند، اما با این حال)
انیمه و هنر خطی
مزایای هنر خطی از:
-
مدلهایی که لبههای تمیز را حفظ میکنند
-
کاهش توهم بافت،
ارتقای کیفیت انیمه اغلب عالی به نظر میرسد زیرا شکلها سادهتر و منسجمتر هستند. (خوش شانس.)
ویدئو
ویدیو مراحل اضافی را اضافه میکند:
-
نویززدایی
-
Deinterlace (برای منابع خاص)
-
مجلل
-
هموارسازی یا تثبیت زمانی ( BasicVSR (CVPR 2021) )
-
اضافه کردن مجدد دانهها به صورت اختیاری برای انسجام
اگر از ثبات زمانی صرف نظر کنید، آن جزئیات درخشان را خواهید دید که سوسو میزنند. وقتی متوجه آن شوید، دیگر نمیتوانید آن را نادیده بگیرید. مانند یک صندلی جیرجیر در یک اتاق ساکت 😖
انتخاب تنظیمات بدون حدس و گمان زیاد (یک ترفند کوچک) 🎛️😵💫
این یک طرز فکر مناسب برای شروع است:
-
اگر چهرهها پلاستیکی به نظر میرسند،
نویز را کاهش دهید، وضوح تصویر را کم کنید، یک مدل یا حالت حفظ چهره را امتحان کنید. -
اگر بافتها خیلی شدید به نظر میرسند،
اسلایدرهای «افزایش جزئیات» یا «بازیابی جزئیات» را پایینتر بیاورید، سپس دانهبندی ظریفی اضافه کنید. -
اگر لبهها میدرخشند،
وضوح تصویر را کم کنید، گزینههای حذف هاله را بررسی کنید. -
اگر تصویر خیلی «هوش مصنوعی» به نظر میرسد،
کمی محافظهکارانهتر عمل کنید. گاهی اوقات بهترین حرکت، صرفاً... کمتر کردن است.
همچنین: فقط به خاطر اینکه میتوانید، کیفیت را ۸ برابر نکنید. یک ۲ یا ۴ برابر تمیز اغلب نقطه مطلوب است. بعد از آن، از مدل میخواهید که درباره پیکسلهای شما فنفیکشن بنویسد 📖😂
اخلاق، اصالت و سوال عجیب «حقیقت» 🧭😬
ارتقای کیفیت با هوش مصنوعی مرز بین جزئیات را محو میکند:
-
بازسازی به معنای بازیابی آنچه وجود داشته است، میباشد
-
بهبود به معنای اضافه کردن چیزی است که وجود نداشته است
با عکسهای شخصی، معمولاً خوب (و دوستداشتنی) است. با روزنامهنگاری، شواهد قانونی، تصویربرداری پزشکی یا هر چیزی که در آن صداقت اهمیت دارد... باید مراقب باشید ( OSAC/NIST: راهنمای استاندارد برای مدیریت تصویر دیجیتال پزشکی قانونی ، دستورالعملهای SWGDE برای تحلیل تصویر پزشکی قانونی ).
یک قانون ساده:
-
اگر ریسک بالایی وجود دارد، ارتقای هوش مصنوعی را به عنوان یک راهکار توضیحی ، نه قطعی.
همچنین، افشاگری در زمینههای حرفهای اهمیت دارد. نه به این دلیل که هوش مصنوعی بد است، بلکه به این دلیل که مخاطبان حق دارند بدانند که آیا جزئیات بازسازی شدهاند یا ضبط شدهاند. این فقط... محترمانه است.
نکات پایانی و جمعبندی سریع 🧡✅
بنابراین، نحوهی عملکرد ارتقاء کیفیت تصویر با هوش مصنوعی به این صورت است: مدلها یاد میگیرند که چگونه جزئیات با وضوح بالا به الگوهای با وضوح پایین مرتبط میشوند، سپس در طول ارتقاء کیفیت، پیکسلهای اضافی باورپذیر را پیشبینی میکنند ( یادگیری عمیق برای وضوح فوقالعاده تصویر: یک بررسی ). بسته به خانوادهی مدل (CNN، GAN، انتشار، ویدئو-زمانی)، این پیشبینی میتواند محافظهکارانه و دقیق باشد... یا جسورانه و گاهی اوقات بیثبات 😅
خلاصه سریع
-
ارتقاء تصویر سنتی، پیکسلها را میکشد ( درونیابی دومکعبی )
-
ارتقاء تصویر با هوش مصنوعی، جزئیات از دست رفته را با استفاده از الگوهای آموخته شده پیشبینی میکند ( تصویر با وضوح فوقالعاده با استفاده از شبکههای پیچشی عمیق (SRCNN) )
-
نتایج عالی از مدل درست + خویشتنداری حاصل میشود
-
مراقب هالهها، چهرههای مومی، بافتهای تکراری و سوسو زدن در ویدیو باشید ( BasicVSR (CVPR 2021) )
-
ارتقاء مقیاس اغلب «بازسازی محتمل» است، نه حقیقت کامل ( SRGAN ، ESRGAN )
اگر مایلید، به من بگویید چه چیزی را میخواهید ارتقا دهید (چهرهها، عکسهای قدیمی، ویدیو، انیمه، اسکنهای متنی)، تا یک استراتژی تنظیمات پیشنهاد کنم که از مشکلات رایج «ظاهر هوش مصنوعی» جلوگیری کند 🎯🙂
سوالات متداول
ارتقاء کیفیت تصویر با هوش مصنوعی و نحوه عملکرد آن
ارتقای تصویر با هوش مصنوعی (که اغلب «فوق وضوح» نامیده میشود) با پیشبینی جزئیات از دست رفته با وضوح بالا از الگوهای آموخته شده در طول آموزش، وضوح تصویر را افزایش میدهد. به جای اینکه پیکسلها مانند درونیابی دو مکعبی به سادگی کشیده شوند، یک مدل لبهها، بافتها، چهرهها و خطوط متن مانند را مطالعه میکند، سپس دادههای پیکسلی جدیدی تولید میکند که با آن الگوهای آموخته شده هماهنگ است. این کار کمتر «بازگرداندن واقعیت» و بیشتر «ایجاد یک حدس باورپذیر» است که طبیعی به نظر میرسد.
افزایش مقیاس با هوش مصنوعی در مقابل تغییر اندازه دو مکعبی یا سنتی
روشهای سنتی ارتقاء کیفیت (مانند bicubic) عمدتاً بین پیکسلهای موجود درونیابی میکنند و انتقالها را بدون ایجاد جزئیات جدید واقعی، هموار میکنند. ارتقاء کیفیت با هوش مصنوعی با هدف بازسازی ساختار قابل قبول با تشخیص نشانههای بصری و پیشبینی اینکه نسخههای با وضوح بالای آن نشانهها چگونه به نظر میرسند، انجام میشود. به همین دلیل است که نتایج هوش مصنوعی میتوانند به طور چشمگیری واضحتر به نظر برسند، و همچنین به همین دلیل است که میتوانند مصنوعات را معرفی کنند یا جزئیاتی را که در منبع وجود نداشتند، "ابداع" کنند.
چرا صورتها میتوانند مومی یا بیش از حد صاف به نظر برسند؟
چهرههای مومی معمولاً از نویززدایی و صافسازی شدید همراه با شارپسازی که بافت طبیعی پوست را از بین میبرد، ناشی میشوند. بسیاری از ابزارها با نویز و بافت ظریف به طور مشابه رفتار میکنند، بنابراین «تمیز کردن» یک تصویر میتواند منافذ و جزئیات ظریف را پاک کند. یک رویکرد رایج، کاهش نویززدایی و شارپسازی، استفاده از حالت حفظ چهره در صورت وجود و سپس اضافه کردن کمی گرین است تا نتیجه کمتر پلاستیکی و بیشتر شبیه عکس به نظر برسد.
مصنوعات رایج ارتقاء مقیاس هوش مصنوعی که باید مراقب آنها باشید
نشانههای معمول شامل هالههای اطراف لبهها، الگوهای بافت تکراری (مانند آجرهای کپی-پیست)، کنتراست ریز و شکننده و متنی که تقریباً به حروف تبدیل میشود، میشود. در گردشهای کاری مبتنی بر انتشار، میتوانید در جایی که ویژگیهای کوچک به طور نامحسوس تغییر میکنند، شاهد تغییر جزئیات نیز باشید. برای ویدیو، سوسو زدن و جزئیات خزنده در فریمها، پرچمهای قرمز بزرگی هستند. اگر فقط در بزرگنمایی شدید خوب به نظر میرسد، احتمالاً تنظیمات بیش از حد سختگیرانه هستند.
چگونه ارتقادهندههای GAN، CNN و انتشار، نتایج متفاوتی ارائه میدهند
وضوح فوقالعاده مبتنی بر CNN معمولاً ثابتتر و قابل پیشبینیتر است، اما اگر به شدت اعمال شود، میتواند «پردازششده» به نظر برسد. گزینههای مبتنی بر GAN (به سبک ESRGAN) اغلب بافت قویتر و وضوح قابل درکتری ایجاد میکنند، اما میتوانند جزئیات نادرستی را، به خصوص در چهرهها، ایجاد کنند. ارتقاء مبتنی بر انتشار میتواند جزئیات زیبا و قابل باوری ایجاد کند، اما اگر تنظیمات راهنمایی یا قدرت خیلی قوی باشند، ممکن است از ساختار اصلی منحرف شود.
یک استراتژی تنظیمات کاربردی برای جلوگیری از ظاهر «بیش از حد هوش مصنوعی»
با احتیاط شروع کنید: قبل از رسیدن به فاکتورهای شدید، مقیاس را ۲ برابر یا ۴ برابر افزایش دهید. اگر چهرهها پلاستیکی به نظر میرسند، نویززدایی و وضوحسنجی را کاهش دهید و حالت آگاهی از چهره را امتحان کنید. اگر بافتها خیلی شدید شدند، بهبود جزئیات را کمتر کنید و بعداً اضافه کردن دانههای ظریف را در نظر بگیرید. اگر لبهها میدرخشند، وضوحسنجی را کاهش دهید و هاله یا حذف مصنوعات را بررسی کنید. در بسیاری از خطوط تولید، «کمتر» برنده است زیرا واقعگرایی باورپذیر را حفظ میکند.
مدیریت اسکنهای قدیمی یا تصاویر فشردهشده با JPEG قبل از ارتقاء کیفیت
تصاویر فشردهشده کار دشواری هستند، زیرا مدلها میتوانند مصنوعات بلوکی را به عنوان بافت واقعی در نظر بگیرند و آنها را تقویت کنند. یک گردش کار رایج، ابتدا حذف مصنوعات یا رفع انسداد، سپس افزایش مقیاس و در صورت نیاز، تشدید نوری است. برای اسکنها، پاکسازی ملایم میتواند به مدل کمک کند تا به جای آسیب، روی ساختار واقعی تمرکز کند. هدف، کاهش «نشانههای بافت جعلی» است تا افزایش مقیاس مجبور به حدسهای مطمئن از ورودیهای نویزی نشود.
چرا ارتقاء کیفیت ویدیو سختتر از ارتقاء کیفیت عکس است؟
ارتقاء کیفیت ویدیو باید در فریمهای مختلف ثابت باشد، نه فقط در یک تصویر ثابت. اگر جزئیات فریم به فریم سوسو بزنند، نتیجه به سرعت حواسپرتکننده میشود. رویکردهای متمرکز بر ویدیو از اطلاعات زمانی فریمهای مجاور برای تثبیت بازسازی و جلوگیری از مصنوعات سوسو زننده استفاده میکنند. بسیاری از گردشهای کاری همچنین شامل حذف نویز، حذف درهمتنیدگی برای منابع خاص و معرفی مجدد اختیاری دانهها هستند تا کل سکانس به جای وضوح مصنوعی، منسجم به نظر برسد.
وقتی ارتقای کیفیت با هوش مصنوعی مناسب نیست یا تکیه بر آن خطرناک است
ارتقای کیفیت تصویر با هوش مصنوعی بهتر است به عنوان یک بهبود کیفیت در نظر گرفته شود، نه یک مدرک. در زمینههای حساس مانند روزنامهنگاری، شواهد حقوقی، تصویربرداری پزشکی یا کارهای پزشکی قانونی، تولید پیکسلهای «باورپذیر» میتواند گمراهکننده باشد زیرا ممکن است جزئیاتی را اضافه کند که ثبت نشدهاند. یک چارچوببندی امنتر این است که از آن به صورت تصویری استفاده شود و فاش شود که یک فرآیند هوش مصنوعی جزئیات را بازسازی کرده است. اگر وفاداری بسیار مهم است، نسخههای اصلی را حفظ کنید و هر مرحله و تنظیمات پردازش را مستند کنید.
منابع
-
arXiv - یادگیری عمیق برای وضوح تصویر فوقالعاده: یک بررسی - arxiv.org
-
arXiv - وضوح فوقالعاده تصویر با استفاده از شبکههای کانولوشن عمیق (SRCNN) - arxiv.org
-
arXiv - واقعی-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
توسعهدهندهی انویدیا - انویدیا DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
-
بنیاد بینایی کامپیوتر (CVF) دسترسی آزاد - BasicVSR: جستجوی اجزای ضروری در وضوح فوقالعاده ویدیو (CVPR 2021) - openaccess.thecvf.com
-
arXiv - شبکههای مولد تخاصمی - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - زیانهای ادراکی (جانسون و همکاران، ۲۰۱۶) - arxiv.org
-
گیتهاب - مخزن Real-ESRGAN (گزینههای کاشی) - github.com
-
ویکیپدیا - درونیابی دومکعبی - wikipedia.org
-
آزمایشگاههای توپاز - عکس توپاز - topazlabs.com
-
آزمایشگاههای توپاز - ویدیوی توپاز - topazlabs.com
-
مرکز راهنمای ادوبی - ادوبی اینشنز > سوپر رزولوشن - helpx.adobe.com
-
NIST / OSAC - راهنمای استاندارد برای مدیریت تصاویر دیجیتال پزشکی قانونی (نسخه 1.0) - nist.gov
-
SWGDE - دستورالعملهای تحلیل تصاویر پزشکی قانونی - swgde.org