افزایش مقیاس با هوش مصنوعی چه تفاوتی با روشهای سنتی تغییر اندازه دارد؟

ارتقاء کیفیت تصویر با هوش مصنوعی، جزئیات از دست رفته با وضوح بالا را از الگوهای موجود در یک تصویر پیشبینی میکند، برخلاف روشهای سنتی مانند درونیابی دو مکعبی که پیکسلها را به سادگی میکشند. این امر منجر به تصاویر واضحتر و با جزئیات بیشتر میشود.

هنگام استفاده از ارتقاء کیفیت تصویر با هوش مصنوعی، باید مراقب چه مصنوعات رایجی باشم؟

مصنوعات رایج شامل هالههای اطراف لبهها، الگوهای بافت تکراری، سطوح بیش از حد صاف یا مومی شکل و متنی که به «تقریباً حروف» تبدیل میشود، میشود. نظارت بر این موارد برای اطمینان از نتیجه طبیعی بسیار مهم است.

چرا گاهی اوقات چهرهها بعد از افزایش مقیاس، بیش از حد صاف یا غیرواقعی به نظر میرسند؟

چهرهها میتوانند به دلیل نویززدایی و شارپسازی شدید که میتواند بافتهایی مانند منافذ را از بین ببرد، بیش از حد صاف به نظر برسند. برای دستیابی به ظاهری طبیعیتر، کاهش تنظیمات نویززدایی و شارپسازی را در نظر بگیرید.

اگر تصاویرم بعد از استفاده از ارتقاء کیفیت با هوش مصنوعی، کیفیت پایینی داشته باشند یا نویز زیادی داشته باشند، چه کاری باید انجام دهم؟

اگر تصاویر شما کمی تار به نظر میرسند، سعی کنید اسلایدرهای کاهش نویز و افزایش جزئیات را تنظیم کنید. اضافه کردن دانههای ظریف نیز میتواند به بازیابی حس عکاسی بیشتر کمک کند.

مدلهای GAN و CNN در نتایج ارتقاء هوش مصنوعی چگونه با هم مقایسه میشوند؟

مدلهای CNN عموماً پایدار و قابل پیشبینی هستند، در حالی که مدلهای GAN اغلب جزئیات واضحتری ارائه میدهند اما خطر ایجاد عناصر غیرواقعی را دارند. انتخاب بین آنها به نیاز شما به واقعگرایی در مقابل بافت بهبود یافته بستگی دارد.

آیا ارتقاء کیفیت با هوش مصنوعی برای محتوای ویدیویی مناسب است و چه چالشهایی را ایجاد میکند؟

بله، ارتقاء کیفیت با هوش مصنوعی برای ویدیو مناسب است، اما میتواند چالش برانگیز باشد زیرا ثبات در فریمها بسیار مهم است. جزئیات سوسو زدن یا سوسو زدن میتواند حواس بینندگان را پرت کند، بنابراین روشهای تخصصی متمرکز بر ویدیو توصیه میشود.

چه زمانی تکیه بر ارتقاء کیفیت با هوش مصنوعی مناسب نیست؟

ارتقای کیفیت با هوش مصنوعی باید در سناریوهای حساس، مانند روزنامهنگاری یا تحلیلهای پزشکی قانونی، که دقت بسیار مهم است، با احتیاط مورد استفاده قرار گیرد. بهتر است به جای اثبات قطعی، به عنوان یک پیشرفت در نظر گرفته شود و شفافیت در مورد فرآیندهای هوش مصنوعی ضروری است.

هنگام افزایش کیفیت تصاویر فشردهشده، چه نکاتی را باید در نظر داشته باشم؟

برای تصاویری که به شدت فشرده شدهاند، با حذف آرتیفکتها شروع کنید تا هرگونه انسداد ناخواسته به حداقل برسد. پس از آن، میتوانید در صورت لزوم، مقیاس را افزایش داده و وضوح نور را اعمال کنید تا جزئیات را بدون تقویت آرتیفکتهای فشردهسازی حفظ کنید.

ارتقاء کیفیت تصویر با هوش مصنوعی چگونه کار می‌کند؟

ارتقاء کیفیت با هوش مصنوعی چگونه کار می‌کند؟ [ویدئو و آزمون]

پاسخ کوتاه: ارتقای کیفیت تصویر با هوش مصنوعی با آموزش یک مدل روی تصاویر با وضوح پایین و بالا و سپس استفاده از آن برای پیش‌بینی پیکسل‌های اضافی باورپذیر در طول ارتقای کیفیت انجام می‌شود. اگر مدل در آموزش بافت‌ها یا چهره‌های مشابهی را دیده باشد، می‌تواند جزئیات قانع‌کننده‌ای را اضافه کند؛ در غیر این صورت، ممکن است در ویدیو دچار «توهم» شود و آثاری مانند هاله، پوست مومی یا سوسو زدن را نشان دهد.

نکات کلیدی:

پیش‌بینی: مدل جزئیات قابل قبولی ارائه می‌دهد، نه بازسازی تضمین‌شده‌ای از واقعیت.

انتخاب مدل: CNNها معمولاً ثابت‌تر هستند؛ GANها می‌توانند واضح‌تر به نظر برسند اما ریسک ایجاد ویژگی‌ها را دارند.

بررسی آثار باستانی: مراقب هاله‌ها، بافت‌های تکراری، «تقریباً حروف» و چهره‌های پلاستیکی باشید.

پایداری ویدیو: از روش‌های زمانی استفاده کنید، در غیر این صورت شاهد لرزش و رانش فریم به فریم خواهید بود.

کاربرد پرخطر: اگر دقت اهمیت دارد، پردازش را افشا کنید و نتایج را به عنوان نمونه در نظر بگیرید.

اینفوگرافیک: ارتقای کیفیت با هوش مصنوعی چگونه کار می‌کند؟.

احتمالاً آن را دیده‌اید: یک تصویر کوچک و ترد به چیزی تبدیل می‌شود که به اندازه کافی واضح است تا بدون هیچ مشکلی چاپ شود، پخش شود یا در یک ارائه قرار گیرد. این حس تقلب را می‌دهد. و - به بهترین شکل - تقریباً همینطور است 😅

بنابراین، نحوه‌ی عملکرد ارتقاء کیفیت تصویر با هوش مصنوعی به چیزی خاص‌تر از «افزایش جزئیات توسط کامپیوتر» (حرکت دست) و نزدیک‌تر به «پیش‌بینی ساختار با وضوح بالا توسط یک مدل بر اساس الگوهایی که از نمونه‌های فراوان آموخته است» (یادگیری عمیق برای وضوح فوق‌العاده تصویر: یک نظرسنجی) خلاصه می‌شود. این مرحله‌ی پیش‌بینی، کل ماجرا است - و به همین دلیل است که ارتقاء کیفیت تصویر با هوش مصنوعی می‌تواند خیره‌کننده به نظر برسد... یا کمی پلاستیکی... یا مانند گربه‌ی شما که سبیل‌های اضافی رشد کرده است.

مقالاتی که شاید بعد از این مطلب دوست داشته باشید بخوانید:

🔗 نحوه کار هوش مصنوعی
اصول اولیه مدل‌ها، داده‌ها و استنتاج در هوش مصنوعی را بیاموزید.

🔗 نحوه یادگیری هوش مصنوعی
ببینید که چگونه داده‌های آموزشی و بازخورد، عملکرد مدل را در طول زمان بهبود می‌بخشند.

🔗 چگونه هوش مصنوعی ناهنجاری‌ها را تشخیص می‌دهد
الگوهای پایه و نحوه تشخیص سریع رفتارهای غیرمعمول توسط هوش مصنوعی را درک کنید.

🔗 چگونه هوش مصنوعی روندها را پیش‌بینی می‌کند
روش‌های پیش‌بینی که سیگنال‌ها را شناسایی کرده و تقاضای آینده را پیش‌بینی می‌کنند، بررسی کنید.

نحوه عملکرد ارتقاء کیفیت با هوش مصنوعی: ایده اصلی، به زبان روزمره 🧩

ارتقاء تصویر به معنای افزایش وضوح تصویر است: پیکسل‌های بیشتر، تصویر بزرگتر. ارتقاء تصویر سنتی (مانند bicubic) اساساً پیکسل‌ها را کشیده و انتقال‌ها را هموار می‌کند (درون‌یابی Bicubic). خوب است، اما نمی‌تواند جدیدی - فقط درون‌یابی می‌کند.

ارتقای کیفیت تصویر با هوش مصنوعی، چیزی جسورانه‌تر (که در دنیای تحقیقات به آن «فوق وضوح» هم می‌گویند) را امتحان می‌کند (یادگیری عمیق برای وضوح فوق‌العاده تصویر: یک بررسی):

به ورودی با وضوح پایین نگاه می‌کند
الگوها (لبه‌ها، بافت‌ها، ویژگی‌های صورت، خطوط متن، بافت پارچه و ...) را تشخیص می‌دهد
پیش‌بینی می‌کند که یک نسخه با وضوح بالاتر چگونه باید باشد
داده‌های پیکسلی اضافی تولید می‌کند که با آن الگوها مطابقت دارند

نه اینکه «واقعیت را به‌طور کامل بازیابی کند»، بلکه بیشتر شبیه «یک حدس بسیار باورپذیر بزند» (ابروضوح تصویر با استفاده از شبکه‌های پیچشی عمیق (SRCNN)). اگر این کمی مشکوک به نظر می‌رسد، اشتباه نمی‌کنید - اما به همین دلیل است که اینقدر خوب کار می‌کند 😄

و بله، این یعنی ارتقای کیفیت با هوش مصنوعی اساساً یک توهم کنترل‌شده است... اما به شیوه‌ای سازنده و با حفظ پیکسل‌ها.

چه چیزی یک نسخه خوب از ارتقاء کیفیت تصویر با هوش مصنوعی را می‌سازد؟ ✅🛠️

اگر در حال قضاوت در مورد یک ارتقا دهنده کیفیت تصویر با هوش مصنوعی (یا یک تنظیمات از پیش تعیین شده) هستید، موارد زیر بیشترین اهمیت را دارند:

بازیابی جزئیات بدون پخت بیش از حد.
ارتقای خوب، تردی و ساختار را افزایش می‌دهد، نه نویز ترد یا منافذ مصنوعی.
نظم و انضباط در لبه‌ها،
خطوط تمیز، تمیز می‌مانند. مدل‌های بد باعث می‌شوند لبه‌ها لق بزنند یا هاله‌هایی ایجاد کنند.
واقع‌گرایی بافت
مو نباید به ضربه قلم‌مو تبدیل شود. آجر نباید به مهر الگوی تکرارشونده تبدیل شود.
مدیریت نویز و فشرده‌سازی
بسیاری از تصاویر روزمره به دلیل فشرده‌سازی JPEG از بین می‌روند. یک ارتقا دهنده خوب این آسیب را تشدید نمی‌کند (Real-ESRGAN).
آگاهی از چهره و متن
چهره‌ها و متن ساده‌ترین مکان‌ها برای تشخیص اشتباهات هستند. مدل‌های خوب با آنها به آرامی رفتار می‌کنند (یا حالت‌های تخصصی دارند).
ثبات در فریم‌ها (برای ویدیو)
اگر جزئیات فریم به فریم سوسو بزنند، چشمان شما جیغ خواهند زد. ارتقای کیفیت ویدیو با ثبات زمانی زنده می‌ماند یا می‌میرد (BasicVSR (CVPR 2021)).
کنترل‌هایی که منطقی باشند.
شما اسلایدرهایی می‌خواهید که به نتایج واقعی منجر شوند: حذف نویز، محو کردن تاری، حذف آرتیفکت، حفظ دانه‌ها، افزایش وضوح... چیزهای کاربردی.

یک قانون بی‌سروصدا که پابرجاست: «بهترین» ارتقاء کیفیت اغلب همانی است که به سختی متوجه آن می‌شوید. فقط به نظر می‌رسد که از ابتدا دوربین بهتری داشته‌اید 📷✨

جدول مقایسه: گزینه‌های محبوب ارتقای کیفیت با هوش مصنوعی (و کاربرد آنها) 📊🙂

در زیر یک مقایسه عملی آورده شده است. قیمت‌ها عمداً نامشخص هستند زیرا ابزارها بر اساس مجوز، بسته‌ها، هزینه‌های محاسباتی و همه چیزهای جالب دیگر متفاوت هستند.

ابزار / رویکرد	بهترین برای	حس و حال قیمت	چرا کار می‌کند (تقریباً)
دستگاه‌های افزایش کیفیت تصویر رومیزی به سبک توپاز (توپاز فوتو، توپاز ویدیو)	عکس، ویدئو، گردش کار آسان	پولی	مدل‌های عمومی قوی + تنظیمات زیاد، معمولاً «فقط کار می‌کنند»... بیشتر اوقات
ویژگی‌های نوع «Super Resolution» ادوبی (Adobe Enhance > Super Resolution)	عکاسانی که از قبل در آن اکوسیستم هستند	اشتراک-y	بازسازی دقیق جزئیات، معمولاً محافظه‌کارانه (کمتر نمایشی)
انواع Real-ESRGAN / ESRGAN (Real-ESRGAN، ESRGAN)	خودتان انجام دهید، توسعه‌دهندگان، کارهای دسته‌ای	رایگان (اما زمان‌بر)	در جزئیات بافت عالی است، اگر مراقب نباشید می‌تواند روی صورت‌ها تند و زننده باشد
حالت‌های ارتقاء مبتنی بر انتشار (SR3)	کار خلاقانه، نتایج سبک‌مند	مختلط	می‌تواند جزئیات زیبایی خلق کند - همچنین می‌تواند مزخرفات را اختراع کند، پس... بله
ارتقا دهنده‌های بازی (به سبک DLSS/FSR) (NVIDIA DLSS، AMD FSR 2)	بازی و رندرینگ بلادرنگ	بسته‌بندی‌شده	از داده‌های حرکتی و اطلاعات قبلی استفاده می‌کند - عملکرد روان، برنده است 🕹️
سرویس‌های ارتقاء ابری	راحتی، بردهای سریع	پرداخت به ازای هر بار استفاده	سریع + مقیاس‌پذیر، اما شما کنترل و گاهی اوقات ظرافت را معامله می‌کنید
ارتقادهنده‌های هوش مصنوعی متمرکز بر ویدیو (BasicVSR، Topaz Video)	فیلم‌های قدیمی، انیمه، آرشیو	پولی	ترفندهای زمانی برای کاهش سوسو زدن + مدل‌های ویدیویی تخصصی
ارتقاء کیفیت گوشی/گالری «هوشمند»	استفاده گاه به گاه	شامل	مدل‌های سبک وزن برای خروجی مطلوب تنظیم شده‌اند، نه برای کمال (هنوز هم مفید هستند)

اعتراف عجیب قالب‌بندی: «پرداختی» یعنی کلی کار تو اون جدول انجام دادن. ولی منظورم رو متوجه شدید 😅

راز بزرگ: مدل‌ها یاد می‌گیرند که از وضوح پایین به وضوح بالا نگاشت کنند 🧠➡️🖼️

در قلب اکثر روش‌های ارتقاء کیفیت با هوش مصنوعی، یک سیستم یادگیری نظارت‌شده (تصویر با وضوح فوق‌العاده بالا با استفاده از شبکه‌های پیچشی عمیق (SRCNN)) قرار دارد:

با تصاویر با وضوح بالا شروع کنید ("حقیقت")
آنها را به نسخه‌های با وضوح پایین ("ورودی") کاهش نمونه دهید
آموزش مدلی برای بازسازی تصویر با وضوح بالا از تصویر با وضوح پایین

با گذشت زمان، مدل همبستگی‌هایی مانند موارد زیر را یاد می‌گیرد:

«این نوع تیرگی دور چشم معمولاً مربوط به مژه‌ها است»
«این خوشه پیکسلی اغلب نشان‌دهنده متن serif است»
«این گرادیان لبه شبیه خط روی پشت بام است، نه نویز تصادفی»

این به خاطر سپردن تصاویر خاص (به معنای ساده) نیست، بلکه یادگیری ساختار آماری است (یادگیری عمیق برای وضوح فوق‌العاده تصویر: یک بررسی). آن را مانند یادگیری دستور زبان بافت‌ها و لبه‌ها در نظر بگیرید. نه دستور زبان شعر، بیشتر شبیه... دستور زبان دستی IKEA 🪑📦 (استعاره دست و پا گیر، اما به اندازه کافی نزدیک).

جزئیات: چه اتفاقی در طول استنتاج می‌افتد (وقتی مقیاس را ارتقا می‌دهید) ⚙️✨

وقتی تصویری را به یک ارتقادهنده‌ی کیفیت هوش مصنوعی می‌دهید، معمولاً مسیری مانند این وجود دارد:

پیش‌پردازش
- تبدیل فضای رنگی (گاهی اوقات)
- مقادیر پیکسل را نرمال‌سازی کنید
- اگر تصویر بزرگ است، آن را به قطعات کوچک تقسیم کنید (بررسی واقعیت VRAM 😭) (مخزن Real-ESRGAN (گزینه‌های کاشی))
استخراج ویژگی
- لایه‌های اولیه لبه‌ها، گوشه‌ها و گرادیان‌ها را تشخیص می‌دهند
- لایه‌های عمیق‌تر الگوها را تشخیص می‌دهند: بافت‌ها، شکل‌ها، اجزای صورت
بازسازی
- این مدل یک نقشه ویژگی با وضوح بالاتر تولید می‌کند
- سپس آن را به خروجی پیکسلی واقعی تبدیل می‌کند
پس پردازش
- تیز کردن اختیاری
- نویززدایی اختیاری
- حذف آرتیفکت اختیاری (زنگ، هاله، انسداد)

یک نکته ظریف: بسیاری از ابزارها کاشی‌ها را بزرگ می‌کنند، سپس درزها را با هم ترکیب می‌کنند. ابزارهای عالی مرزهای کاشی را پنهان می‌کنند. ابزارهای معمولی اگر با دقت نگاه کنید، ردهای شبکه‌ای کمرنگی از خود به جا می‌گذارند. و بله، با دقت نگاه خواهید کرد، زیرا انسان‌ها عاشق بررسی نقص‌های کوچک با بزرگنمایی ۳۰۰٪ مانند بچه‌گرملین‌ها هستند 🧌

خانواده‌های اصلی مدل‌های مورد استفاده برای ارتقای کیفیت با هوش مصنوعی (و دلیل متفاوت بودن آنها) 🤖📚

۱) ابرتفکیک‌پذیری مبتنی بر CNN (روش کلاسیک و کارآمد)

شبکه‌های عصبی کانولوشن در الگوهای محلی عالی هستند: لبه‌ها، بافت‌ها، ساختارهای کوچک (تصویر با وضوح فوق‌العاده با استفاده از شبکه‌های کانولوشن عمیق (SRCNN)).

مزایا: سریع، پایدار، غافلگیری‌های کمتر
معایب: اگر محکم فشار داده شود، ممکن است کمی «پردازش‌شده» به نظر برسد

۲) ارتقاء مقیاس مبتنی بر GAN (به سبک ESRGAN) 🎭

شبکه‌های مولد تخاصمی (GAN) یک مولد را آموزش می‌دهند تا تصاویر با وضوح بالا تولید کند که یک متمایزکننده نتواند آنها را از تصاویر واقعی (Generative Adversarial Networks) تشخیص دهد.

مزایا: جزئیات دقیق، بافت چشمگیر
معایب: می‌تواند جزئیاتی را که وجود نداشته، از خودش دربیاورد - گاهی اوقات اشتباه، گاهی اوقات غیرطبیعی (SRGAN، ESRGAN)

یک GAN می‌تواند آن وضوح بی‌نظیر را به شما بدهد. همچنین می‌تواند به سوژه پرتره شما ابرویی اضافه کند. پس... نبردهایتان را انتخاب کنید 😬

۳) ارتقاء کیفیت مبتنی بر انتشار (ایده خلاقانه) 🌫️➡️🖼️

مدل‌های انتشار، نویز را گام به گام حذف می‌کنند و می‌توانند برای تولید جزئیات با وضوح بالا (SR3) هدایت شوند.

مزایا: می‌تواند در جزئیات قابل قبول، به خصوص برای کارهای خلاقانه، فوق‌العاده خوب باشد
معایب: اگر تنظیمات تهاجمی باشند، می‌توانند از هویت/ساختار اصلی فاصله بگیرند (SR3)

اینجاست که «ارتقای کیفیت» با «بازطراحی» ترکیب می‌شود. گاهی اوقات این دقیقاً همان چیزی است که می‌خواهید. گاهی اوقات اینطور نیست.

۴) ارتقاء کیفیت ویدیو با حفظ ثبات زمانی 🎞️

ارتقاء کیفیت ویدیو اغلب منطق تشخیص حرکت را اضافه می‌کند:

از فریم‌های همسایه برای تثبیت جزئیات استفاده می‌کند (BasicVSR (CVPR 2021))
سعی می‌کند از سوسو زدن و آثار خزنده جلوگیری کند
اغلب سوپر رزولوشن را با نویززدایی و حذف درهم‌تنیدگی ترکیب می‌کند (مثل Topaz Video)

اگر ارتقای کیفیت تصویر مانند بازیابی یک نقاشی باشد، ارتقای کیفیت ویدیو مانند بازیابی یک کتاب مصور بدون تغییر شکل بینی شخصیت در هر صفحه است. که البته... سخت‌تر از آن چیزی است که به نظر می‌رسد.

چرا افزایش کیفیت تصویر با هوش مصنوعی گاهی اوقات جعلی به نظر می‌رسد (و چگونه آن را تشخیص دهیم) 👀🚩

ارتقاء کیفیت با هوش مصنوعی به دلایل قابل تشخیصی با شکست مواجه می‌شود. وقتی الگوها را یاد بگیرید، آنها را همه جا خواهید دید، مثل خرید یک ماشین جدید و ناگهان متوجه آن مدل در هر خیابانی می‌شوید 😵💫

رایج می‌گوید:

موم کردن پوست صورت (نویززدایی بیش از حد + صاف کردن)
هاله‌های بیش از حد تیز در اطراف لبه‌ها (محدوده کلاسیک «بیش‌برآمدگی») (درون‌یابی دومکعبی)
بافت‌های تکراری (دیوارهای آجری تبدیل به الگوهای کپی-پیست می‌شوند)
میکروکنتراست ترد که فریاد می‌زند «الگوریتم»
دستکاری متن که در آن حروف تقریباً به حروف تبدیل می‌شوند (بدترین نوع)
رانش جزئیات که در آن ویژگی‌های کوچک به طور نامحسوس تغییر می‌کنند، به خصوص در گردش‌های کاری انتشار (SR3)

قسمت دشوار ماجرا: گاهی اوقات این تصاویر مصنوعی در یک نگاه «بهتر» به نظر می‌رسند. مغز شما وضوح را دوست دارد. اما بعد از لحظه‌ای، احساس می‌کنید که... از کار افتاده‌اند.

یک تاکتیک مناسب این است که زوم کنید و بررسی کنید که آیا در فاصله دید معمولی طبیعی به نظر می‌رسد یا خیر. اگر فقط در زوم ۴۰۰٪ خوب به نظر می‌رسد، این یک برد نیست، این یک سرگرمی است 😅

نحوه‌ی عملکرد ارتقاء هوش مصنوعی: بخش آموزش، بدون سردرد ریاضی 📉🙂

آموزش مدل‌های با وضوح فوق‌العاده معمولاً شامل موارد زیر است:

مجموعه داده‌های جفت‌شده (ورودی کم‌حجم، هدف باحجم بالا) (تصویر با وضوح بالا با استفاده از شبکه‌های کانولوشن عمیق (SRCNN))
توابع زیان که بازسازی‌های اشتباه را مجازات می‌کنند (SRGAN)

انواع معمول تلفات:

از دست دادن پیکسل (L1/L2)
دقت را افزایش می‌دهد. می‌تواند نتایج کمی ضعیف ایجاد کند.
افت ادراکی (Perceptual loss
، ویژگی‌های عمیق‌تر (مانند «آیا این به نظر می‌رسد ؟») را مقایسه می‌کند (افت ادراکی (Johnson et al., 2016)).
خطای تخاصمی (GAN)
واقع‌گرایی را تشویق می‌کند، گاهی اوقات به قیمت از دست دادن دقت تحت‌اللفظی (SRGAN، شبکه‌های تخاصمی مولد).

یک کشمکش دائمی وجود دارد:

آن را به نسخه اصلی وفادار کنید
آن را دلپذیر

ابزارهای مختلف در جایگاه‌های متفاوتی از این طیف قرار می‌گیرند. و بسته به اینکه آیا در حال بازیابی عکس‌های خانوادگی هستید یا در حال آماده‌سازی پوستری که در آن «زیبایی» بیشتر از دقت در تشخیص اهمیت دارد، ممکن است یکی را ترجیح دهید.

گردش‌های کاری عملی: عکس‌ها، اسکن‌های قدیمی، انیمه و ویدیو 📸🧾🎥

عکس‌ها (پرتره، منظره، عکس‌های محصول)

بهترین روش معمولاً این است:

ابتدا نویززدایی ملایم (در صورت نیاز)
با تنظیمات محافظه‌کارانه، ارتقا یافته
اگر همه چیز خیلی نرم به نظر رسید، دوباره دانه اضافه کنید (بله، واقعاً)

غلات مثل نمک می‌مونه. مصرف زیادش شام رو خراب می‌کنه، اما هیچ کدومش نمی‌تونه یه ذره بی‌مزه باشه 🍟

اسکن‌های قدیمی و تصاویر به شدت فشرده‌شده

اینها سخت‌تر هستند زیرا مدل ممکن است بلوک‌های فشرده‌سازی را به عنوان «بافت» در نظر بگیرد.
امتحان کنید:

حذف یا رفع انسداد مصنوعات
سپس مجلل
سپس کمی شارپ کردن (نه خیلی زیاد... می‌دانم، همه این را می‌گویند، اما با این حال)

انیمه و هنر خطی

مزایای هنر خطی از:

مدل‌هایی که لبه‌های تمیز را حفظ می‌کنند
کاهش توهم بافت،
ارتقای کیفیت انیمه اغلب عالی به نظر می‌رسد زیرا شکل‌ها ساده‌تر و منسجم‌تر هستند. (خوش شانس.)

ویدئو

ویدیو مراحل اضافی را اضافه می‌کند:

نویززدایی
Deinterlace (برای منابع خاص)
مجلل
هموارسازی یا تثبیت زمانی (BasicVSR (CVPR 2021))
اضافه کردن مجدد دانه‌ها به صورت اختیاری برای انسجام

اگر از ثبات زمانی صرف نظر کنید، آن جزئیات درخشان را خواهید دید که سوسو می‌زنند. وقتی متوجه آن شوید، دیگر نمی‌توانید آن را نادیده بگیرید. مانند یک صندلی جیرجیر در یک اتاق ساکت 😖

انتخاب تنظیمات بدون حدس و گمان زیاد (یک ترفند کوچک) 🎛️😵💫

این یک طرز فکر مناسب برای شروع است:

اگر چهره‌ها پلاستیکی به نظر می‌رسند،
نویز را کاهش دهید، وضوح تصویر را کم کنید، یک مدل یا حالت حفظ چهره را امتحان کنید.
اگر بافت‌ها خیلی شدید به نظر می‌رسند،
اسلایدرهای «افزایش جزئیات» یا «بازیابی جزئیات» را پایین‌تر بیاورید، سپس دانه‌بندی ظریفی اضافه کنید.
اگر لبه‌ها می‌درخشند،
وضوح تصویر را کم کنید، گزینه‌های حذف هاله را بررسی کنید.
اگر تصویر خیلی «هوش مصنوعی» به نظر می‌رسد،
کمی محافظه‌کارانه‌تر عمل کنید. گاهی اوقات بهترین حرکت، صرفاً... کمتر کردن است.

همچنین: فقط به خاطر اینکه می‌توانید، کیفیت را ۸ برابر نکنید. یک ۲ یا ۴ برابر تمیز اغلب نقطه مطلوب است. بعد از آن، از مدل می‌خواهید که درباره پیکسل‌های شما فن‌فیکشن بنویسد 📖😂

اخلاق، اصالت و سوال عجیب «حقیقت» 🧭😬

ارتقای کیفیت با هوش مصنوعی مرز بین جزئیات را محو می‌کند:

بازسازی به معنای بازیابی آنچه وجود داشته است، می‌باشد
بهبود به معنای اضافه کردن چیزی است که وجود نداشته است

با عکس‌های شخصی، معمولاً خوب (و دوست‌داشتنی) است. با روزنامه‌نگاری، شواهد قانونی، تصویربرداری پزشکی یا هر چیزی که در آن صداقت اهمیت دارد... باید مراقب باشید (OSAC/NIST: راهنمای استاندارد برای مدیریت تصویر دیجیتال پزشکی قانونی، دستورالعمل‌های SWGDE برای تحلیل تصویر پزشکی قانونی).

یک قانون ساده:

اگر ریسک بالایی وجود دارد، ارتقای هوش مصنوعی را به عنوان یک راهکار توضیحی، نه قطعی.

همچنین، افشاگری در زمینه‌های حرفه‌ای اهمیت دارد. نه به این دلیل که هوش مصنوعی بد است، بلکه به این دلیل که مخاطبان حق دارند بدانند که آیا جزئیات بازسازی شده‌اند یا ضبط شده‌اند. این فقط... محترمانه است.

نکات پایانی و جمع‌بندی سریع 🧡✅

بنابراین، نحوه‌ی عملکرد ارتقاء کیفیت تصویر با هوش مصنوعی به این صورت است: مدل‌ها یاد می‌گیرند که چگونه جزئیات با وضوح بالا به الگوهای با وضوح پایین مرتبط می‌شوند، سپس در طول ارتقاء کیفیت، پیکسل‌های اضافی باورپذیر را پیش‌بینی می‌کنند ( یادگیری عمیق برای وضوح فوق‌العاده تصویر: یک بررسی ). بسته به خانواده‌ی مدل (CNN، GAN، انتشار، ویدئو-زمانی)، این پیش‌بینی می‌تواند محافظه‌کارانه و دقیق باشد... یا جسورانه و گاهی اوقات بی‌ثبات 😅

خلاصه سریع

ارتقاء تصویر سنتی، پیکسل‌ها را می‌کشد (درون‌یابی دومکعبی)
ارتقاء تصویر با هوش مصنوعی، جزئیات از دست رفته را با استفاده از الگوهای آموخته شده پیش‌بینی می‌کند (تصویر با وضوح فوق‌العاده با استفاده از شبکه‌های پیچشی عمیق (SRCNN))
نتایج عالی از مدل درست + خویشتن‌داری حاصل می‌شود
مراقب هاله‌ها، چهره‌های مومی، بافت‌های تکراری و سوسو زدن در ویدیو باشید (BasicVSR (CVPR 2021))
ارتقاء مقیاس اغلب «بازسازی محتمل» است، نه حقیقت کامل (SRGAN، ESRGAN)

اگر مایلید، به من بگویید چه چیزی را می‌خواهید ارتقا دهید (چهره‌ها، عکس‌های قدیمی، ویدیو، انیمه، اسکن‌های متنی)، تا یک استراتژی تنظیمات پیشنهاد کنم که از مشکلات رایج «ظاهر هوش مصنوعی» جلوگیری کند 🎯🙂

مثال دنیای واقعی: ارتقاء کیفیت عکس‌های قدیمی محصولات بازار 📸

سناریو

یک فروشگاه کوچک دوربین دست دوم، ۴۰ عکس از محصولات خود را از یک وب‌سایت قدیمی با عرض ۸۰۰ پیکسل گرفته است. مالک فروشگاه می‌خواهد از آنها در یک صفحه تجارت الکترونیک جدید استفاده کند، که اندازه تصویر توصیه شده در آن ۱۶۰۰ پیکسل است.

مشکل: تغییر اندازه معمولی باعث می‌شود دوربین‌ها نرم به نظر برسند، در حالی که افزایش شدید اندازه با هوش مصنوعی می‌تواند باعث شود که دستگیره‌های لاستیکی، شماره سریال‌ها و علامت‌های لنز به طرز مشکوکی جعلی به نظر برسند. این مهم است زیرا خریداران قبل از خرید به این جزئیات اعتماد می‌کنند.

هدف «بازیابی» کامل اطلاعات از دست رفته نیست. هدف ایجاد تصاویر فهرست‌بندی تمیزتر و در عین حال حفظ فایل‌های اصلی است، زیرا ارتقای هوش مصنوعی به جای تضمین صحت، جزئیات قابل قبول را پیش‌بینی می‌کند.

آنچه گردش کار نیاز دارد

عکس‌های اصلی محصول، در حالت ایده‌آل، نسخه‌های کم‌فشرده‌تر موجود

اندازه خروجی هدف، مانند افزایش ۲ برابری عرض از ۸۰۰ پیکسل به ۱۶۰۰ پیکسل

یک ابزار یا مدل با کنترل‌های جداگانه برای حذف نویز، تیز کردن تصویر و حذف آرتیفکت

یک چک لیست بررسی ساده برای متن، لبه‌ها، لوگوها، پیچ‌ها، دکمه‌ها، رگه‌های چرم و بازتاب‌ها

یک پوشه برای فایل‌های اصلی و یک پوشه جداگانه برای فایل‌های خروجی ویرایش‌شده، تا هیچ چیزی رونویسی نشود

دستورالعمل مثال

هنگام آزمایش یک ارتقادهنده‌ی کیفیت تصویر مبتنی بر هوش مصنوعی، از این دستورالعمل استفاده کنید:

برای نمایش در فهرست فروشگاه‌های اینترنتی، عکس این محصول را ۲ برابر بزرگ‌تر کنید. شکل شیء، محل قرارگیری لوگو، علامت‌گذاری لنز، لبه‌های دکمه و بافت سطح را تا حد امکان نزدیک به تصویر اصلی نگه دارید. از فشرده‌سازی ملایم و وضوح کم استفاده کنید و از ایجاد متن، خراش، برچسب‌ها، شماره سریال یا جزئیات تزئینی اضافی خودداری کنید. تصویر نهایی باید در اندازه معمولی صفحه محصول طبیعی به نظر برسد، نه اینکه در بزرگنمایی ۴۰۰٪ وضوح مصنوعی داشته باشد.

چگونه آن را آزمایش کنیم

قبل از پردازش کل مجموعه، با پنج تصویر ترکیبی شروع کنید:

یک عکس تمیز از محصول با نورپردازی خوب

یک تصویر فشرده شده با JPEG و دارای بلوک بندی

یک عکس با متن چاپ شده کوچک یا علامت گذاری لنز

یک تصویر تاریک با نویز در سایه‌ها

یک تصویر با فلز یا شیشه بازتابنده

پس از افزایش مقیاس، هر نتیجه را با نسخه اصلی در مقیاس‌های ۱۰۰٪ و ۲۰۰٪ مقایسه کنید. بررسی کنید که آیا نام‌های تجاری، شماره‌گیری‌ها، پیچ‌ها، پورت‌ها و الگوهای بافت هنوز مطابقت دارند یا خیر. اگر مدل «تقریباً حروف» یا علائم سطحی جعلی ایجاد می‌کند، تنظیمات تیز کردن یا بازیابی جزئیات را کاهش دهید.

نتیجه

نتیجه‌ی تشریحی: بر اساس زمان‌بندی یک آزمایش پنج تصویری قبل و بعد از استفاده از این گردش کار.

تمیز کردن و تغییر اندازه دستی برای هر تصویر حدود ۹ دقیقه یا برای پنج تصویر ۴۵ دقیقه طول کشید.

گردش کار با کمک هوش مصنوعی حدود ۳ دقیقه برای هر تصویر یا ۱۵ دقیقه برای پنج تصویر طول کشید.

این یعنی حدود ۳۰ دقیقه صرفه‌جویی در زمان برای پنج تصویر، یا حدود ۴ ساعت صرفه‌جویی در زمان برای یک دسته ۴۰ تصویری.

نتیجه بررسی کیفیت: ۴ تصویر از ۵ تصویر، اولین بررسی را با موفقیت پشت سر گذاشتند. یکی از تصاویر به دلیل اینکه ارتقا دهنده، متن کوچک لنز را تحریف کرده بود، با شکست مواجه شد، بنابراین با وضوح کمتر و بدون بهبود متن، دوباره پردازش شد.

معیار ارزشمند اینجا فقط «واضح‌تر به نظر رسیدن» نیست، بلکه این است: چند تصویر بدون جزئیات ساختگی از بررسی کنار هم عبور می‌کنند؟

چه چیزی می‌تواند اشتباه پیش برود؟

این مدل می‌تواند گرد و غبار، بلوک‌های JPEG یا خراش‌ها را به بافت «واقعی» تبدیل کند.

متن‌های ریز می‌توانند به متنی جعلی تبدیل شوند که تا زمانی که بزرگنمایی نکنید، باورپذیر به نظر می‌رسند.

نویز زدایی بیش از حد می‌تواند باعث شود لاستیک، چرم یا فلز برس خورده، مومی شکل به نظر برسند.

تیز کردن شدید می‌تواند هاله‌هایی در اطراف لبه‌های محصول ایجاد کند.

پردازش دسته‌ای می‌تواند اشتباهات را پنهان کند، بنابراین قبل از خروجی گرفتن از همه چیز، یک نمونه را بررسی کنید.

برای تجارت الکترونیک، امن‌ترین قانون ساده است: هرگز از ارتقاء کیفیت با هوش مصنوعی برای پنهان کردن آسیب، تغییر وضعیت یا جدیدتر جلوه دادن محصول نسبت به آنچه هست، استفاده نکنید.

نکته کاربردی

ارتقای کیفیت با هوش مصنوعی زمانی بهترین نتیجه را می‌دهد که آن را به عنوان یک مرحله نهایی کنترل‌شده در نظر بگیرید، نه یک دکمه تعمیر جادویی. از تنظیمات محافظه‌کارانه ۲× استفاده کنید، جزئیاتی را که خریداران به آنها اهمیت می‌دهند بررسی کنید و تصویر اصلی را نگه دارید تا نسخه ویرایش‌شده معتبر باقی بماند.

مثال دنیای واقعی: افزایش کیفیت یک ویدیوی آموزشی قدیمی بدون ایجاد لرزش

سناریو

یک شرکت آموزشی کوچک یک ویدیوی ۷ دقیقه‌ای برای نمایش نکات ایمنی دارد که در سال ۲۰۱۴ با کیفیت ۷۲۰p ضبط شده است. این محتوا هنوز هم ارزشمند است، اما این فیلم در وب‌سایت جدید شرکت، به خصوص در صفحه نمایش‌های بزرگتر لپ‌تاپ، کیفیت خوبی ندارد.

این تیم می‌خواهد بدون فیلمبرداری مجدد، یک نسخه 1080p تمیزتر صادر کند. این خطر وجود دارد که افزایش مقیاس شدید هوش مصنوعی می‌تواند چهره‌ها را مومی شکل نشان دهد، متن روی تابلوها را به "تقریباً کلمات" تبدیل کند یا بافت سوسو زننده‌ای از فریم به فریم ایجاد کند.

هدف این نیست که ویدیو کاملاً جدید به نظر برسد. هدف این است که آن را واضح‌تر، ثابت‌تر و با فشردگی کمتر بسازیم، در حالی که چهره مربی، برچسب‌های هشدار دهنده، حرکات دست و جزئیات تجهیزات به نسخه اصلی وفادار بمانند.

آنچه گردش کار نیاز دارد

فایل ویدیوی اصلی، در صورت امکان، فایل فشرده دانلود شده از شبکه‌های اجتماعی نباشد

اندازه خروجی را هدف قرار دهید، مثلاً به جای پرش مستقیم به 4K، از 720p به 1080p تغییر دهید

یک ارتقا دهنده کیفیت ویدیو با گزینه‌های حذف نویز، افزایش وضوح، ترمیم فشرده‌سازی و سازگاری زمانی

یک کلیپ آزمایشی کوتاه با چهره‌ها، حرکت، متن و سطوح دقیق

چک لیست بررسی برای سوسو زدن، هاله‌ها، متن تاب‌دار، بافت چهره و لبه‌های متحرک

یک کپی ذخیره شده از ویدیوی اصلی برای مقایسه و افشای اطلاعات در صورت نیاز

دستورالعمل مثال

قبل از پردازش کل ویدیو، از این نوع دستورالعمل استفاده کنید:

این ویدیوی آموزشی ۷۲۰p را به ۱۰۸۰p ارتقا دهید. حرکت طبیعی، لبه‌های پایدار، متن موجود خوانا و بافت پوست واقع‌گرایانه را در اولویت قرار دهید. از ترمیم فشرده‌سازی ملایم و وضوح کم استفاده کنید. متن، لوگو، برچسب‌ها، خراش‌ها، جزئیات صورت یا علائم تجهیزات گمشده را ایجاد نکنید. از درخشش فریم به فریم خودداری کنید. نتیجه نهایی باید در اندازه مشاهده معمولی واضح‌تر به نظر برسد، نه اینکه هنگام مکث و بزرگنمایی، وضوح مصنوعی داشته باشد.

چگونه آن را آزمایش کنیم

قبل از پردازش فایل کامل ۷ دقیقه‌ای، یک نمونه ۲۰ ثانیه‌ای از آن را خروجی بگیرید که شامل موارد زیر باشد:

چهره مربی هنگام صحبت کردن

دستی که در قاب تصویر حرکت می‌کند

یک برچسب هشدار دهنده یا متن کوچک چاپ شده

یک سطح بافت‌دار، مانند پارچه، بتن، فلز برس‌خورده یا پلاستیک

حرکت دوربین یا هرگونه حرکت لرزان

نمونه را دو بار تماشا کنید: یک بار با سرعت عادی و یک بار فریم به فریم مکث کنید. در سرعت عادی، به دنبال سوسو زدن، بافت خزنده یا حرکت غیرطبیعی در اطراف لبه‌ها باشید. هنگام مکث، نسخه‌های اصلی و ارتقا یافته را مقایسه کنید تا بررسی کنید که آیا متن، دکمه‌ها، ابزارها و ویژگی‌های صورت هنوز مطابقت دارند یا خیر.

نتیجه

نتیجه‌ی نمایشی: بر اساس زمان‌بندی یک کلیپ آزمایشی ۲۰ ثانیه‌ای و سپس اعمال همان تنظیمات بر روی یک ویدیوی ۷ دقیقه‌ای.

یک گردش کار دستی «تغییر اندازه و تیز کردن» حدود ۳۵ دقیقه طول کشید، شامل خروجی گرفتن و بررسی، اما نتیجه نشان دهنده درخشش قابل مشاهده روی موهای مربی و هاله‌هایی در اطراف علائم ایمنی بود.

گردش کار با کمک هوش مصنوعی حدود ۵۵ دقیقه طول کشید، شامل خروجی‌های آزمایشی، اما مشکلات بررسی را از ۸ مشکل قابل مشاهده در اولین خروجی به ۲ مشکل جزئی در خروجی نهایی کاهش داد.

نسخه نهایی از ۱۲ بررسی موجود در چک لیست بررسی، ۱۰ مورد را با موفقیت پشت سر گذاشت. دو مشکل باقی مانده، کمی نرمی متن پس زمینه و نویز ملایم در یک گوشه تاریک بود. هر دو مورد پذیرفته شدند زیرا مربی، تجهیزات و مراحل ایمنی از نظر بصری ثابت ماندند.

معیار معنادار در اینجا «دستیابی به وضوح 1080p» نیست. بلکه این است: چند ثانیه از ویدیو در طول پخش عادی، عناصر مزاحم و حواس‌پرت‌کننده را نشان می‌دهد؟

چه چیزی می‌تواند اشتباه پیش برود؟

این مدل ممکن است بلوک‌های فشرده‌سازی را تیز کند و آنها را مانند بافت واقعی جلوه دهد.

متن‌های ریز می‌توانند ظاهری مطمئن‌تر اما دقت کمتری داشته باشند.

اگر نویز زدایی خیلی زیاد باشد، چهره‌ها می‌توانند خیلی صاف شوند.

اگر ابزار با هر فریم بیش از حد مستقل رفتار کند، لبه‌های متحرک می‌توانند سوسو بزنند.

خروجی 4K می‌تواند بدتر از خروجی 1080p محدود به نظر برسد، زیرا مدل باید جزئیات بسیار زیادی را ابداع کند.

بزرگترین اشتباه این است که فقط یک فریم مکث شده را قضاوت کنیم. ارتقاء کیفیت ویدیو باید در حرکت طبیعی به نظر برسد، نه فقط به عنوان یک تصویر ثابت چشمگیر باشد.

نکته کاربردی

برای ویدیو، ارتقاء کیفیت تصویر با هوش مصنوعی زمانی بهترین نتیجه را می‌دهد که ابتدا بخش کوتاهی از تصویر را آزمایش کنید، ارتقاء کیفیت را در حد متوسط نگه دارید و قبل از وضوح، حرکت را ارزیابی کنید. نتیجه‌ای کمی نرم‌تر اما پایدارتر معمولاً بهتر از نسخه‌ای واضح است که هر بار کسی حرکت می‌کند، سوسو می‌زند.

سوالات متداول

ارتقاء کیفیت تصویر با هوش مصنوعی و نحوه عملکرد آن

ارتقای تصویر با هوش مصنوعی (که اغلب «فوق وضوح» نامیده می‌شود) با پیش‌بینی جزئیات از دست رفته با وضوح بالا از الگوهای آموخته شده در طول آموزش، وضوح تصویر را افزایش می‌دهد. به جای اینکه پیکسل‌ها مانند درون‌یابی دو مکعبی به سادگی کشیده شوند، یک مدل لبه‌ها، بافت‌ها، چهره‌ها و خطوط متن مانند را مطالعه می‌کند، سپس داده‌های پیکسلی جدیدی تولید می‌کند که با آن الگوهای آموخته شده هماهنگ است. این کار کمتر «بازگرداندن واقعیت» و بیشتر «ایجاد یک حدس باورپذیر» است که طبیعی به نظر می‌رسد.

افزایش مقیاس با هوش مصنوعی در مقابل تغییر اندازه دو مکعبی یا سنتی

روش‌های سنتی ارتقاء کیفیت (مانند bicubic) عمدتاً بین پیکسل‌های موجود درون‌یابی می‌کنند و انتقال‌ها را بدون ایجاد جزئیات جدید واقعی، هموار می‌کنند. ارتقاء کیفیت با هوش مصنوعی با هدف بازسازی ساختار قابل قبول با تشخیص نشانه‌های بصری و پیش‌بینی اینکه نسخه‌های با وضوح بالای آن نشانه‌ها چگونه به نظر می‌رسند، انجام می‌شود. به همین دلیل است که نتایج هوش مصنوعی می‌توانند به طور چشمگیری واضح‌تر به نظر برسند، و همچنین به همین دلیل است که می‌توانند مصنوعات را معرفی کنند یا جزئیاتی را که در منبع وجود نداشتند، "ابداع" کنند.

چرا صورت‌ها می‌توانند مومی یا بیش از حد صاف به نظر برسند؟

چهره‌های مومی معمولاً از نویززدایی و صاف‌سازی شدید همراه با شارپ‌سازی که بافت طبیعی پوست را از بین می‌برد، ناشی می‌شوند. بسیاری از ابزارها با نویز و بافت ظریف به طور مشابه رفتار می‌کنند، بنابراین «تمیز کردن» یک تصویر می‌تواند منافذ و جزئیات ظریف را پاک کند. یک رویکرد رایج، کاهش نویززدایی و شارپ‌سازی، استفاده از حالت حفظ چهره در صورت وجود و سپس اضافه کردن کمی گرین است تا نتیجه کمتر پلاستیکی و بیشتر شبیه عکس به نظر برسد.

مصنوعات رایج ارتقاء مقیاس هوش مصنوعی که باید مراقب آنها باشید

نشانه‌های معمول شامل هاله‌های اطراف لبه‌ها، الگوهای بافت تکراری (مانند آجرهای کپی-پیست)، کنتراست ریز و شکننده و متنی که تقریباً به حروف تبدیل می‌شود، می‌شود. در گردش‌های کاری مبتنی بر انتشار، می‌توانید در جایی که ویژگی‌های کوچک به طور نامحسوس تغییر می‌کنند، شاهد تغییر جزئیات نیز باشید. برای ویدیو، سوسو زدن و جزئیات خزنده در فریم‌ها، پرچم‌های قرمز بزرگی هستند. اگر فقط در بزرگنمایی شدید خوب به نظر می‌رسد، احتمالاً تنظیمات بیش از حد سختگیرانه هستند.

چگونه ارتقادهنده‌های GAN، CNN و انتشار، نتایج متفاوتی ارائه می‌دهند

وضوح فوق‌العاده مبتنی بر CNN معمولاً ثابت‌تر و قابل پیش‌بینی‌تر است، اما اگر به شدت اعمال شود، می‌تواند «پردازش‌شده» به نظر برسد. گزینه‌های مبتنی بر GAN (به سبک ESRGAN) اغلب بافت قوی‌تر و وضوح قابل درک‌تری ایجاد می‌کنند، اما می‌توانند جزئیات نادرستی را، به خصوص در چهره‌ها، ایجاد کنند. ارتقاء مبتنی بر انتشار می‌تواند جزئیات زیبا و قابل باوری ایجاد کند، اما اگر تنظیمات راهنمایی یا قدرت خیلی قوی باشند، ممکن است از ساختار اصلی منحرف شود.

یک استراتژی تنظیمات کاربردی برای جلوگیری از ظاهر «بیش از حد هوش مصنوعی»

با احتیاط شروع کنید: قبل از رسیدن به فاکتورهای شدید، مقیاس را ۲ برابر یا ۴ برابر افزایش دهید. اگر چهره‌ها پلاستیکی به نظر می‌رسند، نویززدایی و وضوح‌سنجی را کاهش دهید و حالت آگاهی از چهره را امتحان کنید. اگر بافت‌ها خیلی شدید شدند، بهبود جزئیات را کمتر کنید و بعداً اضافه کردن دانه‌های ظریف را در نظر بگیرید. اگر لبه‌ها می‌درخشند، وضوح‌سنجی را کاهش دهید و هاله یا حذف مصنوعات را بررسی کنید. در بسیاری از خطوط تولید، «کمتر» برنده است زیرا واقع‌گرایی باورپذیر را حفظ می‌کند.

مدیریت اسکن‌های قدیمی یا تصاویر فشرده‌شده با JPEG قبل از ارتقاء کیفیت

تصاویر فشرده‌شده کار دشواری هستند، زیرا مدل‌ها می‌توانند مصنوعات بلوکی را به عنوان بافت واقعی در نظر بگیرند و آنها را تقویت کنند. یک گردش کار رایج، ابتدا حذف مصنوعات یا رفع انسداد، سپس افزایش مقیاس و در صورت نیاز، تشدید نوری است. برای اسکن‌ها، پاکسازی ملایم می‌تواند به مدل کمک کند تا به جای آسیب، روی ساختار واقعی تمرکز کند. هدف، کاهش «نشانه‌های بافت جعلی» است تا افزایش مقیاس مجبور به حدس‌های مطمئن از ورودی‌های نویزی نشود.

چرا ارتقاء کیفیت ویدیو سخت‌تر از ارتقاء کیفیت عکس است؟

ارتقاء کیفیت ویدیو باید در فریم‌های مختلف ثابت باشد، نه فقط در یک تصویر ثابت. اگر جزئیات فریم به فریم سوسو بزنند، نتیجه به سرعت حواس‌پرت‌کننده می‌شود. رویکردهای متمرکز بر ویدیو از اطلاعات زمانی فریم‌های مجاور برای تثبیت بازسازی و جلوگیری از مصنوعات سوسو زننده استفاده می‌کنند. بسیاری از گردش‌های کاری همچنین شامل حذف نویز، حذف درهم‌تنیدگی برای منابع خاص و معرفی مجدد اختیاری دانه‌ها هستند تا کل سکانس به جای وضوح مصنوعی، منسجم به نظر برسد.

وقتی ارتقای کیفیت با هوش مصنوعی مناسب نیست یا تکیه بر آن خطرناک است

ارتقای کیفیت تصویر با هوش مصنوعی بهتر است به عنوان یک بهبود کیفیت در نظر گرفته شود، نه یک مدرک. در زمینه‌های حساس مانند روزنامه‌نگاری، شواهد حقوقی، تصویربرداری پزشکی یا کارهای پزشکی قانونی، تولید پیکسل‌های «باورپذیر» می‌تواند گمراه‌کننده باشد زیرا ممکن است جزئیاتی را اضافه کند که ثبت نشده‌اند. یک چارچوب‌بندی امن‌تر این است که از آن به صورت تصویری استفاده شود و فاش شود که یک فرآیند هوش مصنوعی جزئیات را بازسازی کرده است. اگر وفاداری بسیار مهم است، نسخه‌های اصلی را حفظ کنید و هر مرحله و تنظیمات پردازش را مستند کنید.

منابع

arXiv - یادگیری عمیق برای وضوح تصویر فوق‌العاده: یک بررسی - arxiv.org
arXiv - وضوح فوق‌العاده تصویر با استفاده از شبکه‌های کانولوشن عمیق (SRCNN) - arxiv.org
arXiv - واقعی-ESRGAN - arxiv.org
arXiv - ESRGAN - arxiv.org
arXiv - SR3 - arxiv.org
توسعه‌دهنده‌ی انویدیا - انویدیا DLSS - developer.nvidia.com
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
بنیاد بینایی کامپیوتر (CVF) دسترسی آزاد - BasicVSR: جستجوی اجزای ضروری در وضوح فوق‌العاده ویدیو (CVPR 2021) - openaccess.thecvf.com
arXiv - شبکه‌های مولد تخاصمی - arxiv.org
arXiv - SRGAN - arxiv.org
arXiv - زیان‌های ادراکی (جانسون و همکاران، ۲۰۱۶) - arxiv.org
گیت‌هاب - مخزن Real-ESRGAN (گزینه‌های کاشی) - github.com
ویکی‌پدیا - درون‌یابی دومکعبی - wikipedia.org
آزمایشگاه‌های توپاز - عکس توپاز - topazlabs.com
آزمایشگاه‌های توپاز - ویدیوی توپاز - topazlabs.com
مرکز راهنمای ادوبی - ادوبی اینشنز > سوپر رزولوشن - helpx.adobe.com
NIST / OSAC - راهنمای استاندارد برای مدیریت تصاویر دیجیتال پزشکی قانونی (نسخه 1.0) - nist.gov
SWGDE - دستورالعمل‌های تحلیل تصاویر پزشکی قانونی - swgde.org

جدیدترین هوش مصنوعی را در فروشگاه رسمی دستیار هوش مصنوعی پیدا کنید

درباره ما

بازگشت به وبلاگ

سوالات متداول اضافی

افزایش مقیاس با هوش مصنوعی چه تفاوتی با روش‌های سنتی تغییر اندازه دارد؟

ارتقاء کیفیت تصویر با هوش مصنوعی، جزئیات از دست رفته با وضوح بالا را از الگوهای موجود در یک تصویر پیش‌بینی می‌کند، برخلاف روش‌های سنتی مانند درون‌یابی دو مکعبی که پیکسل‌ها را به سادگی می‌کشند. این امر منجر به تصاویر واضح‌تر و با جزئیات بیشتر می‌شود.
هنگام استفاده از ارتقاء کیفیت تصویر با هوش مصنوعی، باید مراقب چه مصنوعات رایجی باشم؟

مصنوعات رایج شامل هاله‌های اطراف لبه‌ها، الگوهای بافت تکراری، سطوح بیش از حد صاف یا مومی شکل و متنی که به «تقریباً حروف» تبدیل می‌شود، می‌شود. نظارت بر این موارد برای اطمینان از نتیجه طبیعی بسیار مهم است.
چرا گاهی اوقات چهره‌ها بعد از افزایش مقیاس، بیش از حد صاف یا غیرواقعی به نظر می‌رسند؟

چهره‌ها می‌توانند به دلیل نویززدایی و شارپ‌سازی شدید که می‌تواند بافت‌هایی مانند منافذ را از بین ببرد، بیش از حد صاف به نظر برسند. برای دستیابی به ظاهری طبیعی‌تر، کاهش تنظیمات نویززدایی و شارپ‌سازی را در نظر بگیرید.
اگر تصاویرم بعد از استفاده از ارتقاء کیفیت با هوش مصنوعی، کیفیت پایینی داشته باشند یا نویز زیادی داشته باشند، چه کاری باید انجام دهم؟

اگر تصاویر شما کمی تار به نظر می‌رسند، سعی کنید اسلایدرهای کاهش نویز و افزایش جزئیات را تنظیم کنید. اضافه کردن دانه‌های ظریف نیز می‌تواند به بازیابی حس عکاسی بیشتر کمک کند.
مدل‌های GAN و CNN در نتایج ارتقاء هوش مصنوعی چگونه با هم مقایسه می‌شوند؟

مدل‌های CNN عموماً پایدار و قابل پیش‌بینی هستند، در حالی که مدل‌های GAN اغلب جزئیات واضح‌تری ارائه می‌دهند اما خطر ایجاد عناصر غیرواقعی را دارند. انتخاب بین آنها به نیاز شما به واقع‌گرایی در مقابل بافت بهبود یافته بستگی دارد.
آیا ارتقاء کیفیت با هوش مصنوعی برای محتوای ویدیویی مناسب است و چه چالش‌هایی را ایجاد می‌کند؟

بله، ارتقاء کیفیت با هوش مصنوعی برای ویدیو مناسب است، اما می‌تواند چالش برانگیز باشد زیرا ثبات در فریم‌ها بسیار مهم است. جزئیات سوسو زدن یا سوسو زدن می‌تواند حواس بینندگان را پرت کند، بنابراین روش‌های تخصصی متمرکز بر ویدیو توصیه می‌شود.
چه زمانی تکیه بر ارتقاء کیفیت با هوش مصنوعی مناسب نیست؟

ارتقای کیفیت با هوش مصنوعی باید در سناریوهای حساس، مانند روزنامه‌نگاری یا تحلیل‌های پزشکی قانونی، که دقت بسیار مهم است، با احتیاط مورد استفاده قرار گیرد. بهتر است به جای اثبات قطعی، به عنوان یک پیشرفت در نظر گرفته شود و شفافیت در مورد فرآیندهای هوش مصنوعی ضروری است.
هنگام افزایش کیفیت تصاویر فشرده‌شده، چه نکاتی را باید در نظر داشته باشم؟

برای تصاویری که به شدت فشرده شده‌اند، با حذف آرتیفکت‌ها شروع کنید تا هرگونه انسداد ناخواسته به حداقل برسد. پس از آن، می‌توانید در صورت لزوم، مقیاس را افزایش داده و وضوح نور را اعمال کنید تا جزئیات را بدون تقویت آرتیفکت‌های فشرده‌سازی حفظ کنید.

نحوه عملکرد ارتقاء کیفیت با هوش مصنوعی: ایده اصلی، به زبان روزمره 🧩

چه چیزی یک نسخه خوب از ارتقاء کیفیت تصویر با هوش مصنوعی را می‌سازد؟ ✅🛠️

جدول مقایسه: گزینه‌های محبوب ارتقای کیفیت با هوش مصنوعی (و کاربرد آنها) 📊🙂

راز بزرگ: مدل‌ها یاد می‌گیرند که از وضوح پایین به وضوح بالا نگاشت کنند 🧠➡️🖼️

جزئیات: چه اتفاقی در طول استنتاج می‌افتد (وقتی مقیاس را ارتقا می‌دهید) ⚙️✨

خانواده‌های اصلی مدل‌های مورد استفاده برای ارتقای کیفیت با هوش مصنوعی (و دلیل متفاوت بودن آنها) 🤖📚

۱) ابرتفکیک‌پذیری مبتنی بر CNN (روش کلاسیک و کارآمد)

۲) ارتقاء مقیاس مبتنی بر GAN (به سبک ESRGAN) 🎭

۳) ارتقاء کیفیت مبتنی بر انتشار (ایده خلاقانه) 🌫️➡️🖼️

۴) ارتقاء کیفیت ویدیو با حفظ ثبات زمانی 🎞️

چرا افزایش کیفیت تصویر با هوش مصنوعی گاهی اوقات جعلی به نظر می‌رسد (و چگونه آن را تشخیص دهیم) 👀🚩

نحوه‌ی عملکرد ارتقاء هوش مصنوعی: بخش آموزش، بدون سردرد ریاضی 📉🙂

گردش‌های کاری عملی: عکس‌ها، اسکن‌های قدیمی، انیمه و ویدیو 📸🧾🎥

عکس‌ها (پرتره، منظره، عکس‌های محصول)

اسکن‌های قدیمی و تصاویر به شدت فشرده‌شده

انیمه و هنر خطی

ویدئو

انتخاب تنظیمات بدون حدس و گمان زیاد (یک ترفند کوچک) 🎛️😵💫

اخلاق، اصالت و سوال عجیب «حقیقت» 🧭😬

نکات پایانی و جمع‌بندی سریع 🧡✅

مثال دنیای واقعی: ارتقاء کیفیت عکس‌های قدیمی محصولات بازار 📸

سناریو

آنچه گردش کار نیاز دارد

دستورالعمل مثال

چگونه آن را آزمایش کنیم

نتیجه

چه چیزی می‌تواند اشتباه پیش برود؟

نکته کاربردی

مثال دنیای واقعی: افزایش کیفیت یک ویدیوی آموزشی قدیمی بدون ایجاد لرزش

سناریو

آنچه گردش کار نیاز دارد

دستورالعمل مثال

چگونه آن را آزمایش کنیم

نتیجه

چه چیزی می‌تواند اشتباه پیش برود؟

نکته کاربردی

سوالات متداول

ارتقاء کیفیت تصویر با هوش مصنوعی و نحوه عملکرد آن

افزایش مقیاس با هوش مصنوعی در مقابل تغییر اندازه دو مکعبی یا سنتی

چرا صورت‌ها می‌توانند مومی یا بیش از حد صاف به نظر برسند؟

مصنوعات رایج ارتقاء مقیاس هوش مصنوعی که باید مراقب آنها باشید

چگونه ارتقادهنده‌های GAN، CNN و انتشار، نتایج متفاوتی ارائه می‌دهند

یک استراتژی تنظیمات کاربردی برای جلوگیری از ظاهر «بیش از حد هوش مصنوعی»

مدیریت اسکن‌های قدیمی یا تصاویر فشرده‌شده با JPEG قبل از ارتقاء کیفیت

چرا ارتقاء کیفیت ویدیو سخت‌تر از ارتقاء کیفیت عکس است؟

وقتی ارتقای کیفیت با هوش مصنوعی مناسب نیست یا تکیه بر آن خطرناک است

منابع

جدیدترین هوش مصنوعی را در فروشگاه رسمی دستیار هوش مصنوعی پیدا کنید

درباره ما

سوالات متداول اضافی

افزایش مقیاس با هوش مصنوعی چه تفاوتی با روش‌های سنتی تغییر اندازه دارد؟

هنگام استفاده از ارتقاء کیفیت تصویر با هوش مصنوعی، باید مراقب چه مصنوعات رایجی باشم؟

چرا گاهی اوقات چهره‌ها بعد از افزایش مقیاس، بیش از حد صاف یا غیرواقعی به نظر می‌رسند؟

اگر تصاویرم بعد از استفاده از ارتقاء کیفیت با هوش مصنوعی، کیفیت پایینی داشته باشند یا نویز زیادی داشته باشند، چه کاری باید انجام دهم؟

مدل‌های GAN و CNN در نتایج ارتقاء هوش مصنوعی چگونه با هم مقایسه می‌شوند؟

آیا ارتقاء کیفیت با هوش مصنوعی برای محتوای ویدیویی مناسب است و چه چالش‌هایی را ایجاد می‌کند؟

چه زمانی تکیه بر ارتقاء کیفیت با هوش مصنوعی مناسب نیست؟

هنگام افزایش کیفیت تصاویر فشرده‌شده، چه نکاتی را باید در نظر داشته باشم؟