Lumina AI Vision использует передовые модели глубокого обучения, специально адаптированные для локального инференса на потребительском железе.
Enhanced Super-Resolution Generative Adversarial Network — генеративная сеть для слепого суперразрешения реальных фотографий с неизвестным типом деградации.
В отличие от классического ESRGAN, Real-ESRGAN обучен на синтетических парах с реалистичными деградациями: гауссовый шум, JPEG-артефакты, кинопленочное зерно, смаз, хроматические аберрации.
Архитектура генератора: RRDB (Residual-in-Residual Dense Block) с 23 блоками, дискриминатор U-Net с добавлением спектральной нормализации.
Swin Transformer для восстановления изображений. Использует оконное мультиголовое самовнимание (W-MSA) с кросс-оконными сдвигами для захвата как локальных, так и глобальных зависимостей.
Идеально справляется с классическим шумоподавлением (AWGN), JPEG-артефактами и суперразрешением с явным масштабным коэффициентом.
Generative Facial Prior GAN — восстановление лиц с помощью предобученного StyleGAN2 в качестве «умного» prior'а. Модель знает, как должно выглядеть человеческое лицо на уровне фундаментальных статистических закономерностей.
Все метрики получены на тестовых датасетах Set5/BSD100/FFHQ при разрешении входного изображения 512×512. Скорость измерена на RTX 4070 при тайлинге 512px.