ШІ навчився "ховати" образи у мемах і картинках: популярні фільтри виявилися безсилими
ШІ-генератори навчилися вбудовувати токсичні написи у меми так, що їх практично неможливо відмодерувати
ШІ-креатори, серед яких і Stable Diffusion, опинилися у центрі скандалу через небезпечну вразливість. Виявилося, що стандартні системи безпеки "осліпли": вони розпізнають візуальну картинку, проте абсолютно "не розуміють" змісту тексту, який ШІ "вшиває" у зображення.
Про це пише РБК-Україна з посиланням на дослідження CISPA.
Більше цікавого: Без російської озвучки та з Москвою у вогні: що відомо про Metro 2039Вчені пояснили, чому проблема виявилася значно глибшою, ніж вважалося: сучасні детектори (NSFW) налаштовані на пошук візуальних заборон, однак ігнорують семантику.
Що це означає:
- Текстовий камуфляж - ШІ сприймає букви як набір ліній. Для алгоритму це частина малюнка, а для користувача - пряма образа чи дискримінація.
- Масовий обхід модерації - зловмисники навчилися використовувати прості промпти, які змушують нейромережу створювати токсичні меми. Такі "творіння" легко проходять перевірку соцмереж.
- Відсутність "розуму" - стандартні системи не мають мовного інтелекту, тож будь-який напис на фото для них є безпечним за замовчуванням.
Щоб зупинити поширення небезпечних зображень, було розроблено датасет ToxicBench, який виклали у вільний доступ на GitHub.
Як працює технологія?- Миттєве сканування - система автоматично "витягує" всі написи з картинки за допомогою OCR-технологій.
- Аналіз токсичності - спеціальний класифікатор миттєво перевіряє кожне слово на відповідність етичним нормам.
- Інтелектуальна підміна - замість помилки, ШІ підміняє "брудне" слово візуально схожим, але нейтральним за змістом поняттям.
Замість того, щоб будувати зовнішні фільтри, автори змінили самі внутрішні шари моделі. Це дозволило зберегти фотореалізм та швидкість генерації, водночас зробивши ШІ "вихованим".
Дослідники наголошують: ToxicBench є критично важливим для освітніх платформ та публічних сервісів, які використовують відкриті моделі ШІ. Наступним кроком вчених стане повне очищення відеогенераторів нового покоління від будь-якого токсичного впливу.
Ще більше цікавого:
- Ви для нього просто таблиця: популярний ШІ виносить вироки людству без краплі емпатії
- ШІ проти брехні: нова нейромережа викриває діпфейки з точністю 95%