Який рівень розпізнавання картинок у людини

Який рівень розпізнавання картинок у людини



Нові технології: як нейромережа допомагає розпізнавати картинки

Навчання нейромереж на великих обсягах даних є ключовим етапом для досягнення високої продуктивності та точності моделей штучного інтелекту. Чим більше дані доступні для навчання нейронної мережі, тим краще модель зможе вивчити закономірності даних і зробити більш точні прогнози.

Для навчання нейромережі великому обсязі даних необхідно враховувати кілька аспектів. По-перше, необхідно правильно підготувати дані для навчання, включаючи їх очищення, нормалізацію та поділ на навчальний та тестовий набори. Крім того, для роботи з великим об'ємом даних часто потрібно використовувати спеціалізовані обчислювальні ресурси, такі як графічні процесори або розподілені обчислювальні кластери.

Для ефективного навчання нейромережі на великому обсязі даних часто використовуються різні методи, такі як mini-batch градієнтний спуск, які дозволяють покращити швидкість навчання та збіжність моделі. Також широко застосовуються методи регуляризації, такі як дропаут або L1/L2 регуляризація, щоб запобігти перенавченню моделі.

Важливо також враховувати валідацію моделі на окремому наборі даних, щоб оцінити її узагальнюючу здатність та уникнути перенавчання на навчальному наборі. При навчанні нейромережі на великих обсягах даних також важливо стежити за процесом навчання, моніторувати метрики продуктивності моделі та вчасно вносити корективи до її архітектури або параметрів навчання.

У цілому нині, навчання нейромережі великому обсязі даних вимагає як хорошого розуміння алгоритмів машинного навчання, а й досвіду роботи з великими даними та обчислювальними ресурсами. Тим не менш, правильно навчена нейромережа на великому обсязі даних може досягти високої точності та ефективності у вирішенні широкого спектра завдань та проблем.

Використання згорткових нейронних мереж для обробки зображень

Згорткові нейронні мережі (Convolutional Neural Networks, CNN) є одним із найефективніших інструментів обробки зображень у сучасному світі штучного інтелекту. Ці нейронні мережі засновані на принципі згортки, що дозволяє отримувати ознаки з вхідних зображень і використовувати їх для вирішення різних завдань, таких як класифікація, детекція об'єктів, сегментація та багато інших.

Основною перевагою згорткових нейронних мереж є їхня здатність автоматично вивчати ієрархію ознак зображення на різних рівнях абстракції. Наприклад, на першому шарі CNN витягуються низькорівневі ознаки, такі як ребра та кути, на другому шарі - більш складні структури і так далі, що дозволяє моделі ефективно виявляти більш складні закономірності даних.

Завдяки використанню згорткових нейронних мереж, вдається досягти високої точності у вирішенні завдань обробки зображень. Це особливо важливо в таких областях як медична діагностика, автоматичне розпізнавання осіб, аналіз знімків із супутників і дронів, а також у різних промислових програмах.

Таким чином, використання згорткових нейронних мереж для обробки зображень відкриває перед нами величезні можливості автоматизації рутинних завдань, поліпшення якості життя та розвитку нових технологій.

Розпізнавання основних елементів на зображенні: об'єктів, осіб, тексту

Розпізнавання основних елементів на зображенні - це складний і важливий процес, який допомагає комп'ютеру "зрозуміти" зміст зображення. Особливо актуально це у сферах комп'ютерного зору, машинного навчання та штучного інтелекту.

Один з основних елементів, які можуть бути розпізнані на зображенні, - об'єкти. Об'єкти можуть бути різних форм, розмірів і кольорів, і їхнє розпізнавання вимагає роботи алгоритмів і моделей, які навчені на великому обсязі даних. p align="justify"> Для розпізнавання об'єктів на зображеннях активно використовуються згорткові нейронні мережі, які здатні детектувати об'єкти на зображеннях з високою точністю.

Ще одним важливим елементом, який можна розпізнати на зображенні, є обличчя. Розпізнавання облич на зображеннях широко застосовується в системах безпеки, біометрії, рекламі та багатьох інших областях. Для розпізнавання облич застосовуються спеціалізовані алгоритми, які враховують різні параметри обличчя, такі як форма обличчя, відстань між очима, кути повороту тощо.

Також на зображенні можна розпізнати текст. Розпізнавання тексту на зображеннях - це завдання OCR (optical character recognition), яка знаходить широке застосування у скануванні документів, розпізнаванні автомобільних номерів, зчитуванні тексту з фотографій та інших областях. Для розпізнавання тексту застосовуються спеціалізовані алгоритми, які обробляють зображення та витягують інформацію про символи.

У цілому нині, розпізнавання основних елементів на малюнку - це складний і багатогранний процес, який потребує використання різноманітних технологій і методів.Однак завдяки розвитку комп'ютерного зору та штучного інтелекту, такі завдання стають все більш ефективними та точними.

2. Застосування нейромереж у повсякденному житті

Автоматичне тегування фотографій у соціальних мережах

Автоматичне тегування фотографій є одним із найважливіших та актуальних напрямів розвитку технологій у соціальних мережах. Сьогодні більшість людей активно діляться своїми фотографіями у соціальних мережах, створюючи величезний потік інформації, який важко обробити без спеціалізованих алгоритмів.

Одним із способів автоматичного тегування фотографій є використання методів машинного навчання, таких як нейронні мережі та алгоритми комп'ютерного зору. Ці методи дозволяють аналізувати вміст зображень та визначати об'єкти, сцени, обличчя, емоції та інші характеристики на фотографії.

Переваги автоматичного тегування фотографій очевидні: це дозволяє користувачам швидко знаходити потрібні фотографії, підвищує зручність використання соціальних мереж, покращує якість пошукових запитів і рекомендацій. Крім того, автоматичне тегування дозволяє знизити ручну працю модераторів та обробників контенту.

Однак, варто пам'ятати про можливі недоліки автоматичного тегування, такі як помилки розпізнавання об'єктів на фотографіях, неправильне визначення контенту та проблеми з безпекою даних. Тому важливо постійно покращувати алгоритми та методи тегування, щоб забезпечити точність та ефективність процесу.

В цілому, автоматичне тегування фотографій у соціальних мережах є невід'ємною частиною розвитку індустрії та дозволяє зробити використання соціальних мереж зручнішим та ефективнішим для користувачів.

Розпізнавання осіб на камерах відеоспостереження

Розпізнавання осіб на камерах відеоспостереження - це технологія, яка дозволяє ідентифікувати та визначати особистість людини за її особою за допомогою спеціальних алгоритмів та програмного забезпечення. Ця технологія стає все більш популярною і широко використовується в різних сферах, починаючи від безпеки та відеоспостереження до комерційних та медичних цілей.

Основним компонентом розпізнавання облич є набір алгоритмів, які аналізують унікальні особливості обличчя людини, такі як форма обличчя, відстань між очима, довжина носа та інші параметри. Після збору цієї інформації система порівнює її із заздалегідь завантаженими даними в базі даних та визначає збіги.

Однією з ключових переваг розпізнавання облич на камерах відеоспостереження є можливість підвищення рівня безпеки. Системи розпізнавання осіб можуть допомогти у швидкому виявленні злочинців або несумлінних співробітників, а також у контролі доступу на об'єкти, що охороняються.

Також технологія розпізнавання осіб може бути використана з комерційною метою, наприклад, для проведення маркетингових досліджень або аналізу поведінки клієнтів у магазинах. У медицині розпізнавання осіб може бути корисним для ідентифікації пацієнтів та доступу до їх медичної історії.

Допомога людям з обмеженими можливостями: опис зображень

Допомога людям з обмеженими можливостями відіграє важливу роль у створенні більш інклюзивного суспільства, де кожна людина має рівні можливості для участі у всіх сферах життя. Однією з областей, де потрібна допомога, є доступ до інформації та спілкування за допомогою зображень.

Зображення можуть бути дуже важливим засобом передачі для людей з обмеженими можливостями. Наприклад, для людей з порушеннями зору зображення можуть бути описані за допомогою текстових описів, які дозволяють зрозуміти зміст картинки. Такі описи можуть включати інформацію про кольори, форму об'єктів, їх розташування на зображенні та інші деталі, які допомагають відтворити загальну картину.

Для людей з порушеннями слуху або говоріння зображення також можуть відігравати важливу роль у спілкуванні. Наприклад, використання символів або піктограм може допомогти їм висловити свої думки та побажання, а також зрозуміти інформацію, яка передається через зображення.

Крім цього, важливо враховувати особливості сприйняття та розуміння інформації у людей з обмеженими можливостями під час створення зображень. Наприклад, використання контрастних кольорів та чітких форм може полегшити сприйняття зображення людьми з порушеннями зору.

Таким чином, використання адаптованих зображень з текстовими описами та піктограмами може значно покращити доступ до інформації для людей з обмеженими можливостями та сприяти їх інклюзії у суспільство.

3. Переваги та недоліки використання нейромереж для розпізнавання картинок

Висока точність розпізнавання

Висока точність розпізнавання – одна з ключових переваг сучасних технологій розпізнавання.З використанням потужних алгоритмів машинного навчання та штучного інтелекту системи розпізнавання здатні досягати напрочуд точних результатів у різних галузях.

Основою високої точності розпізнавання є велика база даних, навчена великому обсязі різних даних. Ці дані дозволяють системі "розуміти" та запам'ятовувати образи та характеристики об'єктів для подальшого розпізнавання з мінімальним рівнем помилок.

Понад те, сучасні технології розпізнавання постійно вдосконалюються і поліпшуються, що дозволяє підвищити точність розпізнавання рівня, коли система здатна перевершувати навіть людське сприйняття.

Висока точність розпізнавання має широкий спектр застосувань, починаючи від автоматизації робочих процесів та управління технічними пристроями, і закінчуючи використанням у медичних діагностичних системах або системах відеоспостереження для забезпечення безпеки.

Таким чином, висока точність розпізнавання є важливим фактором для ефективної роботи сучасних технологій та забезпечує підвищення продуктивності та безпеки у різних сферах діяльності.

Можливість обробки великих обсягів даних у реальному часі

Сучасні технології дозволяють нам працювати з величезними обсягами даних як реального часу. Це стало можливим завдяки розвитку обчислювальної техніки, появі різних спеціалізованих програм та інструментів, а також використанню хмарних технологій.

Одним із ключових інструментів для обробки великих обсягів даних у реальному часі є технологія стрімінгової обробки.З її допомогою дані обробляються в міру їх надходження, що дозволяє оперативно реагувати на зміни та аналізувати інформацію в режимі реального часу.

Для обробки даних у реальному часі також широко застосовуються технології та алгоритми машинного навчання. Вони дозволяють автоматизувати процеси аналізу та прогнозування, а також виявляти приховані закономірності та тренди у даних. Завдяки цьому компанії можуть швидше реагувати на зміни зовнішнього середовища, оптимізувати бізнес-процеси та підвищувати ефективність своєї діяльності.

Таким чином, можливість обробки великих обсягів даних у реальному часі відкриває нові можливості для бізнесу та науки. Це дозволяє скорочувати час прийняття рішень, покращувати якість аналітики та підвищувати конкурентоспроможність компаній у сучасному світі.

Складність навчання та налаштування нейромереж

Навчання та налаштування нейронних мереж являють собою складний і трудомісткий процес, що вимагає як технічних знань, так і певного досвіду. завданням, що потребує глибокого розуміння принципів роботи нейронних мереж.

Після визначення архітектури необхідно провести навчання нейронної мережі на навчальному наборі даних.Крім того, необхідно стежити за процесом навчання та вчасно коригувати параметри, щоб уникнути перенавчання або недонавчання.

Особливу складність представляє настроювання гіперпараметрів нейронної мережі. робить цей процес ще складнішим і трудомістким.

Проблеми з конфіденційністю даних та етичними питаннями

У сучасному світі однією з ключових проблем, пов'язаних з використанням інформаційних технологій, є питання конфіденційності даних та етичних аспектів їх обробки. не завжди можна бути впевненим у тому, що ці дані будуть безпечними та не будуть використані без згоди самих користувачів.

Однією з основних проблем є збирання та зберігання персональної інформації без згоди власників. Багато компаній збирають різні дані про користувачів, щоб потім використовувати їх у рекламних цілях або передавати третім особам.

Іншою важливою проблемою є використання алгоритмів та штучного інтелекту для аналізу та обробки даних.Наприклад, використання таких алгоритмів при прийнятті рішень про видачу кредитів або працевлаштування може призвести до дискримінації певних груп населення.

Етичні питання також постають у сфері використання даних для медичних досліджень. На перший погляд, аналіз даних про здоров'я та біометричні показники може призвести до розробки нових методик лікування чи профілактики захворювань. Однак тут постає питання про згоду пацієнтів на використання їх інформації, а також про методи знеособлення даних, щоб зберегти їхню конфіденційність.

Загалом проблеми з конфіденційністю даних та етичними питаннями стають все більш актуальними в умовах швидкого розвитку цифрових технологій. Необхідно розробляти ефективні механізми захисту даних користувачів та суворі правила використання інформації відповідно до принципів етики та законодавства.

Опис фото за допомогою нейронних мереж

У попередній статті ми писали про роль анотування (розмітки) для розвитку штучного інтелекту та розпізнавання об'єктів на зображенні. Але як здатність комп'ютерів "бачити" і "розуміти" сенс фото допоможе нам вирішувати більш практичні бізнес-завдання?

Важливе місце серед технологій розпізнавання посідає ідентифікація користувачів по обличчю та/або фото у документах. Системи розпізнавання осіб, наприклад, сервіс Face ID від Evergreen можуть повертати докладну інформацію на основі аналізу осіб. Але про це ми поговоримо окремо.

У світі щодня з'являються мільярди нових фотографій. Тому класифікувати та організувати їх таким чином, щоб пошук конкретної групи чи унікального зображення не вимагав багато часу та зусиль – завдання досить складне.

Опис картинок за допомогою нейромереж полегшує завдання пошуку та видачі релевантних результатів у пошукових системах на запит користувача природною мовою. Можна автоматично створювати категорії та сортувати особисті колекції медіафайлів, відзначати тегами продукцію в онлайн-каталогах, готувати вступні дані для алгоритмів комп'ютерного зору та вирішувати інші завдання в різних сферах — від електронної комерції до допомоги людям з інвалідністю.

Автоматичний підбір тегів по фото товару

PIM-системи (=Product Management System, управління інформацією про продукт) з елементами штучного інтелекту здатні аналізувати зображення та автоматично генерувати детальні атрибути для онлайн-каталогів. Автоматичний підбір тегів для продуктів дозволяє заощаджувати час та витрати: алгоритм на основі ІІ може описати товар по фото та автоматично запропонує відповідні підписи та категорії. Наприклад, система може визначити тип речі, матеріал, колір, малюнок, садіння одягу і т.д. Візуальні рекомендації на основі ІІ дають можливість клієнтам зручніше переміщатися за категоріями. Такі бренди, як Asos, eBay, Forever21 вже використовують візуальний пошук на основі ІІ та розпізнавання зображень для ефективної взаємодії з клієнтами.

Автоматична генерація мета-тегів для веб-пошуку та SEO

Програма автоматично додає підписи до фото, використовуючи релевантні ключові слова, які передають візуальний зміст зображення. Це дозволить покращити ваші рейтинги у пошуковій видачі. За допомогою штучного інтелекту та алгоритмів машинного навчання можна автоматично заповнювати ALT-теги на основі аналізу зображень.Наприклад, плагін Image SEO для WordPress може автоматично перейменовувати файли, створювати досить точні атрибути ALT та описи та заповнювати їх релевантним для SEO контентом. Інструмент аналізу зображень та контекстних даних Google Vision API використовує сучасні технології розпізнавання образів на зображенні та створює мітки для всіх об'єктів, які він може ідентифікувати.

Допомога людям із порушеннями зору

Ми можемо створити продукт для допомоги сліпим і людей з вадами зору, щоб вони могли краще орієнтуватися в повсякденних ситуаціях без сторонньої допомоги. Для цього спочатку необхідно перетворити картинку на текст, потім текст — на голос (це дві відомі області застосування Deep Learning).

Програма під назвою Seeing AI, розроблена Microsoft, дозволяє людям з порушеннями зору бачити навколишній світ за допомогою смартфонів. Програма може зачитувати текст з наведення на нього камери, дає звукові підказки, вміє розпізнавати як друкований, так і рукописний текст, допомагає впізнавати друзів та членів сім'ї, може описати людей, які знаходяться поруч, ідентифікувати валюту та багато іншого.

Aira, успішний каліфорнійський стартап, розробив AR-окуляри для людей із слабким зором. Для служби підтримки було створено віртуальний агент на базі штучного інтелекту Chloe. Компанія використовує лінійку графічних процесорів NVIDIA RTX 2080 Ti для навчання глибоких нейронних мереж. А ще Aira використовує надзвичайно якісно анотований датасет для обробки зображень та природного мовлення.

Автоматичне розпізнавання об'єктів на зображенні для систем безпеки

Розпізнавання та точний опис даних необхідне для додатків, пов'язаних із системами безпеки:

  • розпізнавання предметів на зображенні для виявлення зброї та/або небезпечних об'єктів;
  • анотування зображень для розпізнавання облич;
  • класифікація об'єктів на моніторах безпеки;
  • виявлення та позначення об'єктів/людей, а також відстеження їх на послідовності кадрів та багато іншого.

Камери відеоспостереження сьогодні є скрізь, але якщо вони, на додаток до функції огляду, зможуть генерувати релевантні підписи до зображень, це допоможе нам піднімати тривогу відразу ж, як тільки камера зафіксує будь-яку підозрілу активність. Алгоритми на базі AI допомагають автоматично створювати мітки для будь-яких видів зображень, що одержуються з камер безпеки, щоб навчити ваші системи реагувати на будь-які потенційно небезпечні ситуації. Можливо, таким чином вдасться знизити рівень злочинності та кількість нещасних випадків.

Open source рішення: нейромережі для розпізнавання зображень

Ми вибрали кілька рішень з відкритим вихідним кодом, які можуть замінити опис картинок вручну та генерують досить точні текстові підписи. Їх також можна взяти за основу при розробці індивідуального рішення для ваших конкретних бізнес-завдань.

Image_Captioning для автоматичного позначення тегами

Ця система для опису фото на базі нейромереж використовує зображення на вході, а на виході створює текстову пропозицію, що описує візуальний зміст картинки. Модель складається з згорткової нейронної мережі (CNN) для отримання візуальних характеристик, і рекурентної нейронної мережі (RNN) для перекладу цих даних в текст. І CNN, і RNN-частини можна додатково навчати за допомогою бібліотеки TensorFlow.

Caption_Generator для опису картинок за допомогою AI

Caption_generator — це модульна бібліотека, побудована поверх Keras/TensorFlow для генерації підписів природною мовою (англійською) для будь-якого вхідного зображення. Вона складається з трьох моделей: CNN-енкодера, моделі векторного представлення слова (word embedding) та RNN-декодера. створювати досить детальні та точні підписи до зображень.

Car-Recognition - розпізнавання марок автомобілів за допомогою нейронки

Як випливає з назви, це рішення було розроблено для розпізнавання різних моделей автомобілів за допомогою глибокого навчання (Deep Learning). як демо для створення анотацій до вашої власної колекції зображень.

DeepLogo - нейромережа для розпізнавання логотипів

Це система розпізнавання логотипів брендів на базі TensorFlow Object Detection API. Ви можете створити власний алгоритм визначення логотипів, використовуючи одну з попередньо вивчених моделей, що входять до збірки.

Image-Caption-Generator – створення точних підписів до фото в CNN/RNN

Ще одна нейронна мережа для генерації підписів до зображень з використанням CNN, RNN і променевого пошуку.

Ще одна платформа, CloudCV, пропонує цікавий сервіс відповіді на візуальні питання (VQA, Visual Question Answering).Отримавши питання природною мовою та зображення, система VQA намагається знайти на нього правильну відповідь, використовуючи алгоритми глибокого навчання. Для правильного спрацьовування програми потрібне розуміння мови, розпізнавання образів та загальні знання. Датасет VQA містить більше 265K зображень (COCO та абстрактні образи), більше 614K питань у вільній формі природною мовою (приблизно 3 питання на зображення) та понад 6 мільйонів лаконічних відповідей у ​​вільній формі (10 відповідей на зображення).

Комерційні послуги для опису фотографій на базі AI

На ринку існує низка цікавих рішень, які автоматично створюють підписи до зображень для e-commerce (наприклад, для категоризації онлайн-каталогів), для швидкого, зручного пошуку та обробки медіафайлів та будуть корисними для різних проектів з розпізнавання об'єктів. Ось наша добірка.

Imagga – генератор тегів на основі контекстного аналізу

Цей API для автоматичного підбору тегів для зображень на основі ІІ дозволяє надавати відповідні ключові слова та текст зображень та відео. Програма використовує алгоритми глибокого вивчення для попіксельного аналізу вмісту зображень, отримання візуальних характеристик і виявлення об'єктів. Вона може точно розпізнавати вміст, сюжет та загальний зміст картинки.

Wide Eyes Auto-Tagging - автоматичні теги для онлайн-каталогів

Інструмент, розроблений для розпізнавання зображень у fashion-сфері, який дозволяє автоматично додавати до каталогів якісні та точні описи продуктів. Система пропонує понад 300 тегів на основі вибірки зображень із понад 60 категорій (одяг, мода, ювелірні вироби та ін.).Інші ІІ-рішення від Wide Eyes включають пошук за зображеннями, рекомендації схожих товарів та персоналізований порадник за стилем.

Skyfish — створення автоматичних тегів та колекцій

Вбудований алгоритм штучного інтелекту автоматично сканує та підписує зображення, використовуючи ключові слова, які вже зберігаються в системі. Ці автоматично присвоєні ключові слова доступні для внутрішнього пошуку Skyfish, так що знайти зображення повторно дуже легко. Однак автоматичні теги зберігаються лише всередині платформи. Після експорту фотографій за межі Skyfish всі згенеровані підписи видаляються.

Amazon Rekognition – пошук контенту на основі розпізнавання об'єктів

Це потужна платформа, призначена для автоматизації аналізу зображень та відео за допомогою машинного навчання. Amazon Rekognition Custom Labels дозволяє ідентифікувати на зображеннях ключові для бізнесу об'єкти, а також вилучати з них цінну інформацію: знаходити фірмовий логотип у соціальних мережах, визначати продукцію на полицях магазинів, класифікувати деталі обладнання на складальній лінії та багато іншого. Платформа також підтримує розпізнавання та аналіз осіб, розпізнавання тексту на зображеннях та відео, розпізнавання знаменитостей, відстеження переміщень та інші функції.

Facebook AI — опис фото для незрячих

Facebook використовує технологію розпізнавання об'єктів для автоматичного створення альтернативного (alt) тексту для опису фотографії для сліпих і людей з вадами зору. Якщо зображення розпізнане, користувач може почути перелік об'єктів на фото, опис, залишений людиною, яка завантажила картинку, кількість лайків, коментарів і т.д.Крім того, цей альтернативний текст можна редагувати для створення більш точних описів – корисна функція для контент-менеджерів.

Ми в Evergreen вважаємо за краще використовувати TensorFlow - фреймворк для машинного навчання з відкритим вихідним кодом - для навчання нейронних мереж при створенні рішень з елементами штучного інтелекту. Досвід фахівців Evergreen дозволяє нам впроваджувати алгоритми розпізнавання об'єктів та візуальний пошук у проектах клієнтів. Бажаєте дізнатися більше про практичне застосування таких рішень? Звертайтеся до нас – завжди раді допомогти.

Замість виведення

Автоматичний опис фото за допомогою нейромереж дозволяє сортувати та класифікувати зображення набагато швидше та простіше: система буквально "читає" візуальний вміст і "пояснює" сенс картинки у вигляді тексту. Таким чином, сенс зображення стає доступним для пошукових систем — перевага, яка корисна на практиці. А також це допоможе людям, які використовують скринрідери.

Ми в Evergreen вже давно працюємо з ІІ-технологіями та створюємо проекти в галузі розпізнавання облич та об'єктів у різних сегментах бізнесу. Для клієнтів ми можемо створити персоналізований продукт або сервіс: використовувати Open-source рішення і створити MVP в короткі терміни та економічно ефективно. Наша команда підтримує проект на кожному етапі розвитку в міру зростання та масштабування.

Бажаєте розробити кастомний інструмент для автоматичного розпізнавання та анотування зображень для вашого онлайн-магазину? Або вам потрібне комплексне рішення для бізнесу з використанням штучного інтелекту? Напишіть нам або заповніть форму. Давайте створювати інноваційний продукт для вашої компанії разом вже сьогодні!

Як розпізнати фото, зроблене штучним інтелектом

Штучний інтелект стирає грань між реальністю та вигадкою. Створені ним зображення мало відрізнити від реальних. І все ж таки поки це можливо! Декілька порад від DW.

Фото: J. David Ake/AP/dpa/picture alliance

Ще ніколи не було так просто втілювати фантазії. Для цього потрібен лише доступ до інтернету та інструментів штучного інтелекту. Такі нейромережі як Midjourney, DALL-E або DeepAI за лічені секунди згенерують фотореалістичну картинку або створять оригінальне зображення, причому високої якості. Нейросеть здатна самостійно робити абсолютно новий контент або трансформувати вже наявний: змінювати кольори, форму і положення предметів на картинці, додавати нові елементи та видаляти непотрібні, перемальовувати зображення в іншому стилі, жанрі і т.д.

"Послуги" штучного інтелекту майже нічого не варті, а іноді й взагалі безкоштовні. Саме тому сьогодні в соцмережах там багато помітних і привабливих, різних зображень, що миттєво розповсюджуються по всьому світу. Бізнесменам, маркетологам, дизайнерам, копірайтерам та багатьом іншим нейромережам справді полегшують працю та звільняють час. Але в той же час ІІ почали все частіше використовувати на шкоду людині, зокрема - для пропаганди та дезінформації.

Останні кілька місяців в інтернеті все частіше з'являються фотографії, створені за допомогою або штучним інтелектом.Серед інших особливу увагу привернув знімок Володимира Путіна, який схилив коліно перед головою КНР Сі Цзяньпіном і цілує йому руку; зображення нібито Дональда Трампаа в оточенні поліцейських, що заарештували його, а також схожий за тематикою знімок з нібито російським президентом, якого ведуть під руки люди в бронежилетах і чорних шоломах; зображення папи римського Франциска у модному білому пуховику; фотографія Ілона Маска, що мило тримає за руку свою конкурентку - гендиректора General Motors Мері Барру. Всі ці знімки виглядають дуже правдоподібними, якщо говорити про їхнє технічне виконання. При цьому на них – події, яких насправді не було. Це говорить про те, що все більш і більш удосконалюються алгоритми та нейронні мережі вже зараз здатні стерти межу між реальністю та вигадкою.

Скріншот-приклад згенерованої за допомогою ІІ фотографії Ілона Маска та гендиректора General Motors Мері Барра

Землетруси, яких не було

Фотографії більшості видовищних подій на кшталт автомобільних гонок або космічних польотів, а також арештів знаменитостей можуть бути досить швидко перевірені користувачами. Достатньо звернутися до авторитетних ЗМІ або інших джерел, що заслуговують на довіру, в мережі.

Найбільш проблематичними та небезпечними з погляду поширення дезінформації є картинки, у яких зображені менш відомі люди. Про це розповів в інтерв'ю DW експерт з ІІ Генрі Ейдер (Henry Ajder). "Але не тільки згенеровані зображення конкретних персон можуть бути дезінформацією. Ми бачили людей, які самі створювали події, яких ніколи не було, наприклад землетрусу", - додав фахівець.Йдеться про сильний землетрус, який нібито стався у північно-західній частині Тихого океану у 2001 році. Але, як з'ясувалося, нічого такого не було і фотографії, розміщені на англомовній платформі Reddit, були створені за допомогою ІІ.

Однак наразі можна відрізнити справжні фотографії від штучно створених. Адже так само, як і людині, ІІ властиво помилятися. Як виявити маніпуляцію? Декілька порад.

1. Збільшити масштаб та уважно розглянути деталі

Багато зображень, створених ІІ, на перший погляд дуже реальні. Розпізнати підробку можна лише за найближчого розгляду. Для цього знайдіть версії знімка з максимально можливою роздільною здатністю та збільште деталі. Тоді й стануть видно можливі невідповідності, нестикування ліній та тіней, колірні помилки, клони зображення тощо.

2. Знайти джерело зображення

Якщо ви не впевнені, чи є зображення реальним, спробуйте більше дізнатися про його походження. Наприклад, іноді інші користувачі діляться своїми думками у коментарях, і завдяки цьому можна вийти на джерело або першу публікацію картинки. Може допомогти і зворотний пошук зображення. Для цього завантажте зображення в такі інструменти, як зворотний пошук зображень Google, TinEye або Yandex. В результаті часто знаходиться додаткова інформація про знімок, а іноді – і його походження. Можливо, авторитетні джерела вже проводили фактчекінг, і тоді пошуковик видасть роз'яснення у результатах пошуку.

3. Звернути увагу на пропорції тіла

Чи правильні пропорції тіла зображених людей? Саме в цьому пункті ІІ часто робить помилки: згенеровані руки можуть бути занадто маленькими, а пальці - занадто довгими. Або голова та ноги не відповідають решті тіла.Наприклад, на фейковій фотографії Путіна і Сі Цзіньпіна, задній черевик уклінної людини надто великий і широкий. Ікра тієї ж таки ноги здається подовженою. Та й голова при уважному розгляді надто велика і непропорційна до тіла.

Приклад фотографії, створеної ІІ. Уклінний нібито Путін з Сі Цзіньпіном. Маніпуляцію можна визначити, придивившись до деталей: черевики, руки та вухо деформовані. Ікра ноги надто довга, а голова непропорційна по відношенню до тілаФото: Twitter/DW

4. Пам'ятати та бачити типові помилки ІІ

В даний момент деякі програми обробки зображень з ІІ ніяк не навчаться правильно зображати частини тіла людини, особливо руки. Раз у раз вони малюють шостий палець. Або забирають п'ятий. Як, наприклад, на знімку тата Франциска у білому пуховику - на його лівій руці у білій рукавичці лише чотири пальці, а на знімку без рукавички пальці непропорційно довгі.

Дуже часто у "підроблених людей" буває надто багато зубів. Або дивної форми вуха та очі. Окуляри, які люблять одягати людям ІІ, як правило, деформовані і неприродно сидять. Поверхні, що відображають, теж створюють проблеми програм ІІ і полегшують їх викриття.

5. Чи не здається зображення неприродним

Часто картинки ІІ надто ідеальні, щоб бути правдою. Довіртеся своїй інтуїції: чи може таке бездоганне з естетичного погляду зображення бути реальним? Якщо говорити про портретні фотографії, то підозра може викликати занадто гладка шкіра людини, занадто рівні та гармонійні пропорції обличчя, бездоганні зуби та волосся.Слід уважніше придивитися до фотографій, ідеальний художній вигляд яких важко досягти навіть професійні фотографи при зйомці студії і подальшій обробці зображення. ІІ створює ідеали, які мають сподобатися всім.

6. Вивчити фон зображення

На тлі об'єкти можуть відображатися спотвореними, наприклад, ліхтарі. Часто буває, що програми ІІ клонують людей та предмети, використовуючи їх в одному знімку двічі. Крім того, фон нерідко буває розмитим.

Висновки

Сьогодні багато зображень, створених штучним інтелектом, можуть бути ідентифіковані як такі, якщо їх уважно розглянути та дізнатися про їх походження. Однак не варто забувати, що в міру вдосконалення технологій ІІ зведе нанівець свої помилки. І навіть детектори ІІ, такі як Hugging Face, не зможуть допомогти нам виявити фальсифікацію – детектори дають підказки, але не більше. Опитані DW експерти не радять на них повністю покладатися, оскільки вони помиляються, і буває, що реальні фотографії оголошуються фейком і навпаки. Тому, найімовірніше, нам час звикати до того, що в інтернеті не можна довіряти жодній картинці.

Примітка: DW не публікує зображення, створені ІІ. Як виняток ми можемо показати зображення, створені за допомогою ІІ, якщо вони є предметом повідомлення, наприклад, коли ми наводимо приклад фальшивих новин або розповідаємо про можливості ІІ. У такому разі ми чітко вказуємо, що ці зображення створені за допомогою ІІ.

Що може робот Софія?

Для того, щоб побачити цей відео, натиснуто JavaScript, і переконайтеся, що upgrading до веб-браузера, що підтримує HTML5 відео

Подібні статті

Останні статті

Категорії