Інструмент reCaptcha створений для того, щоб люди не використовували ботів для просування своїх товарів в інтернеті, атак хакерів та інших цілей. Але є так звані клік-ферми, де люди за гроші розв’язують капчі для автоматизованих сервісів. Ентузіаст вирішив перевірити, чи зможе ШІ-бот вирішувати капчі, і робити це дешевше, ніж клік-ферми.
Дослідник на ім’я Метт Бухнер зосередився на одному вигляді капчі, коли зображення розбивається на фрагменти, і користувачеві потрібно знайти названі системою об’єкти. Це можуть бути світлофори, автобуси тощо. Спочатку ентузіаст вирішив навчити свою модель. Для цього він відібрав схожі фотографії міста зі світлофорами та автомобілями, промаркував картинки та навчив модель на 30 фотографіях. Це не спрацювало. Зазвичай моделі навчають на тисячах вихідних даних, тому причина невдачі могла бути у невеликому вихідному датасеті.
Другий підхід полягав у використанні вже навченої на міських краєвидах моделі NVIDIA. Вона впоралася з розпізнаванням світлофорів, і дослідник включив їх у свій алгоритм розв’язання капчі. Зазвичай подібні алгоритми працюють з урахуванням обчислювальної потужності відеокарт. Оскільки вони дорогі, боти найчастіше базуються у хмарі на хостингах, які за окрему платню надають доступ до професійних відеокарт.
Для свого робота Бухнер орендував відеокарту NVIDIA RTX 4000 Ada, яка обходилася йому в $0,15 на годину або $0,05 за 1000 вирішених капч, тоді як клік-ферми беруть в середньому $3 за це завдання. Але важливо, що ферми працюють з усіма видами капч, тоді як ентузіасту довелося б створювати алгоритми під кожну конкретну з них.