Навязчивая капча которую вы так не любили — на самом деле обучала нейросети. И вы помогали бесплатно

Страницы:  1

Ответить
 

Professor Seleznov


Вы вводили размытые буквы. Кликали на все светофоры. Выбирали велосипеды, автобусы, пешеходные переходы. Злились. Промахивались. Проходили заново.
И всё это время — обучали искусственный интеллект.
Без согласия. Без оплаты. Миллиарды раз по всему миру.
Это не теория заговора. Это задокументированная история одного из самых масштабных краудсорсинговых проектов в истории человечества. Просто вам об этом не сказали.
pic
Как появилась капча — и зачем она была нужна на самом деле
2000 год. Интернет молодой, боты уже старые. Они регистрируют тысячи аккаунтов, рассылают спам, накручивают голосования.
Нужен был способ отличить человека от машины. Так появился CAPTCHA — Completely Automated Public Turing test to tell Computers and Humans Apart. Полностью автоматизированный тест Тьюринга для различения компьютеров и людей.
Идея простая: покажи что-то что человек легко распознает, а компьютер — нет. Размытые буквы. Искажённые цифры. Компьютеры 2000-х не умели их читать. Люди — умели.
Защита работала. Но один человек понял, что в этой системе спрятан огромный неиспользованный ресурс.
reCAPTCHA v1: как вы оцифровали миллионы книг
2007 год. Луис фон Ан — тот самый учёный, который придумал оригинальную капчу — создаёт reCAPTCHA.
Идея гениальная в своей простоте.
Google в то время занимался грандиозным проектом — оцифровкой книг. Сканеры переводили страницы в изображения, программы распознавания текста (OCR) превращали изображения в текст. Но старые книги, газеты, рукописи — с потёртыми страницами, старинными шрифтами, пятнами от времени — машины читали плохо. Примерно каждое седьмое слово распознавалось неверно.
Луис фон Ан предложил решение: пусть люди это исправят. Не зная об этом.
Новая reCAPTCHA показывала пользователю два слова. Одно — контрольное, компьютер знал правильный ответ. Второе — то самое сложное слово из старой книги, которое машина не смогла распознать.
Если с контрольным словом всё верно — значит человек настоящий. А его версия второго слова записывалась как правильная расшифровка. Когда несколько разных людей вводили одинаковый ответ — слово считалось распознанным.
Каждый день таким образом обрабатывалось около 200 миллионов капч. Каждый ввод — примерно 10 секунд человеческого труда. В сумме — 500 000 часов ежедневно.
За несколько лет пользователи интернета бесплатно оцифровали архивы New York Times начиная с 1851 года, миллионы книг для Google Books, документы которым сотни лет.
Луис фон Ан позже назвал это «искусством превращения человеческого времени в полезную работу». Компании сэкономили сотни миллионов долларов. Пользователи — не получили ничего, кроме раздражения.
Именно эти размеченные тексты стали частью датасетов, на которых потом обучали языковые модели — те самые, которые сегодня работают в [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/chat_gpt5_4]новейших версиях ChatGPT[/url] и других [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/claude_opus]текстовых нейросетях[/url].
pic
reCAPTCHA v1: как вы оцифровали миллионы книг
reCAPTCHA v2: как вы учили машины водить
2014 год. Google обновляет reCAPTCHA. Появляются те самые задания которые все помнят — и ненавидят.
«Выберите все квадраты с светофором» «Отметьте все изображения с автобусом» «Нажмите на все пешеходные переходы»
Казалось бы — защита от ботов усложнилась. На самом деле — изменилась цель.
К 2014 году у Google был уже другой масштабный проект: Waymo — беспилотные автомобили. И главная задача беспилотника — научить его видеть дорогу. Распознавать светофоры, пешеходов, автобусы, разметку. В любую погоду, под любым углом, в разных условиях освещения.
Для этого нужны были миллионы размеченных изображений. Фото светофора с подписью «светофор». Фото перекрёстка с отмеченными пешеходными переходами.
Вы это и делали.
Каждый раз когда вы кликали на квадраты с автобусом — вы добавляли точку в обучающую выборку компьютерного зрения. Каждый выбранный светофор — разметка для нейросети беспилотника.
Это же компьютерное зрение сегодня лежит в основе генераторов изображений. Именно оно позволяет таким инструментам как [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/midjourney_toe_bot]Midjourney[/url]или [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/nano_banana_pro]Nano Banana Pro[/url] «понимать» что находится на фото и создавать визуально осмысленные изображения. Кстати, именно благодаря этому [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/nano_banana_pro]Нано Банана про[/url] умеет без ошибок писать тексты на изображениях.
Что ещё вы делали — и не знали об этом
Капча была самым очевидным примером. Но не единственным.
Лайки и дизлайки на YouTube, рекомендации в Netflix, оценки в магазинах приложений — всё это обучало рекомендательные алгоритмы. Каждый ваш выбор говорил системе: вот это нравится людям похожим на тебя, вот это нет.
Поисковые запросы в Google — миллиарды формулировок, исправлений, уточнений — стали датасетом для понимания человеческого языка. Как люди формулируют мысли. Какие слова считаются синонимами. Как меняется запрос когда результат не устраивает.
Фотографии в Instagram и Facebook — миллиарды изображений с подписями, тегами, геолокацией — обучали модели компьютерного зрения понимать что изображено на фото. Именно эти датасеты стали фундаментом для современных генераторов видео вроде [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/kling_3]Kling[/url]и инструментов озвучки вроде [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/eleven_labs]ElevenLabs[/url].
Голосовые помощники — каждый раз когда вы говорили «окей Google» или «Алиса» и исправляли неправильно распознанное слово — вы размечали данные для систем распознавания речи.
Переводчик Google долгие годы учился в том числе на том как люди исправляли его переводы. Кнопка «предложить улучшенный перевод» — это была форма сбора обучающих данных.
По сути весь ваш цифровой след последних двадцати лет — это обучающие данные для [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/claude_opus]современных мощных нейросетей[/url]. Просто никто не формулировал это именно так.
pic
Когда всё изменилось
В какой-то момент краудсорсинг незаметных пользователей перестал быть достаточным.
Языковые модели стали сложнее. Генераторы изображений потребовали миллиардов размеченных примеров. Появились задачи где нужна была не просто разметка «светофор / не светофор», а тонкое понимание контекста, нюансов, качества.
Компании начали нанимать людей — специалистов по разметке данных, операторов RLHF (обучение с подкреплением от человеческой обратной связи). Появились целые индустрии. Но основа — те самые миллиарды капч и лайков — уже была заложена.
Сегодня модели обучаются по-другому. [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/claude_opus]Claude[/url] от Anthropic, [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/gemini3_pro]Gemini[/url]от Google, [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/chat_gpt5_4]GPT-5.4[/url] — за каждой из них стоят годы осознанной работы с данными, тонкой настройки, проверки качества. Именно поэтому [url=https://eduforms.org СПАМ нейросети[/url] могут давать невероятные результаты, порой неотличимые от продукта, созданного реальными людьми.
Эпоха случайного краудсорсинга закончилась. Началась эпоха осознанного использования.
Что это значит для вас сейчас
Всё что создавалось годами вашим и чужим трудом — сейчас доступно как инструмент.
Языковые модели, которым помогли ваши поисковые запросы. Компьютерное зрение, которое тренировали ваши клики по светофорам. Генераторы речи, которые учились на ваших голосовых командах.
Сегодня это не абстракция — это конкретные инструменты. Текстовые нейросети, генераторы изображений, видео, голоса. На [url=https://eduforms.org СПАМ AI[/url] всё это собрано под одной подпиской: [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/claude_opus]Claude[/url], [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/chat_gpt5_4]ChatGPT[/url], [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/midjourney_toe_bot]Midjourney[/url], [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/nano_banana_pro]Nano Banana Pro[/url], [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/kling_3]Kling[/url], [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/eleven_labs]ElevenLabs[/url]и другие.
Вы уже вложили в это своё время — когда вводили капчи, лайкали видео и исправляли переводы. Теперь можно получить что-то взамен.
Итог
В следующий раз когда увидите капчу — знайте: где-то в мире нейросеть стала чуть умнее.
История с капчей — это не история обмана. Это история о том как технологические компании нашли способ масштабировать сбор данных до невероятных объёмов. Эффективно. Дёшево. Незаметно.
И о том что инструменты, которые мы строили сами не подозревая — теперь в наших руках.
[url=https://eduforms.org СПАМ Попробовать нейросети на Study AI[/url]-[url=https://habr.com/ru/companies/studyai/articles/1030654/?utm_source=habrahabr &utm_medium=rss &utm_campaign=1030654]Источник[/url]
 
Loading...
Error