- Регистрация
- 21 Дек 2016
- Сообщения
- 7,891
- Реакции
- 6,682
Эксперимент с функцией AI Overviews в поиске Google показал, что искусственный интеллект выдает точные ответы в 90% случаев. Однако ключевой нюанс состоит в том, что по крайней мере 1 из 10 ответов ложна. Учитывая количество запросов, можно говорить о миллионах "лживых ответов" в час.
AI Overviews – это функция поисковой системы Google, использующая искусственный интеллект (Gemini) для создания автоматических и кратких ответов на запрос пользователя. Впервые ее запустили в 2024 году, а с мая прошлого года она получила широкое распространение, в том числе и в Украине.
С момента внедрения Google AI Overviews вызвали массу споров и жалоб, но со временем и запуском новых моделей Gemini стали лучше. В новом эксперименте The New York Times попыталось оценить точность ответов ИИ на это время: оказалось, что они верны в 90% случаев, то есть по крайней мере 1 из 10 ответов ошибочна.
Эксперимент проводился совместно с ШІ-стартапом Oumi, а для проверки ответов использовали SimpleQA – стандартный тест для моделей из 4 тысяч вопросов, созданный OpenAI в 2024 году. Первые тесты Oumi провела в прошлом году, когда была актуальна модель Gemini 2.5. – тогда точность AI Overviews составила 85%. После обновления до Gemini 3 она повысилась до 91%. В то же время, если экстраполировать уровень ошибок на все поисковые запросы, можно говорить о миллионах обманчивых ответов на час и сотни тысяч ежеминутно.
В отчете приводятся примеры ошибок. В частности, в запросе о том, когда бывший дом Боба Марли стал музеем, Google AI Overviews привел три источника: два вообще без дат, а третий – из Википедии – с ошибкой. Другой запрос в бенчмарке предлагал указать дату, когда виолончелист Йо-Йо Ма попал в Зал славы классической музыки – ИИ сказал, что такого зала не существует, хотя сам сослался на официальный сайт организации.
Ожидалось, в Google раскритиковали методологию. Спикер Нед Адрианс заявил, что SimpleQA может содержать неточности. Компания использует собственный текст SimpleQA Verified, основанный на меньшей, но более тщательно проверенной выборке.
"Это исследование имеет серьезные пробелы", - сказал Адрианс NYT. "Оно не отображает то, что люди действительно ищут в Google".
Оценка ИИ остается сложной задачей. Каждая из компаний имеет собственный способ демонстрации возможностей, хотя проверка усложняется и тем, что модели могут давать разные ответы на один и тот же вопрос.
Еще одна особенность состоит в том, что AI Overviews не является единственной моделью. Google в комментарии для Ars Technica сообщила, что система выбирает "самую подходящую" для каждого запроса. Самые точные ответы могла бы обеспечить Gemini 3.1 Pro, но она медленная и дорогая, поэтому чаще используются модели Gemini Flash.
Несмотря на это, показатель правдивости для ИИ в 9 из 10 является для отрасли достаточно хорошим результатом. Ранее Google публиковала тесты новых моделей с точностью на уровне 60–80% без доступа к внешним данным. Использование интернет-источников улучшает результат, но создает другую проблему: пользователи доверяют ИИ и не идут проверять информацию в первоисточниках.
Хотя Google утверждает, что результаты эксперимента NYT не соответствуют действительности – мы все видели, как работает генеративный ИИ и действительно не все эти результаты были правдивыми. Даже сама компания отмечает внизу каждый из ответов: "ИИ может ошибаться, поэтому перепроверьте".
Подписывайтесь на
У Вас недостаточно прав для просмотра ссылки. Войдите или зарегистрируйтесь.