Какие сюрпризы преподнёс 2025 год в деле обнаружения фейков, сгенерированных искусственным интеллектом

2025 год стал знаковым, когда синтетические медиа пересекли новый рубеж. Новое поколение генеративных моделей для создания видео-контента вызвало беспрецедентный поток роликов, созданных с помощью искусственного интеллекта (ИИ). Участились случаи генерации дипфейков с публичными деятелями (живыми или уже усопшими), которые органично вписывались в ленты социальных сетей: королева Елизавета, остановленная полицией, генеральный директор OpenAI Сэм Альтман, совершающий кражу в магазине, «слитые разговоры» с выборов в Боливии и Ираке, а также волна вводящих в заблуждение медиа, циркулировавших во время ирано-израильской войны.

Искусственно созданный медиаконтент никогда не покидал заголовки новостей, и благодаря быстрому улучшению реализма, синхронизации и генерации длинного видеоряда, его способность вводить людей в заблуждение ускоряется. Однако людские возможности для обнаружения подделок, а также реагирования на них по-прежнему отстают. Благодаря группе быстрого реагирования по борьбе с дипфейками, объединяющей журналистов, проверяющих факты, правозащитников и экспертов по анализу медиаконтента, в 2025 году были выявлены не только сохраняющиеся старые проблемы обнаружения, но и зафиксирован новый уровень сложности, вносимый появлением мультимодальных моделей. Это немного даёт понимания, с чем предстоит столкнуться в дальнейшем человеческому сообществу.

1. Гиперреалистичные длинные видеоролики и сложные конвейеры в центрах обработки данных опережают инструменты обнаружения. В этом году наблюдался резкий рост числа подозрительных видеороликов, созданных с помощью ИИ, особенно после выпуска новых версий мощных нейросетей. Эти модели генерируют более длинные и связные сцены с синхронизированным движением, речью и деталями окружающей среды. Недавний случай с видеороликом, где ведущий новостей обсуждает референдум в Эквадоре, продемонстрировал, как улучшения моделей размывают реальность: сложные движения камеры, постоянное освещение и правдоподобные жесты ведущего создали одну из самых убедительных новостных «обманок» на сегодняшний день.

Давние проблемы с обнаружением сохраняются и усугубляются по мере генерации и распространения более совершенного контента: низкое разрешение и высокая степень сжатия при повторной загрузке на разные платформы продолжают сбивать с толку автоматические детекторы. Низкое разрешение видео — – это один из способов уйти из-под пристального внимания систем моделей обнаружения, чтобы получить убедительные результаты о степени недостоверности. В других случаях предполагаемый контент попадает к аналитикам в виде перезаписей оригинального видеоматериала, что добавляет ещё один уровень ухудшения качества. В июне 2025 года была попытка проанализировать видеоролик с израильскими ударами по Тегерану, который сам по себе представлял собой запись с камер видеонаблюдения, воспроизводимую на внешнем мониторе. Каждый такой шаг пересъёмки с экрана монитора ещё больше отдаляет видео от первоначального источника, удаляя метаданные и скрывая цифровые артефакты, на которые полагаются детекторы. Параллельная динамика проявилась в видеомонтаже, распространяемом в интернете, состоящем из четырёх якобы снятых на камеры видеонаблюдения видеороликов, предположительно демонстрирующих израильские удары по иранским военным объектам. В разных версиях формат и распространение вносили дополнительные искажения, в то время как сам контент демонстрировал признаки, соответствующие искусственно созданным изображениям. Аналогичная проблема возникла в случае с аудиозаписью предполагаемого разговора в WhatsApp с бывшим президентом Боливии Эво Моралесом, планировавшим сорвать выборы: файл, представленный для анализа, не являлся самой просочившейся аудиозаписью, а представлял собой запись, якобы воспроизведённую на другом устройстве.

Эти примеры, наряду с видеозаписью взрыва в тюрьме Эвин, подчёркивают более глубокую структурную проблему: многие детекторы созданы для анализа лиц, что делает их неэффективными при анализе видео взрывов, пожаров, ночных операций или других сцен без участия людей. А ведь это именно тот тип контента, который наиболее распространён в контексте конфликтов, климатических катастроф и кризисов, где это ограничение становится существенным.

Более широкая экосистема проверки должны выйти за рамки подходов, ориентированных на лица и зависящих от цифровых метаданных и артефактов, адаптируясь к масштабируемому изменению способов обмана, где модели в стиле Sora/Veo делают «реалистичное» синтетическое видео стандартом, а убедительный длинный контент регулярно «отмывается» с помощью многомодальных, многоступенчатых конвейеров манипуляций. Редактирование, заполнение пробелов и «незначительные» манипуляции с подлинным контентом тоже создают серьёзную путаницу, представляя собой серьёзные проблемы.

В одном случае из Грузии видео, представленное в качестве доказательства в судебном процессе против протестующих, при анализе экспертами было помечено как ИИ, поскольку содержало размытые участки и красный круг, обозначающий ключевую область. Эксперты уточнили, что это были стандартные наложения при редактировании, а не обман. Это указывает на то, как наложение графики и незначительные эффекты редактирования могут вызывать ложные срабатывания, и на необходимость того, чтобы эксперты-люди контекстуализировали результаты.

Другие изображения этого года, хотя и в меньшем количестве, выявили ещё одну тревожную тенденцию: хирургическое заполнение пробелов, когда заменяются только небольшие области. Показателен один случай с участием нигерийских чиновников на Токийской международной конференции по развитию Африки, показал, насколько сложно обнаружить тонкие изменения. Такие точечные манипуляции с изображениями становятся всё более незаметными и сложными для обнаружения.

А вот аудио пока остаётся самым слабым звеном в системах обнаружения, хотя подделки с ним являются наиболее распространённым и в то же время самым сложным типом манипуляций нейросетевых систем. Причём каждый случай индивидуально различается. Низкое качество в сочетании с фоновым шумом и перекрёстными помехами постоянно снижает уверенность в обнаружении недостоверности. В разных регионах утечки разговоров оставались мощным политическим оружием: случай с предполагаемыми фальшивыми звонками между различными политическими деятелями Боливии, включая бывшего президента, министров и влиятельных бизнесменов. Такие многочисленные голосовые фейки активно распространяются повсеместно в периоды выборов.

В таких случаях ключевым становится использование методов сравнения голосов — не только для поиска доказательств манипуляций, но и для подтверждения личности говорящего. Хотя некоторые инструменты обнаружения специально ищут закономерности, указывающие на использование компьютерного вмешательства, отсутствие таких доказательств не исключает других видов обмана (например, выдачи себя за другое лицо, как это делают пранкеры). Методы сравнения голосов могут обеспечить большую ясность и понимание, сравнивая рассматриваемый аудиофайл с подлинными образцами речи говорящего, создавая обратную модель голоса с помощью других моделей ИИ для сравнения. Такой метод, хотя и невероятно информативный, требует доступа к передовым техническим знаниям, а также к образцам подлинной речи, что может быть сложно получить для менее известных публичных личностей, имеющих меньший цифровой след.

Пока же детекторы продолжают демонстрировать низкую эффективность при отсутствии языков в обучающих данных. В случаях с кхмерским, боливийским испанским и ливийским арабским диалектами эксперты отметили, что отсутствие этих языков в обучающих наборах данных ограничивает точность инструментов обнаружения аудио, которое, похоже, движется в сторону языконезависимых моделей, которые одинаково хорошо работают на разных языках. Несмотря на это позитивное развитие, при анализе результатов экспертами-людьми по-прежнему необходимо знание конкретных языков и местных диалектов. Экспертам порой не всегда хватает знания местного языка и контекста, что является ограничением в точной аналитике. В этих случаях экспертизе приходится полагаться исключительно на результаты цифровых инструментов, а поэтому не всегда возможно выявить потенциальные ложные срабатывания или ложные отрицания. Аудиодетекторы в будущем должны стать более устойчивыми к шумам и учитывать языковые особенности, а передовые методы для сравнения голосов, должны быть широко доступны, а не ограничиваться контекстами с достаточными ресурсами для машинного обучения моделей распознавания голоса.

По мере того, как гиперреалистичные сгенерированные подделки становятся широко доступными, базовый скептицизм в отношении подлинных видеоматериалов резко возрастает. Правдоподобное отрицание все чаще используется для опровержения реальных доказательств. Многие персонажи таких видео теперь просто заявляют: «Это создано ИИ», особенно когда контент политически чувствителен или неприятен. Новейшие видеомодели значительно повысили порог того, что люди считают правдоподобным, создав среду, в которой сомнение стало нормой. В сочетании с ограниченной цифровой грамотностью, а также недостаточным пониманием принципов работы этих технологий, становится всё труднее противодействовать ложным утверждениям, особенно по спорным темам.

В такой среде крайне важна коммуникация, основанная на фактах. Проверяющие эксперты всё чаще запрашивают подробные, основанные на фактах объяснения, чтобы просветить аудиторию и противостоять рефлексивным сомнениям. В недавнем случае, связанном с предполагаемой дипфейк-версией видео лидера Буркина-Фасо Ибрагима Траоре, несмотря на явные признаки манипуляции, эксперты всё же запросили углублённый анализ для подтверждения этого утверждения и просвещения читателей об использовании генеративного ИИ, разъяснив впоследствии подробную методику его обнаружения. Такая аналитика, базирующаяся на фактах, особенно важна в случаях, когда подлинные факторы выдаются за доказательства, полученные с помощью ИИ, чтобы опровергнуть их достоверность. Однако прошлые случаи показывают, что доказать подлинность гораздо сложнее, чем выявить подделку. Для доказательства того, что контент не является сгенерированным инновационными инструментами, требуется более глубокий технический анализ, мультимодальная верификация и знание местного контекста. Прозрачные, подробные и основанные на доказательствах результаты обнаружения теперь являются ключевым компонентом смягчения вреда, а не дополнительной опцией.

Всё-таки пока человеческий опыт является основой. Различные продвинутые цифровые инструменты обнаружения незаменимы, но они не могут работать самостоятельно. Эксперты-люди необходимы для интерпретации неоднозначных или малодостоверных результатов, устранения ложных срабатываний, вызванных наложением, редактированием и перезаписью. Люди компетентны в предоставлении лингвистических и культурных знаний, которые прежде не были заведены в обучающие наборы моделей. Только человек может предоставить оценку альтернативных объяснений (например, в случае с пранкерами) и донесения нюансов до журналистов и общественности. В одном индонезийском случае, связанном с аудиозаписью, предположительно содержащей высказывания министра, ругающего своих сотрудников, эксперты смогли подтвердить результаты инструмента, несмотря на плохое качество звука, благодаря глубокому пониманию возможностей искусственного интеллекта в области монтажа аудио из отдельных эпизодических разговоров. Однако эксперты уточнили, что добавления были факторами редактирования, предназначенными для указания на элементы, имеющие отношение к судебному делу, а не для обмана. В другом случае носитель испанского языка определил ритмы речи и грамматические особенности, что помогло подтвердить подлинность предполагаемой записи Эво Моралеса.

Проверка человеком должна дополнять анализ, предоставляемый компьютерными инструментами экспертизы. Однако важно учитывать случаи, когда человеческий контроль невозможен или нецелесообразен. Правозащитная группа предоставила для анализа крайне шокирующие видеоматериалы, и из-за характера видео некоторые эксперты решили не смотреть его, полагаясь исключительно на результаты экспертизы «компьютерного разума». К счастью, сразу несколько инструментов дали согласованные результаты с заявлением о полной подделке видеозаписи, но эта ситуация актуализировала важный вопрос: кому мы должны доверять, когда человеческий контроль невозможен? В рабочих процессах по умолчанию должна использоваться экспертная оценка человека, но также следует планировать ситуации, когда такая проверка экспертом ограничена, небезопасна или неэтична.

Различные события этого года ясно показали, что стремление к «реалистичному» генеративному видео опережает существующие ограничения. Системы мониторинга становится всё легче обойти, а проверка происхождения по-прежнему далека от широкого (или последовательного) идеала. Меры защиты платформ соцсетей от появления фейков неравномерны, а перепост недостоверных материалов становится обычным явлением. В результате возникает прямая угроза истине в масштабах всего мира, в результате чего сужаются возможности для её укрепления. Решение этой проблемы требует социотехнического подхода: должна быть задействована мощная инфраструктура и эффективные инструменты в сочетании с экспертными знаниями, контекстной проверкой, а также прозрачной, действенной и адекватной коммуникацией. Это также означает приоритетное использование методов, способных обрабатывать самые сложные (и наиболее распространённые) сценарии реального мира: видеоматериалы без лиц и динамичные кадры, шумный многоязычный звук и тонкие «хирургические» правки. Кроме того, ошибочная маркировка подлинного контента, как сгенерированного ИИ, растёт ещё быстрее. Инструменты обнаружения по-прежнему ограничены недостатками качества, пробелами в разнообразии и быстро развивающимися методами. В этой реальности человеческое суждение, контекстная проверка и чёткая коммуникация являются неотъемлемой частью любого надёжного аналитического процесса в экосистеме экспертизы, которая станет глобальным, эффективным эталоном обнаружения дипфейков. Экосистема — это не единый показатель или модель, а комплекс мер, которые необходимо постоянно совершенствовать, оценивать, тестировать на прочность и ответственно информировать общественность, чтобы журналисты и эксперты могли действовать быстро, убедительно и безопасно. Любое отклонение от этого