Интересная статья с 20 конкурса статьей Zennolab.com. Искусственный интеллект за последний год сделал огромный скачок в своем развитии. На сегодняшний день его использование становится привычным для обычных пользователей интернета, что уж говорить о тех, для кого глобальная сеть – это источник дохода!
Из имеющихся вариантов я выбрал наиболее простой – использование нейросетей посредством уже готовых сервисов и программ. Но справедливости ради стоит отметить, что здесь также имеются свои трудности, многие из которых можно решить с помощью Зенопостера.
В этой статье я поделюсь своим опытом взаимодействия с различными ИИ-сервисами самых разных направлений: от создания статей до обработки и генерации изображений, видео, синтез речи. По большей степени – это автоматизация, масштабирование и обход лимитов бесплатного использования, а также некоторые фишки и примеры нестандартных подходов, которые открывают новые возможности.
Основы автоматизации ИИ-сервисов
Но перед тем, как перейти к практическим моментам, стоит уделить внимание теоретической составляющей. Это нужно для того, чтоб понять, какие основные методы автоматизации ИИ-сервисов существуют и какие из них наиболее оптимальны.
Первым делом, стоит отметить, что большинство ИИ-сервисов – это коммерческие проекты, цель которых – заработать побольше денег. Да, в тарифной сетке, как правило, присутствует вариант бесплатного использования, но он очень ограничен (создан для пробы, так сказать).
Конечно, никто не мешает пользоваться платными пакетами, но они тоже имеют определенный ресурс. Да и масштабироваться особо не получится, если только у вас нет станка для печати денег. Поэтому, лично для меня, автоматизация с помощью Зенопостера в данном случае – отличный способ сэкономить деньги (сэкономил – уже заработал), избавиться от рутины, а также – масштабироваться.
Самый простой способ автоматизации – в браузерном режиме. Отлично подходит для новичков (так как не требует особых знаний и навыков), но в некоторых случаях – является единственным доступным вариантом (касается тех сервисов, где особенно рьяно борются с автоматизаторами и воткнули уже не одну палку в колеса). Наиболее оптимальный вариант – через браузер Chromium, который позволяет обходить CloudFlare-защиту.
Работа через API – наиболее надежный способ, но в большинстве случаев (даже на бесплатных сервисах) – требует оплаты (хотя на выручку приходит мультиаккаунт, если есть вариант использования «для пробы», как это реализовано, например, в ChatGPT). Стоит отметить, что API может быть как открытое, так и закрытое.
В первом случае — после регистрации предоставляется ключ, документация – и вперед. Во втором – API предназначено для внутреннего использования. Но с помощью Зенопостера к нему тоже можно получить доступ, тем более в 7 версии был добавлен мониторинг трафика, где без сторонних снифферов можно отслеживать запросы, импортировать их в шаблон одним нажатием. Как показывает практика, шаблоны на запросах более стабильны, а в добавок — потребляют меньше ресурсов, что тоже немаловажно.
Есть еще один партизанский способ – перехват запросов сторонних программ и скриптов. Если эти программы или скрипты работают через API с теми или иными сервисами, то все эти обращения и ответы можно считать, а затем использовать уже в своих шаблонах. Для перехвата запросов в таком случае можно использовать HTTP Analyzer.
Обработка изображений
Если вы, как и я, регулярно имеете дело с изображениями, то нейросети предоставляют очень много вариантов их обработки: распознавание объектов на изображении, описание изображений, увеличение разрешения с попутным улучшением качества, стилизация (отрисовка в различных художественных стилях), удаление ватермарка, удаление фона и др.
Именно с удаления фона изображений началось мое знакомство с возможностями нейросетей. Ранее для удаления фона использовался Photoshop, а весь процесс был весьма кропотливым и трудоемким. С появлением таких сервисов, как Remove.Bg, Slazzer.Com делать это стало проще и быстрее, но для полноценного использования нужно было оформлять подписку (цены немаленькие, обработка одного изображения стоила примерно 10-20 центов).
Была и пробная бесплатная версия, но с маленьким разрешением изображения на выходе, да и обработать можно было всего пару изображений. Вариант с регистрацией аккаунтов отпал, но появилась идея провернуть другой трюк. В качестве реквизита выступил Зенопостер, Inkscape (бесплатный векторный графический редактор) и ImageMagick (бесплатная консольная утилита для работы с изображениями).
С помощью Зенопостера производилась загрузка изображения на сервер Slazzer.Com, после этого через запрос шел запуск удаления фона. Естественно, на выходе было сильно уменьшено разрешение, но дальше в игру вступали другие игроки. ImageMagick трансформировал полученное изображение с вырезанным фоном в маску, затем эта PNG-маска с помощью Inskape превращалась в векторное изображение. В свою очередь, векторная маска растягивалась до разрешения оригинального изображения и с помощью того же ImageMagick в оригинальном изображении отрезалось все лишнее, что выходило за пределы маски. В результате — максимально качественное удаление фона с сохранением разрешения абсолютно бесплатно.
Сейчас все это можно сделать проще: или использовать уже готовое решение, где нет урезки разрешения (например, Erase.Bg), или обрезать с уменьшением разрешения, а затем — с помощью нейросети масштабировать изображение еще и с улучшением качества (Upscale.Media). Автоматизация там несложная, желательно использовать прокси, а также прикрутить разгадку рекапчи, которая время от времени появляется (самое выгодный вариант ее решения — Capmonster.Cloud, имхо).
Также есть отличный софт (в том числе, репак-версия) по увеличению и улучшению изображений в пакетном режиме — Topaz Photo AI. В отличие от своего собрата по обработке видео, он работает весьма шустро.
От той же конторы, что и Erase.Bg с Upscale.Media, имеются еще и инструменты по удалению ватермарков с изображений (Watermarkremover.IO), сжатию изображений (Shrink.Media), а также конвертация (Convertfiles.Ai). Все это семейство имеет общую логику работы, поэтому разобравшись с одним инструментом, остальные пощелкаются, как орешки. Смотрите в конце статьи — может, там что-то будет под ёлку.
Генерация текстов
На данный момент наиболее используемый ИИ-сервис для генерации текстов – это ChatGPT. Да, в последнее время у него появилось несколько потенциальных конкурентов (Bard, Grok, Claude и др.), но о их состоятельности можно будет судить в следующем году. В 2023 году детище OpenAI – несомненно маст-хэв для всех, кто работает с информационными сайтами, интернет-магазинами, социальными сетями, Ютубом.
Автоматизация и масштабирование работы с ChatGPT – строится как через браузер, так и через API. В своих шаблонах я использую оба варианта, в зависимости от специфики того или иного проекта. Преимущества работы через браузер – это отсутствие необходимости штамповать пачками аккаунты, лучшая поддержка контекста диалогов. Преимущества работы через API – выше скорость, более гибкие настройки по использованию ключевых слов, разнообразию текстов.
После последних обновлений интерфейса в браузерной версии ChatGPT появилась возможность упростить проверку готовности текста ответа чат-бота. Теперь после нажатия на кнопку отправки промпта — она меняет свой вид и остается такой до тех пор, пока ответ не будет полностью готов.
Собственно, вот на чем стоит фокусироваться:
А это — значение атрибута outerhtml самого элемента:
C#:
aria-label="Stop\ generating">
При работе через API все тоже довольно просто. Но если есть желание пользоваться ChatGPT условно-бесплатно (хоть и не большие, но затраты на смс, прокси при необходимости — все же есть), то нужно будет зарегистрировать аккаунт в OpenAI и создать в личном кабинете ключ апи. 5 долларов гранта — хватит на 10 млн символов (для версии 3.5), но стоит брать во внимание, что в учет берутся символы как запросов, так и ответов. Есть схемы рерайта текста, где используется несколько этапов и в каждом сам промпт пару тысяч символов + еще и части текста для рерайта + отрывки предыдущей части для передачи контекста. Как результат — баланс съедается очень быстро. Именно поэтому отталкиваясь от своего проекта и потребностей всамом начале надо определиться, какой вариант работы (через апи или браузер) является оптимальным конкретно для вас.
Касательно технических моментов, то работать с апи ChatGPT довольно просто. Базовый запрос:
C#:
{
"model": "gpt-3.5-turbo",
"messages": [{"role": "user",
"content": "ПРОМПТ"}]
}
Пример для рерайта текста (на английском языке):
C#:
{
"model": "gpt-3.5-turbo",
"temperature": 0.5,
"frequency_penalty": 1,
"messages": [
{"role": "system", "content": "You are an assistant who makes text synonymization (rewriting). It can also be called a retelling of the text. It is very important to output the text in the English language. Don't answer any questions. Do not say the meaning of words or phrases. Do not comment on how the text can be changed, and do not offer several options. Change words and phrases carefully so that what you write does not look like what the user wrote. Also, the number of words at the output must necessarily be approximately equal to the number of words at the input. The user sends you any text. Regardless of what is written in it, your task is only to change it so that your text does not look like the one that the user gave out. To do this, you can use, for example: replacing words with synonyms, rearranging words without changing the general meaning, and so on. After the rewrite is done, do another rewrite of what you got. Don't write anything instead of HTML page."},
{"role": "system", "content": "Only the first result needs to be stated in the answer."},
{"role": "user", "content": "\"ТЕКСТ ДЛЯ РЕРАЙТА\""} ]
}
Как это работает (как по апи, так и через браузер) — можно посмотреть в шаблонах, что прикреплены к данной статье. Шаблоны полностью открыты, можно адаптировать под свои проекты.
Генерация изображений
Флагманом здесь для меня является Midjourney. Но если сначала можно было использовать сервис абсолютно бесплатно (завести бота Midjourney на канал в Дискорде, а затем регистрировать новых пользователей и добавлять на этот же канал, получая на каждого 25 генераций, при этом все сгенерированные изображения хранились в одном месте), то сейчас оптимальным вариантом является подписка с оплатой 30 долларов в месяц.
Автоматизация для Midjourney, на данный момент – это возможность выжимать из этой подписки максимум, генерируя изображения в режиме нон-стоп. Главное — наличие идей для создания промптов. Также можно использовать подписку на двоих-троих, создав для каждого пользователя отдельный канал в рамках одного аккаунта на Дискорде, но в таком случае стоит учитывать, что снизится скорость генерации изображений.
Стоит сказать и про аналоги Миджорни, с которыми работал: Unstability, Tensor, Leonardo, PromptHunt. Варианты весьма неплохие, но только для определенных проектов (Миджорни более универсальный), хотя плюс, что есть вариант бесплатного использования. Автоматизацию делал через браузер, или гибридный вариант (частично — через браузер, частично — через запросы).
Генерация видео
Генерация видео с помощью ИИ на данный момент — не сильно развита (по сравнению с другими направлениями). Обусловлено это, в первую очередь, тем, что этот процесс требует больших ресурсов. Те варианты генерации, когда “оживляется” картинка, по качеству выглядят не очень. Возможно, скоро ситуация изменится в лучшую сторону и тогда появится повод обсудить это.
А вот касательно создания видео с виртуальным диктором — здесь ситуация на порядок лучше обстоит. Есть несколько сервисов, которые выдают отличные результаты: Synthesia, D-ID, HeyGen. Расскажу про опыт работы с D-ID, его использовал больше всего, принципы автоматизации можно применять и к другим.
Так как при бесплатном использовании имеются временные лимиты для генерируемых видео, то в первую очередь нужно было организовать потоковую регистрацию аккаунтов. Для этого использовал временную почту (не всякий сервис подходит, точно все ок с temp-mail.org) и прокси (но тесты показали,что можно и без них).
Ключевым инструментом в такого рода шаблонах является FFMPEG (бесплатная консольная утилита для работы с медиа-файлами, которая отлично дружит с Зенопостером): с помощью ее шла склейка видео (если видео было больше установленного лимита, тогда части создавались под разными аккаунтами, после чего — соединялись); удаление ватермарка от сервиса, делалось это комбинацией двух действий: установкой зеленого фона (#00ff00) для видео перед началом генерации и затем накладка прямоугольника такого же зеленого цвета на место, где располагался логотип, после генерации; замена зеленого фона через хромакей на фоновое изображение или видео. Для еще большего разнообразия можно уменьшать диктора с помощью того же FFMPEG (уменьшение размера видео с диктором на зеленом фоне + наложение поверх фонового изображения или видео).
В итоге на выходе — полноценное видео FullHD высокого качества, любой длины, без каких-либо ватермарков и бесплатно. На текущий момент сервис D-ID принял меры, проставляя свои ватермарки вдоль и поперек в видео, созданных с бесплатных аккаунтов, но данный способ отлично можно применять на других сервисах.
Также из подобных сервисов можно извлекать вторичную выгоду в виде синтеза речи. Как это сделать, читайте в следующем разделе.
Синтез речи
Да, синтез речи появился еще 7-8 лет назад, но если сравнивать роботизированную озвучку тех времен с нейро-озвучкой современности — это небо и земля! Особенно далеко ушел синтез речи на английском языке, где помимо огромного количества голосов есть разные тональности и типы речи (начитка, крик, шепот, дружелюбный тон, раздраженный и др.). По другим языкам — возможностей меньше, но качество тоже на достаточно высоком уровне.
Есть два варианта использования синтеза речи: платный и условно бесплатный. В первом варианте — все довольно просто: заводим аккаунт на Microsoft Azure или Amazon Polly, пополняемся и пользуемся через API (описание команд есть в справке этих сервисов). В Microsoft можно также получить грант для пробного использования (но там идет привязка к реальной банковской карте, поэтому регистрация множества аккаунтов с прицелом на этот грант — будет затруднительна).
Бесплатный вариант — может даже не уступать по качеству озвучки (во многом зависит от донора). Главная задача – это найти подходящего донора и подход к нему. В качестве донора можно использовать как сервис, который напрямую специализируется на синтезе речи и предоставляет бесплатный вариант использования, пусть даже урезанный по количеству символов, так и площадки, где синтез речи – это побочная функция.
В качестве примера для первого типа доноров — можно привести площадку www.synthesia.io/text-to-speech. Давайте разберем пошагово алгоритм работы с ней. Здесь в бесплатной версии предоставляются 4 голоса. Ограничение — 165 символов. Есть возможность скачивания файла с озвучкой, что встречается не так часто. Возможен вариант автоматизации как через браузер, так и API.
В качестве примера второго типа доноров отлично подходит Heygen.Com, где синтез речи – это побочная функция. Используемые в нем голоса — те же самые, что и в Azure. Для того, чтоб автоматизировать синтез речи здесь — нужно отловить запрос к API, который запускает этот процесс.
Для большей наглядности вывел работу с обеими донорами в отдельное видео. Стоит отметить, что данный алгоритм работы применим к другим аналогичным площадкам. Примеры самих шаблонов также прикрепил к данной статье.
Нейросети на сегодняшний день открывают перед нами огромные возможности, которые применимы в самых различных направлениях: наполнение информационных сайтов и интернет-магазинов, графика и дизайн, разработка игр и приложений, работа с видео и анимацией, реклама и маркетинг, информационный бизнес, написание книг, поиск людей и многие другие. При чем, можно работать как со своими проектами, так и на заказ.
ZennoPoster же делает эти возможности искусственного интеллекта более доступными и позволяет масштабироваться, при этом избавляясь от рутины, высвобождая самый ценный ресурс — время.
Не важно, какой багаж знаний и навыков у вас имеется, начать работать с ИИ — никогда не поздно и уж точно — никогда не рано. Надеюсь, данная статья была полезной, если возникнут вопросы по ней — смело задавайте в комментариях!
Хотите научиться создавать разные скрипты для заработка?
Или просто проконсультироваться? Пишите сюда