Набор текста силой мысли, VR-фитнес и видео времен золотой лихорадки: последние тренды из мира технологий
КОНСТАНТИН КОШЕЧКИН
Доктор фармацевтических наук, доцент и руководитель проекта «Цифровая кафедра» в МГМУ имени Семенова
Начнем погружение в повестку с уже привычных для нас GPT-изображений. Модели для создания реалистичных фото стали популярны в 2022-м, словом прошлого года стало «нейросеть».Что интересного нас ждет в 2024-м?
Уже в начале этого года Google наметил главный тренд ближайшего времени — генерацию видео по тексту или изображению моделью Lumiere. Компанию ей составила Open AI, которая представила собственную text-to-video под названием Sora. Процесс создания начинается с будто случайных шумов, которые постепенно преобразуются в изображение. Сейчас машине под силу ролики продолжительностью до минуты, высокое качество картинки, понимание положения вещей в физическом мире и следование промпту — запросу, представляемому GPT для генерации ответа.
Эта машина может допускать ошибки?
Да, текущая модель имеет и слабые места. Например, ей пока трудно моделировать сложные сцены и выстраивать причинно-следственные связи. Sora также может путать право и лево, не очень точно передает траекторию камеры. Это видно на видео с бабушкой, которая празднует день рождения, — ролик выглядит скорее комично (или жутко), чем реалистично.
Если говорить о статичных изображениях, то, конечно, сейчас мы идем не только к расширению области применения нейросетей — в рекламе, создании виртуальных миров, обучении, — но и к более простому и интуитивно понятному интерфейсу, который сможет изучить широкая аудитория.
Продолжим о визуальных технологиях. Как обстоят дела в виртуальной и смешанной реальности?
Для этих направлений 2024 год начался с поступления в продажу Apple Vision Pro — очков смешанной реальности (анонсированы они были на конференции для разработчиков еще в 2023-м). Модель представляет собой гарнитуру, которая объединяет цифровой мир с настоящим. Используя жесты, движение глаз и распознавание речи, мы можем генерировать собственные аватары, делать фотографии и общаться с друзьями — для создания эффекта присутствия на передней части очков появляется изображение глаз пользователя. Пожалуй, самой впечатляющей функцией стал просмотр любимых фильмов на экране шириной 1 200 дюймов. И это только малая часть того, что может девайс. Как Apple Vision Pro изменит нашу жизнь, нам только предстоит узнать.
А в каких привычных для нас сферах мы можем столкнуться с VR и AR сегодня?
Сейчас мы говорим о востребованности VR и AR в различных направлениях: образовании, медицине, маркетинге, развлечениях, обслуживании клиентов и не только. Особенно интересным может стать виртуальное обучение и спортивные тренировки, в которые VR-технологии добавляют элемент развлечения. В таких играх можно бегать, танцевать, фехтовать, заниматься боксом и многое другое. Ко всему этому виртуальная реальность делает фитнес более доступным для аудитории: люди, не желающие выходить из дома, могут делать упражнения в комфортной для себя обстановке. Остается всего-то купить очки. К слову, уже есть несколько приложений для VR-фитнеса, например VR Exercise (для любителей танцев или фехтования) или VR Videos (для виртуальных путешествий, ужастиков и занятий спортом).
Пожалуй, самым громким заявлением начала 2024 года стала новость о том, что компания Илона Маска внедрила чип человеку. Начнем по порядку: когда появилась Neuralink и что мы должны о ней знать?
Neuralink основана в 2016 году и с тех пор активно разрабатывает имплантаты мозга и связанные с ними технологии. Проводит испытания, которые включают как лабораторные исследования с использованием животных (обычно на научных моделях — мышах или обезьянах), так и клинические исследования с участием человека. Компания также имеет право на тестирование прототипов и устройств на добровольцах.
Наиболее известный эксперимент Neuralink с участием животных прошел в июле 2019-го: Маск и его команда показали, как обезьяна с помощью имплантированного устройства управляла компьютерной игрой силой мысли. Спустя пять лет, 30 января этого года, компания объявила об установке нейрочипа в мозг человека. Сейчас пациент силой мысли управляет курсором и учится нажимать на кнопки компьютерной мыши. Из последних новостей — он играет в шахматы. Здесь надо помнить, что чип предназначен для людей с тяжелыми неврологическими заболеваниями. Мы не дошли до игр в чтение мыслей.
Как работает это устройство?
Чип под названием Telepathy вживляется под кожу и подключается к мозгу — для доступа к считыванию мыслей. Это некая капсула-приемник с нитевидными электродами, которые передают сигналы в приложение для их расшифровки. Блок спокойно помещается в черепе пациента (размером он примерно с монету). Внутри него находится процессор, который контролирует связь с внешним миром. Имплантат работает путем введения 64 нитей с 1 024 очень маленькими электродами, каждый из которых воспринимает электрические сигналы мозга. Собранные токи обрабатываются алгоритмами машинного обучения для того, чтобы понять, какие активности соответствуют конкретным мысленным командам — какие сигналы отвечают за движение курсора или нажатие на кнопку. Когда они распознаются и интерпретируются, соответствующие устройства (компьютерные курсоры или клавиатуры) могут быть управляемы с их помощью.
Что по безопасности? Какие есть риски и ограничения?
Внедрение имплантата в мозг требует хирургического вмешательства, а значит, неаккуратное выполнение может привести к заражению инфекцией, кровотечению и повреждению окружающих тканей. При этом самым спорным моментом остается передача и обработка чувствительной информации о мозговой активности. Это можно расценивать как нарушение конфиденциальности и приватности пациента, а также потенциальное увеличение разрыва между обладающими доступом к технологии и теми, кто не может ею воспользоваться.
А Neuralink действительно первая и единственная компания, которая это сделала, или об этом все говорят из-за популярности соцсетей Маска?
Не единственная. Среди наиболее серьезных конкурентов, например, Blackrock: их устройства установлены у 50 человек по всему миру. Есть и BrainGate, которая разработала первый имплантируемый нейроинтерфейс для человека аж в 2004 году. Synchron предложила один из самых крошечных и минимально инвазивных нейроинтерфейсов, успешно имплантированных нескольким людям. При этом вместе с влиянием личности Илона Маска и активной промоцией в социальных сетях нельзя преуменьшать значение его амбициозных идей и разработок. Neuralink остается одной из ведущих компаний в области разработки имплантатов и технологий интерфейса «мозг — компьютер».
Что значит этот шаг для нейротехнологий и медицины?
В первую (и главную) очередь технология поможет в лечении неврологических расстройств — болезни Паркинсона, эпилепсии, депрессии и так далее. Развитие имплантатов станет большим шагом в изучении работы мозга, его функций и откроет новые методы лечения пациентов, у которых нет эффективных медицинских альтернатив. Кроме того, мы узнаем более результативные и интуитивно понятные способы взаимодействия человека с компьютером и другой техникой.
В долгосрочной перспективе подобные технологии будут улучшать память, повышать когнитивные функции. Однако здесь важно учитывать этическую и юридическую составляющую. Вопросы конфиденциальности данных, потенциального злоупотребления и неравного доступа требуют серьезного внимания и обсуждения.
Перейдем к теме, которая волнует, пожалуй, каждого. В каких направлениях нейронка точно заменит человека, причем в ближайшее время?
В творческих профессиях, в которых требуется уникальное видение, интуиция и авторский подход, замена человека машиной сегодня маловероятна. Скорее, технология придет на помощь и значительно улучшит процессы. Так, искусственный интеллект генерирует музыку на основе разных стилей и жанров, участвует в создании аранжировок. Однако истинно вдохновенное и эмоционально насыщенное произведение по-прежнему остается прерогативой человека. То же самое в кино — цифровой ум может использоваться для автоматической генерации спецэффектов, обработки видео и анимации, однако придумка сюжетов, персонажей и эмоциональной глубины в фильмах все еще требует человеческого творчества. В этих индустриях волноваться не стоит.
Однако есть отрасли, в которых машинный интеллект действительно заменит человека. Например, в производственной сфере — на линиях сборки, в монотонных и рутинных операциях. Там роботы будут даже быстрее и точнее человека. Водители транспортных средств тоже могут быть заменены беспилотными авто в ближайшие пятнадцать лет. Уже четыре года Мосгортранс внедряет нейросети в общественный транспорт для снижения аварийности. Примерно 70% ДТП происходит из-за потери внимания водителем, и именно применение систем с компьютерным зрением позволило снизить этот показатель на 26%. Алгоритм анализирует видеопоток и в случае опасности подает звуковой сигнал.
Конечно, нейронные сети хорошо обоснуются в оптимизации документооборота и обслуживании клиентов. Умные алгоритмы используются в речевых сервисах, например, на платформе распознавания и синтеза речи SaluteSpeech от Сбера, в которой голосовые помощники звучат как живой человек, определяют эмоции и точно понимают фразы собеседника.
За чем еще следить в этом году?
Ставлю на развитие автономных систем — автомобилей, беспилотных дронов и роботов. Улучшение алгоритмов машинного обучения и обработки данных позволит им становиться более надежными и универсальными. Будем ждать интересных новостей от генеративных моделей, таких как GAN (алгоритм машинного обучения без учителя, построенный на комбинации из двух нейронных сетей. — Прим. BURO.), которые будут продолжать развиваться и приведут к еще более точным и реалистичным генеративным изображениям и видео.