Набор текста силой мысли и VR-фитнес: последние тренды из мира технологий

Набор текста силой мысли, VR-фитнес и видео времен золотой лихорадки: последние тренды из мира технологий

Следить за стремительно развивающимися технологиями становится сложнее. Расспросили эксперта о том, какие новости из мира нейронауки, виртуальной реальности и искусственного интеллекта мы могли пропустить, а также какие тренды нас ждут в этом году.

КОНСТАНТИН КОШЕЧКИН

Доктор фармацевтических наук, доцент и руководитель проекта «Цифровая кафедра» в МГМУ имени Семенова

○

Начнем погружение в повестку с уже привычных для нас GPT-изображений. Модели для создания реалистичных фото стали популярны в 2022-м, словом прошлого года стало «нейросеть».Что интересного нас ждет в 2024-м?

○

Уже в начале этого года Google наметил главный тренд ближайшего времени — генерацию видео по тексту или изображению моделью Lumiere. Компанию ей составила Open AI, которая представила собственную text-to-video под названием Sora. Процесс создания начинается с будто случайных шумов, которые постепенно преобразуются в изображение. Сейчас машине под силу ролики продолжительностью до минуты, высокое качество картинки, понимание положения вещей в физическом мире и следование промпту — запросу, представляемому GPT для генерации ответа.

Промпт: «Камера направлена прямо на красочные здания в Бурано, Италия. Очаровательный далматинец смотрит в окно здания на первом этаже. Многие люди гуляют и ездят на велосипедах по улицам канала перед зданиями»

Промпт: «Молодой человек лет 20 сидит на облаке в небе и читает книгу»

Промпт: «Исторические кадры Калифорнии во времена золотой лихорадки»

○

Эта машина может допускать ошибки?

○

Да, текущая модель имеет и слабые места. Например, ей пока трудно моделировать сложные сцены и выстраивать причинно-следственные связи. Sora также может путать право и лево, не очень точно передает траекторию камеры. Это видно на видео с бабушкой, которая празднует день рождения, — ролик выглядит скорее комично (или жутко), чем реалистично.

Промпт: «Бабушка с аккуратно причесанными седыми волосами стоит за красочным праздничным тортом с множеством свечей на деревянном обеденном столе, на лице выражение чистой радости и счастья, в ее глазах сияет счастье…»

Промпт: «Корги ведет видеоблог в тропическом Мауи»

Если говорить о статичных изображениях, то, конечно, сейчас мы идем не только к расширению области применения нейросетей — в рекламе, создании виртуальных миров, обучении, — но и к более простому и интуитивно понятному интерфейсу, который сможет изучить широкая аудитория.

○

Продолжим о визуальных технологиях. Как обстоят дела в виртуальной и смешанной реальности?

○

Для этих направлений 2024 год начался с поступления в продажу Apple Vision Pro — очков смешанной реальности (анонсированы они были на конференции для разработчиков еще в 2023-м). Модель представляет собой гарнитуру, которая объединяет цифровой мир с настоящим. Используя жесты, движение глаз и распознавание речи, мы можем генерировать собственные аватары, делать фотографии и общаться с друзьями — для создания эффекта присутствия на передней части очков появляется изображение глаз пользователя. Пожалуй, самой впечатляющей функцией стал просмотр любимых фильмов на экране шириной 1 200 дюймов. И это только малая часть того, что может девайс. Как Apple Vision Pro изменит нашу жизнь, нам только предстоит узнать.

Очки смешанной реальности Apple Vision Pro

○

А в каких привычных для нас сферах мы можем столкнуться с VR и AR сегодня?

○

Сейчас мы говорим о востребованности VR и AR в различных направлениях: образовании, медицине, маркетинге, развлечениях, обслуживании клиентов и не только. Особенно интересным может стать виртуальное обучение и спортивные тренировки, в которые VR-технологии добавляют элемент развлечения. В таких играх можно бегать, танцевать, фехтовать, заниматься боксом и многое другое. Ко всему этому виртуальная реальность делает фитнес более доступным для аудитории: люди, не желающие выходить из дома, могут делать упражнения в комфортной для себя обстановке. Остается всего-то купить очки. К слову, уже есть несколько приложений для VR-фитнеса, например VR Exercise (для любителей танцев или фехтования) или VR Videos (для виртуальных путешествий, ужастиков и занятий спортом).

Приложение VR Exercise

СКАЧАТЬ

Шанхай в приложении VR Videos

Категории в VR Videos

СКАЧАТЬ

○

Пожалуй, самым громким заявлением начала 2024 года стала новость о том, что компания Илона Маска внедрила чип человеку. Начнем по порядку: когда появилась Neuralink и что мы должны о ней знать?

○

Neuralink основана в 2016 году и с тех пор активно разрабатывает имплантаты мозга и связанные с ними технологии. Проводит испытания, которые включают как лабораторные исследования с использованием животных (обычно на научных моделях — мышах или обезьянах), так и клинические исследования с участием человека. Компания также имеет право на тестирование прототипов и устройств на добровольцах.

Наиболее известный эксперимент Neuralink с участием животных прошел в июле 2019-го: Маск и его команда показали, как обезьяна с помощью имплантированного устройства управляла компьютерной игрой силой мысли. Спустя пять лет, 30 января этого года, компания объявила об установке нейрочипа в мозг человека. Сейчас пациент силой мысли управляет курсором и учится нажимать на кнопки компьютерной мыши. Из последних новостей — он играет в шахматы. Здесь надо помнить, что чип предназначен для людей с тяжелыми неврологическими заболеваниями. Мы не дошли до игр в чтение мыслей.

○

Как работает это устройство?

○

Чип под названием Telepathy вживляется под кожу и подключается к мозгу — для доступа к считыванию мыслей. Это некая капсула-приемник с нитевидными электродами, которые передают сигналы в приложение для их расшифровки. Блок спокойно помещается в черепе пациента (размером он примерно с монету). Внутри него находится процессор, который контролирует связь с внешним миром. Имплантат работает путем введения 64 нитей с 1 024 очень маленькими электродами, каждый из которых воспринимает электрические сигналы мозга. Собранные токи обрабатываются алгоритмами машинного обучения для того, чтобы понять, какие активности соответствуют конкретным мысленным командам — какие сигналы отвечают за движение курсора или нажатие на кнопку. Когда они распознаются и интерпретируются, соответствующие устройства (компьютерные курсоры или клавиатуры) могут быть управляемы с их помощью.

Нолан Арбо играет в шахматы на ноутбуке с помощью устройства Neuralink

Чип Telepathy

○

Что по безопасности? Какие есть риски и ограничения?

○

Внедрение имплантата в мозг требует хирургического вмешательства, а значит, неаккуратное выполнение может привести к заражению инфекцией, кровотечению и повреждению окружающих тканей. При этом самым спорным моментом остается передача и обработка чувствительной информации о мозговой активности. Это можно расценивать как нарушение конфиденциальности и приватности пациента, а также потенциальное увеличение разрыва между обладающими доступом к технологии и теми, кто не может ею воспользоваться.

○

А Neuralink действительно первая и единственная компания, которая это сделала, или об этом все говорят из-за популярности соцсетей Маска?

○

Не единственная. Среди наиболее серьезных конкурентов, например, Blackrock: их устройства установлены у 50 человек по всему миру. Есть и BrainGate, которая разработала первый имплантируемый нейроинтерфейс для человека аж в 2004 году. Synchron предложила один из самых крошечных и минимально инвазивных нейроинтерфейсов, успешно имплантированных нескольким людям. При этом вместе с влиянием личности Илона Маска и активной промоцией в социальных сетях нельзя преуменьшать значение его амбициозных идей и разработок. Neuralink остается одной из ведущих компаний в области разработки имплантатов и технологий интерфейса «мозг — компьютер».

○

Что значит этот шаг для нейротехнологий и медицины?

○

В первую (и главную) очередь технология поможет в лечении неврологических расстройств — болезни Паркинсона, эпилепсии, депрессии и так далее. Развитие имплантатов станет большим шагом в изучении работы мозга, его функций и откроет новые методы лечения пациентов, у которых нет эффективных медицинских альтернатив. Кроме того, мы узнаем более результативные и интуитивно понятные способы взаимодействия человека с компьютером и другой техникой.

В долгосрочной перспективе подобные технологии будут улучшать память, повышать когнитивные функции. Однако здесь важно учитывать этическую и юридическую составляющую. Вопросы конфиденциальности данных, потенциального злоупотребления и неравного доступа требуют серьезного внимания и обсуждения.

○

Перейдем к теме, которая волнует, пожалуй, каждого. В каких направлениях нейронка точно заменит человека, причем в ближайшее время?

○

В творческих профессиях, в которых требуется уникальное видение, интуиция и авторский подход, замена человека машиной сегодня маловероятна. Скорее, технология придет на помощь и значительно улучшит процессы. Так, искусственный интеллект генерирует музыку на основе разных стилей и жанров, участвует в создании аранжировок. Однако истинно вдохновенное и эмоционально насыщенное произведение по-прежнему остается прерогативой человека. То же самое в кино — цифровой ум может использоваться для автоматической генерации спецэффектов, обработки видео и анимации, однако придумка сюжетов, персонажей и эмоциональной глубины в фильмах все еще требует человеческого творчества. В этих индустриях волноваться не стоит.

Фантазия проекта Deep Dream от Google по мотивам творчества Винсента Ван Гога

Кадр из сериала «Черное зеркало», сценарий к которому помог написать искусственный интеллект

Однако есть отрасли, в которых машинный интеллект действительно заменит человека. Например, в производственной сфере — на линиях сборки, в монотонных и рутинных операциях. Там роботы будут даже быстрее и точнее человека. Водители транспортных средств тоже могут быть заменены беспилотными авто в ближайшие пятнадцать лет. Уже четыре года Мосгортранс внедряет нейросети в общественный транспорт для снижения аварийности. Примерно 70% ДТП происходит из-за потери внимания водителем, и именно применение систем с компьютерным зрением позволило снизить этот показатель на 26%. Алгоритм анализирует видеопоток и в случае опасности подает звуковой сигнал.

Конечно, нейронные сети хорошо обоснуются в оптимизации документооборота и обслуживании клиентов. Умные алгоритмы используются в речевых сервисах, например, на платформе распознавания и синтеза речи SaluteSpeech от Сбера, в которой голосовые помощники звучат как живой человек, определяют эмоции и точно понимают фразы собеседника.

○

За чем еще следить в этом году?

○

Ставлю на развитие автономных систем — автомобилей, беспилотных дронов и роботов. Улучшение алгоритмов машинного обучения и обработки данных позволит им становиться более надежными и универсальными. Будем ждать интересных новостей от генеративных моделей, таких как GAN (алгоритм машинного обучения без учителя, построенный на комбинации из двух нейронных сетей. — Прим. BURO.), которые будут продолжать развиваться и приведут к еще более точным и реалистичным генеративным изображениям и видео.

Анна Высоцкая

09.04.24, 17:43