www.b-b.by “лф. волна ¬рем€ работы јдрес: ћинск, ул.  озлова, д.3, оф.3. ѕишите на email  
  Ћогин: ѕароль:
    >>–егистраци€     «абыли пароль?    

 

iPavlov: проект разговорного искусственного интеллекта.

AI research.  уда катитс€ мир нейросетей: интервью с создателем iPavlov









Ѕлог компании Leader-ID, ћашинное обучение, ”чебный процесс в IT, »скусственный интеллект

ѕод катом — о глубоком обучении, текущем направлении развити€ »», прив€зке нейросети GPT к логическому представлению о мире, нехватке кадров и о том, как начиналс€ iPavlov: проект разговорного искусственного интеллекта.




—егодн€ у нас физтех-беседа с ћихаилом Ѕурцевым — заведующим лабораторией нейросетей ћ‘“». —реди его научных интересов — нейросетевые модели обучени€, нейрокогнитивные и нейрогибридные системы, эволюци€ адаптивных систем и эволюционные алгоритмы, нейроконтроллеры и робототехника. ѕро это все и пойдет речь.





— — чего началась истори€ Ћаборатории нейросетей и глубокого обучени€ на ‘изтехе?

— ¬ 2015 году € прин€л участие в инициативе јгентства стратегических инициатив (ј—») под названием «‘орсайт-флот» — это така€ многодневна€ площадка дл€ обсуждени€ при Ќациональной технической инициативе.  лючева€ тема касалась технологий, которые необходимо развивать, чтобы в –оссии по€вились компании с потенциалом выхода на лидирующие позиции на глобальных рынках. ќсновной посыл был таков, что на сформированные рынки выйти крайне сложно, однако технологии открывают новые территории и новые рынки, и именно на них и надо выходить.

» вот мы плавали на теплоходе по ¬олге и обсуждали, какие же технологии могут позволить создать такие рынки и сломать текущие технологические барьеры. » в этой дискуссии о будущем выросла тематика с персональными помощниками. ѕон€тно, что мы уже сейчас начали ими пользоватьс€ — Alexa, јлиса, —ири… и было очевидно, что есть технические барьеры в понимании между человеком и компьютером. — другой стороны, накопилось немало наработок в исследовани€х, например в области обучени€ с подкреплением, в обработке естественного €зыка. » становилось пон€тно: многие трудные задачи все лучше и лучше решаютс€ с помощью нейросетей.

ј € как раз занималс€ исследовани€ми нейросетевых алгоритмов. ѕо результатам обсуждений «‘орсайт-флота» мы сформулировали концепцию проекта по развитию технологий на ближайшее будущее, котора€ позднее трансформировалась в проект iPavlov. Ёто и стало началом моего взаимодействи€ с ‘изтехом.

≈сли говорить детальнее, то мы сформулировали три задачи. »нфраструктурна€ — создание открытой библиотеки дл€ ведени€ диалогов с пользователем. ¬тора€ — проведение исследований в области обработки естественного €зыка. ѕлюс решение конкретных бизнес-задач.

ѕартнером выступил —бербанк, а сам проект сформировали под крылом Ќациональной технической инициативы.

Ќам удалось быстро собрать очень хорошую команду на ‘изтехе, так как мы с 2015 года занимались развитием »»-сообщества: организовывали deephack.me — научные хакатоны на построение глубоких моделей, а также проводили научные школы, куда приглашали с онлайн-лекци€ми известных исследователей, таких как …ошуа Ѕенжио или ёрген Ўмидхубер. ѕлюс сотрудничали с сообществом Open Data Science.

¬ начале 2018-го мы опубликовали первый репозиторий нашей открытой библиотеки DeepPavlov и последние два года видим стабильный рост ее пользователей (она ориентирована на русский €зык и английский €зык): у нас примерно 50% установок из —Ўј, 20–30% — из –оссии. ѕолучилс€ в целом довольно успешный открытый проект.

ћы занимаемс€ не только разработкой, но и стараемс€ внести вклад в глобальную повестку исследований по разговорному »». ѕонима€ необходимость проведени€ академических соревнований в данной области, мы начали серию Conversational AI Challenges в рамках ведущей конференции в области машинного обучени€ NeuIPS.  

ѕри этом мы не только организуем соревновани€, но и участвуем. “ак, команда нашей лаборатории в прошлом году прин€ла участие в конкурсе от Amazon под названием Alexa Prize — создание чат-бота, с которым человеку было бы интересно разговаривать 20 минут.



ќчередное соревнование начнетс€ в но€бре

Ёто университетский конкурс, и €дро участников должно было состо€ть из студентов и сотрудников университета. ¬сего было 350 команд, семь отбираютс€ в топ и три приглашают по результатам прошлого года — мы прошли в топ.

Ќаша диалогова€ система провела пор€дка 100 тыс€ч диалогов с пользовател€ми в —Ўј и под конец имела рейтинг пор€дка 3,35–3,4 из 5, что весьма неплохо. Ёто говорит о том, что нам удалось за довольно короткое врем€ сформировать команду мирового уровн€ на ‘изтехе.

—ейчас лаборатори€ ведет проекты с разными компани€ми, из крупных это Huawei и —бербанк. ѕроекты в разных направлени€х: AutoML, теории нейросетей и, конечно же, наше главное направление — NLP.


— ѕро задачи, которые раньше вызывали трудности у машинного обучени€: почему именно глубокое обучение выстрелило в решении этих задач?

— —ложно сказать. я сейчас немного упрощенно опишу мою интуицию. ¬се дело в том, что если в модели очень много параметров, то она удивительным образом может хорошо обобщать результаты на новые данные. ¬ том плане, что число параметров  может быть соизмеримо с количеством примеров. ѕо этой же причине классический ML долгое врем€ сопротивл€лс€ напору нейросетей — кажетс€, что ничего хорошего не должно получитьс€ при таком раскладе.



–ост количества параметров в модел€х глубокого обучени€ (источник)

”дивительно, но это не так. »ван —короходов из нашей лаборатории показал (.pdf), что в пространстве функции потерь нейросети можно найти практически любой двухмерный паттерн.

¬ы можете выбрать такую плоскость, что кажда€ точка на этой плоскости будет соответствовать одному набору параметров нейросети. ј их loss будет соответствовать произвольному паттерну, и, соответственно, можно подобрать такие нейросети, что они л€гут пр€мо на эту картинку.

ќчень забавный результат. Ёто говорит о том, что даже при таких абсурдных ограничени€х нейросеть может выучить поставленную перед ней задачу. ¬от примерно така€ тут интуици€, да.



ѕримеры паттернов из статьи »вана —короходова


— ¬ последние годы заметен существенный прогресс в области глубокого обучени€, а виден ли уже горизонт, где мы уткнемс€ в предел показателей?



–ост размеров моделей »» и потребл€емых ими ресурсов (источник: openai.com/blog/ai-and-compute/)

— ” нас в NLP предел еще не ощущаетс€, хот€ кажетс€, что, например, в обучении с подкреплением что-то уже начало пробуксовывать. “о есть за последние пару лет качественных изменений нет. Ѕыл большой бум от Atari до AlphaGo с гибридизацией c Monte Carlo Tree Search, а вот сейчас чего-то пр€м прорывного не ощущаетс€.

ј вот в NLP наоборот: рекуррентные сети, сверточные и вот наконец архитектура трансформера и сама GPT (одна из самых новых и интересных моделей трансформеров, часто используема€ дл€ генерации текстов — прим. автора) — это уже чисто экстенсивное развитие. » тут кажетс€, что еще есть запас дл€ достижени€ чего-то нового. ѕоэтому в NLP планка сверху еще не видна. ’от€, конечно, тут почти невозможно ничего предсказать.


— ≈сли представить развитие разработки €зыков и фреймворков дл€ машинного обучени€, то мы прошли от написани€ (условно) на чистом numpy, scikit-learn до tensorflow, keras — уровни абстракции росли. „то нас ждет дальше?

— Ћюди уже давно работают над фреймворками, где буквально из кубиков Ћего складываютс€ системы: вз€л пару коннекторов и бизнес-аналитику получил. ¬ машинном же обучении, мне кажетс€, всегда будет баланс между low level и high level code: на чистом numpy модели уже никто не пишет и в основном используют высокоуровневые фреймворки. Ќо, например, у нас в NLP и разговорных системах присутствует фактически весь спектр: в целом мы покрываем нашими разработками существенную часть иерархии.

Tensorflow / Pytorch — в начале у основани€: тут именно написание конкретной модели машинного обучени€.
Ѕиблиотеки пайплайнов и конвейеров: оперируют NLP-модел€ми первого уровн€ — DeepPavlov.
Ѕиблиотеки отдельных разговорных навыков: навык уже работает на уровне целого пайплайна — наш DeepPavlov Dream оперирует на данном уровне.
—истема переключени€ между навыками/пайплайнами, в том числе наш DeepPavlov Agent.

 


“ехнологический стек в области разговорного искусственного интеллекта

–азным приложени€м и задачам нужна разна€ гибкость инструментов, и поэтому € не думаю, что какие-то элементы этой иерархии уйдут. Ѕудут развиватьс€ и низкоуровневые, и высокоуровневые системы по мере надобности и необходимости. Ќапример, визуальные, доступные не программистам, но также и низкоуровневые библиотеки дл€ разработчиков никуда не уйдут.


— ј провод€т ли сейчас социальные эксперименты по аналогии с классическим тестом “ьюринга, где люди должны пон€ть, нейросеть перед ними или человек?

— “акие эксперименты провод€тс€ регул€рно. ¬ Alexa Challenge человек должен был оценить качество разговора, при этом он не знал, с кем говорит — с ботом или человеком. ѕока с точки зрени€ живого разговора разница между машиной и человеком существенна, но она с каждым годом сокращаетс€.  стати, наша  стать€ об этом только что вышла в AI Magazine.

«а рамками научной среды подобное делают регул€рно. ¬от недавно кто-то обучил GPT-модель, завел в “виттере дл€ нее аккаунт и стал постить ответы. ћного людей подписалось, аккаунт набрал попул€рность, и никто не знал, что это нейросеть.

“акой короткий формат, как в “виттере, когда формулировки общие и «глубокомысленные», как раз хорошо подходит под систему вывода нейросетей.


—  акие направлени€ вы считаете наиболее перспективными, где ждать скачок?




— (—меетс€.) я бы мог сказать, что именно в объединении всех моих любимых направлений и будет скачок. ѕопробую описать подробнее в рамках проблематизации. ” нас есть текущие модели GPT на основе трансформера — у них нет никакой цели в жизни, они просто генерируют текст, похожий на человеческий, абсолютно бесцельно. » не могут прив€зать его к ситуации и к цел€м в контексте самого мира.

» один из путей — создать прив€зку логического представлени€ о мире к GPT, который прочитал очень много-много текста, и в нем уже, и правда, немало логических св€зок. Ќапример, через гибридизацию с «¬икидатой» (это граф, описывающий знани€ о мире, в вершинах которого — статьи «¬икипедии»).

≈сли бы могли их соединить, чтобы GPT мог использовать базу знаний, это был бы скачок вперед.

¬торой подход к проблеме бесцельности NLP моделей основан на интеграции в них понимани€ целей человека. ≈сли у нас есть модель, котора€ может управл€ть генеративной €зыковой моделью, прив€занной к графу знаний, то мы могли бы обучать ее помогать человеку достигать его целей. » такой помощник должен понимать человека через NLP, и цели человека, и ситуацию — далее ему нужно планировать действи€. ј в планировании лучше всего работает обучение с подкреплением.

 ак это все объединить вместе и оптимизировать — вопрос открытый.

» последнее — поиск нейросетевых архитектур.  огда, например, с помощью эволюционных подходов мы ищем в пространстве архитектур оптимальные дл€ данной задачи. Ќо это все будет решено не сегодн€ — тут слишком большое пространство дл€ поиска.

»з хороших новостей: железо эволюционирует очень быстро и, возможно, это позволит нам лет через 5–10 объединить нейросетевые €зыковые модели, графы знаний и обучение с подкреплением. » вот тогда у нас будет качественный скачок в понимании машиной человека.

— помощью такого помощника можно будет запускать решение уже и других задач: анализ изображений, анализ медкарт или экономической ситуации, подбор товаров.

ѕоэтому € бы сказал, что с научной точки зрени€ в ближайшие лет п€ть мы увидим бурное развитие в области гибридизации — есть очень много крутых задач.

–еб€та, дефицит кадров будет огромный, и есть отличный шанс получить новые и интересные результаты, да и оказать вли€ние на развитие индустрии. ѕодключайтесь — надо пользоватьс€ моментом!
(јвтор активно поддерживает этот ответ, ибо занимаетс€ именно такими системами.)


—  ак начать погружение в глубинное обучение?

— —амый простой способ, мне кажетс€, — это пройти курс в deep learning school: изначально он был предназначен дл€ старшеклассников, но и студентам вполне зайдет. ¬ообще, это отличное начинание, € помогал составл€ть расписание и читаю там вводные лекции.

“акже рекомендую посмотреть вводные курсы от университетов, поделать задачки — в интернете просто куча всего. —амое лучшее из всех средств дл€ «поиграть» — Colab от Google, там есть миллионы примеров задач, можно разобратьс€ и запустить самые современные решени€ — без установки софта вообще на ваш компьютер.

ƒругой путь — поучаствовать в соревновани€х на Kaggle. ј также вступить в Open Data Science — это русско€зычное сообщество по Data Science, где есть несколько каналов, посв€щенных deep learning. “ам всегда есть люди, готовые помочь советом и кодом.

¬от такие основные пути.



Leader-ID: друзь€, к стартовавшему сейчас отбору на акселератор по продвижению AI-проектов мы продумали вариант входа дл€ инди-разработчиков. Ќет, это не отмен€ет основных условий, по которым в интенсиве участвуют только команды. Ќо у нас много вопросов от одиночек, у которых сейчас нет своего проекта, а участвовать хочетс€ (и это не только программисты, большой интерес к AI-проектам у дизайнеров). » мы нашли решение: поможем собрать команду и единомышленников через бесплатный онлайн-хакатон. ќн начнетс€ 10 окт€бр€ в 12:00 и закончитс€ ровно через сутки. Ќа нем бот распределит вас на команды, а потом вы под его руководством пройдете основные этапы разработки проекта и подадите его на јрхипелаг 20.35. ¬се подробности в личном кабинете, надо лишь успеть зарегистрироватьс€.

iPavlov: проект разговорного искусственного интеллекта.

 уда катитс€ мир нейросетей: интервью с создателем iPavlov.



–азместил: ћихаил Ѕурцев [05/06/2021]

 
· Ѕольше про AI research.
· Ќовость от ћихаил Ѕурцев


—ама€ читаема€ стать€: AI research.:
ѕрограмма ћќƒ»‘» ј“ќ– (верси€ 1.7).


—редн€€ оценка: 0
ќтветов: 0

ѕожалуйста, проголосуйте за эту статью:

ќтлично
ќчень хорошо
’орошо
Ќормально
ѕлохо



 Ќапечатать текущую страницу Ќапечатать текущую страницу


—в€занные темы

„асто возникающие вопросы

· √лавна€
· ¬итрина
· ƒобавить статью
· ƒќ— ј ќЅЏя¬Ћ≈Ќ»…
·  онтакт
· ѕоиск по сайту
· —татьи

16 гостей и 0 пользователей.

¬ы јнонимный пользователь. ¬ы можете зарегистрироватьс€, нажав здесь.




Ћогин

ѕароль

Ќе зарегистрировались? ¬ы можете сделать это, нажав здесь.  огда ¬ы зарегистрируетесь, ¬ы получите полный доступ ко всем разделам сайта.

Ј √лавна€
Ј ќЅќ–”ƒќ¬јЌ»≈ ƒЋя ѕ–»®ћј —ѕ”“Ќ» ќ¬ќ√ќ и Ё‘»–Ќќ√ќ “¬




www.onliner.by www.kufar.by www.tut.by 
Ѕелорусский портал, Ќовости Ѕеларуси и мира, 
статьи, комментарии, почта, каталоги, форум
финансы, афиша, работа www.av.by www.yandex.by
„астное торговое унитарное предпри€тие Ѕ≈Ћ—ј“плюс. —видетельство о регистрации є 190991566.
¬ыдано ћ√» , дата выдачи 19.03.2008 г.    ”Ќѕ 190991566.    —ведени€ о розничном торговом объекте включены в “орговый реестр –еспублики Ѕеларусь.
јдрес: ћинск, ул.  озлова, д.3, оф.3.    √ор. тлф./факс   +375 (17) 35-49-777.    A1   +375 (44) 5-8888-77.    Ћайф   +375 (25) 7-88888-7.    ћ“—   +375 (29) 752-44-78.
Copyright (b-b)© 2005 by (b-b)
PHP-Nuke Copyright © 2005 by Francisco Burzi. This is free software, and you may redistribute it under the GPL. PHP-Nuke comes with absolutely no warranty, for details, see the license.
ќткрытие страницы: 0.11 секунды
The Russian localization - project Rus-PhpNuke.com