Итак, в феврале 2012 года я отправила заявку на получение гранта для участия в конференции NASSLLI (North American Summer School of Logic, Language and Information – http://nasslli2012.com/), где-то в мае на мой почтовый ящик свалилось “письмо счастья”, в котором говорилось примерно следующее: “Congratulations!As you could probably tell from the subject line (we think you’re pretty clever, by the way), you got a full scholarship. Splendid job!” , в общем, получила грант на проживание, участие и мелкие затраты вместе с перелетом. В течение мая были решены все организационные вопросы (включающие приглашение и визу в США) , и 14 июня я уже сидела в самолете до Нью-Йорка (откуда я на следующий день улетела в Техасскую парилку). Кстати сказать, перелет получился очень дешевый – около 400 долларов (Москва-Цюрих-Нью-Йорк-Франкфурт-Москва).
Итак, после долгих перелетов 16 июня я наконец-то добралась до места назначения. Остин – небольшой техасский городок, одновременно являющийся столицей штата, в котором расположены офисы основных IT-компаний, а также огромный кампус Университета Техаса, в котором нас всех и поселили. Прежде, чем переходить к основной части, опишу кратко наш быт. Летняя школа состояла из курса лекций, на которые нужно было предварительно зарегистрироваться. Лекции начинались в 9 утра и заканчивались в 18-30 , если не случалось вечерних invited talks. Мы жили по 2 человека в комнате (условия скорее напоминали гостиницу, нежели общежитие). Рано утром в 8-30 мы собирались в коридоре и шли на завтрак, после чего в 8-50 сонно вываливались из здания и за 5 минут прогулки по утренней 30-градусной “прохладе” переносили наши тела в аудитории. В день было по 5 лекций, что, я считаю, несколько многовато, поскольку уже после 3-й думать и концентрировать внимание становится сложнее. Лекции заканчивались около семи, а иногда и в девять. После них мы обычно шли в паб поесть, попить, расслабиться и пообщаться с профессорами в неформальной обстановке. Кстати, вот так, расслабившись, поздно вечером в первый день мы решили прогуляться по Остину, но “грозная туча” нависла над нами. Туча состояла из громадных сверчков, повылезавших из всех щелей и дыр, пока мы сидели и попивали техасское пиво. Сверчки прыгали, летали, скакали и кусались. Стивену Кингу такое не снилось, это было в лучших традициях фильмов Хичкока. Собрав нервы в комок, мы грозным кластером интеллекта пронеслись по улицам самым коротким путем. В последующие дни оказалось, что помимо гигантских сверчков, там есть не менее гигантские тараканы и огромная популяция летучих мышей. Но в целом Остин очень понравился (несмотря на +45).
А теперь от слов к песням науке. Итак, как я говорила, каждый день у нас было по 5 лекций и 4 параллельных дорожки. Кратко расскажу о тех, которые посещала:
- Noah Goodman. Stochastic Lambda Calculus and its applications in cognitive science. Собственно, можно сказать, что я подавала заявку ради этой серии лекций. Я давно знакома с работами Joshua Tenenbaum, Noah Goodman, Tom Griffiths, Mark Steyvers, все они пытаются создать вероятностную модель сознания. Joshua Tenenbaum, Tom Griffiths и Noah Goodman издали tutorial на тему How to Grow a Mind: Statistics, Structure, and Abstraction. Science 331 (6022), 1279-1285. Supporting Online Material. Вся теория базируется на статистических моделях и байесовых сетях. В рамках лекций NASSLLI был представлен язык Church , позволяющий моделировать стохастические процессы. В процессе курса мы в основном строили модели различных процессов, в том числе включающих причинно-следственные отношения (каузальность). Главным вопросом, вынесенным на обсуждение, стала возможность разума быстро обучаться на очень ограниченном наборе примеров (тривиальный пример – ребенок понимает, что такое “лошадь” после 2-3 примеров, текущие системы машинного обучения “учатся” на сотнях и тысячах примеров).
- Adam Lopez. Statistical Machine Translation. Курс был посвящен машинному переводу и читался сотрудником John Hopkins University. На первой же лекции нам дали лингвистическую задачку на перевод с языка Альфа Центавра на язык Бета Центавра:) Вполне стандартная задачка, где даны два параллельных корпуса (перевод) и затем нужно построить соответствия фраз/слов и перевести некое таинственное послание на одном из языков. В общем, процесс вашего перевода и все его трудности можно вполне экстраполировать и на случай машины. В рамках курса были предложены различные подходы и алгоритмы (FSA, FST, алгоритм Витерби для выравнивания последовательностей, динамическое программирование и др.), рассказано, как строится модель языка и модель перевода. Очень похожий курс я посетила в августе в рамках RuSSIR.
- Christopher Potts. Extracting Social Meaning and Sentiment. Очень классный курс, состоящий из tutorials. На основе отзывов о фильмах из IMDB (комментариев и оценок) мы пытались оценить тональность (эмоциональную окраску) слов/фраз (в частности, прилагательных). В качестве инструментария использовали R.
- Mark Steedman. Combinatory Categorial Grammars for Robust Natural Language Processing. Курс был основан на теории формальной семантики и требовал большого глубокого априорного знания предмета. Не могу сказать, что для меня он прошел мимо, скорее способствовал взгляду на те же проблемы с другого ракурса. На сайте представлены все слайды, так что можно в любой момент с головой нырнуть в тему.
- Oleg Kiselev, Chung-Chien Shan. Lambda: the Ultimate Syntax-Semantics Interface. Курс очень живой и с большой частью практического tutorial. При помощи ЯП Haskell мы пытались моделировать семантику. Грубо говоря, для текущих систем (работающих на уровне синтаксиса) предложения Mary Loves John и John Loves Mary равноценны и однозначны, но в действительности (увы и ах!) это часто не так, поэтому Mary loves John – это совершенно иное утверждение семантически и оно не тождественно John Loves Mary. На Haskell все это красиво, но сложно описывается. Вроде бы получается правильно, но сложно представить, что все именно так работает на биологическом уровне (в случае живых существ).
Резюмируя, мне безумно понравилось, особенно дискуссии между логиками, лингвистами, семантиками, философами и программистами (computer science). Курсы были очень разными, но в то же время говорили об одном, только с различных ракурсов .