Google NGrams Viewer

Гугл продолжает эксперименты с сверх-большими коллекциями n-граммов. Google NGrams Viewer — интерфейс для просмотра статистики n-граммов в корпусе книг изданных приблизительно с 1800 года по 2010 на английском, русском, французском, и других языках.

When you enter phrases into the Google Books Ngram Viewer, it displays a graph showing how those phrases have occurred in a corpus of books (e.g., «British English», «English Fiction», «French») over the selected years.

Вот пример анализа встречаемости n-граммов для словосочетаний «computer science,artificial intelligence,computational linguistics,natural language processing»
c 1955 года по 2008.


Смотрите более подробное описание здесь http://ngrams.googlelabs.com/info

Здесь неплохой пример того как можно это применить для русского языка.
http://l-i-d-y-a.livejournal.com/158268.html

Рубрика: Без рубрики | Комментарии к записи Google NGrams Viewer отключены

С Новым Годом!

Уважаемые посетители сайта, поздравляем вас с Новым Годом и Рождеством! Желаем, чтобы 2011-ый год, объявленный в России как Год Российской космонавтики, принес вам много любви, радости и здоровья, вывел ваши научные достижения на новую орбиту и позволил достичь космических успехов!
Рубрика: Объявление | Оставить комментарий

Новые персональные страницы

Созданы персональные страницы Сергеевой Анны, специализирующейся в области исследования и анализа жестовых образов неслышащих людей, и Пономаревой Марии, разрабатывающей дизайн проекта Компьютерная семиография.
Рубрика: Обновление сайта | Оставить комментарий

Новые персональные страницы

Созданы персональные страницы Гущи Антона, специализирующегося в области разработки интеллектуальных систем поддержки процессов обучения и контроля знаний, и Тукаева Кирилла, выполняющего проект по теме "3D визуализации жестов".
Рубрика: Обновление сайта | Оставить комментарий

Победа в конкурсе "IT-прорыв"

17 декабря 2010 г. Ирина и Марина Даньшины с их проектом Компьютерная Семиография завоевали первое место в номинации "Лучший IT-проект по сохранению культурных ценностей"  среди категории «IT-идея» (Студенты) в рамках всероссийского конкурса проектов и разработок в области информационных технологий IT-прорыв 2010Читать далее
Рубрика: Объявление | Оставить комментарий

Защита диссертации

23 декабря 2010 г. в МГУП успешно прошла защита кандидатской диссертации Проскурнина Алексея Александровича на тему "Представление, обработка и контроль знаний на основе элементарных вербальных единиц". Читать далее
Рубрика: Объявление | Оставить комментарий

Два интересных воркшопа EMNLP и ACL в которых хотелось бы поучаствовать

1) EMNLP Workshop on GEometrical Models of natural language Semantics (GEMS 2011)

GEMS — GEometrical Models of natural language Semantics
Workshop at EMNLP, July 31st 2011, Edinburgh, Scotland
http://sites.google.com/site/geometricalmodels/

GEMS 2011 is the third event in a series of workshops on distributional
models, also known as semantic spaces. These models have become
omnipresent in computational linguistics and neighboring fields.

GEMS 2011 invites original contributions to problems in meaning
representation, acquisition and use, based on distributional and
vector space models. We are interested in methodological innovations
as well as tasks ranging from the induction of linguistic and world
knowledge to practical and industrial NLP applications.

GEMS 2011 will also address one particular challenge of geometrical
models as a scientific field, namely fragmentation — with respect
to data sets, methods and evaluation metrics. To facilitate the
comparison of studies and achieve scientific progress, GEMS will
introduce a shared evaluation:

— We provide two datasets suitable for the evaluation of distributional
models through our website, together with the corpora that can be used
for their modeling.
— These datasets cover two major tasks: differentiation between semantic
relations and addressing compositionality.
— Papers submitted to GEMS are strongly encouraged to evaluate their
models on one of the datasets, or, if this is not possible, to discuss why
their models are not applicable.

Topics

Topics of interest include, but are not limited to

— Document-based, collocational and syntax-based spaces
— Eigenvector methods and geometrical embeddings
— Higher order tensors
— Computational complexity and evaluation issues
— Graph-based models over semantic spaces
— Logic and inference in semantic spaces
— Large-scale implementations of distributional models (Map-Reduce, Hadoop)
— Kernels methods for NLP
— Word sense discrimination and discrimination; lexical substitution
— Induction of selectional preferences
— Compositionality in geometrical models: phrase representation; concept combination
— Lexicon acquisition
— Conceptual clustering
— Modeling of linguistic theories and ontological knowledge
— Cognitive theories of semantic space models
— Applications in the humanities and social sciences
— Applications and impact on Web search, Web mining, Query log mining,
Query Intent Modeling, and other industrial activities

Submissions

Authors are invited to submit papers on original, unpublished work on
the topics of this workshop. There are three paper categories: long papers,
short papers and demos.

— Long papers should present completed work. They can have
up to 9 pages of content, plus references.
— Short papers/demos can present work in progress or the description
of a system. They must not exceed 4 pages plus one page of references.

Submissions should follow the two-column format of ACL 2011
proceedings, see the official style files at
http://www.acl2011.org/call.shtml. As reviewing will be blind, please
ensure that papers are anonymous. The papers should not include the
authors’ names and affiliations or any references to web sites,
project names etc. revealing the authors’ identity.

Each submission will be reviewed by at least two members of the
program committee. Accepted papers will be published in the workshop
proceedings.

Important dates

April 22, 2011: Papers due
May 20, 2011: Notification of acceptance
June 03, 2011: Camera-ready deadline
July 31, 2011: Workshop

Chairs

Sebastian Pado, University of Heidelberg (Chair)
Yves Peirsman, Stanford University & KULeuven (Chair)

2) Workshop on Relational Models of Semantics
Collocated with ACL 2011 (www.acl2011.org/)
Portland, Oregon, June 2011

http://sites.google.com/site/relms2011/

Call for papers
(with apologies for multiple postings)

= = = = = = = =
Description
= = = = = = = =

This workshop will bring together NLP researchers whose work deals with relational aspects of language understanding. The ability to reason about semantic relations is a fundamental linguistic competence: it is through recognising explicit and implicit relations between entities and events that humans (and machines) can form a coherent representation of a text’s meaning. Numerous recent workshops have focused on lexical semantics; RELMS-11 will highlight relational semantics.

The modeling of semantic relations has been considered from many angles, across a variety of tasks and sub-disciplines. In ontology learning and information extraction, the focus is on learning «encyclopaedic» relations between entities in the domain of discourse. In structured prediction tasks such as semantic role labeling or biomedical event extraction, systems must reason about the relational content of a text, about which entities and events enter into which mutual relations. The interpretation of compound nouns requires reasoning about probable and plausible relations between two entities, with limited knowledge of context. Some sources of textual information are inherently relational — for example, content in on-line social networks — so computational models can benefit from reasoning explicitly about relational structures. There is also much to gain from understanding the connections between NLP tasks in which semantic relations play a key role. Methods which work for one task tend to generalize to others, and semantic relations tend to interact in interesting ways.

Researchers primarily working on specific modeling contexts stand to gain from understanding the connections between the various NLP tasks in which semantic relations play a key role. As well as considering whether methods used for one task may generalize to others, a key question is how different kinds of semantic relations interact. For example, encyclopedic world knowledge may be of use for «guiding» structured prediction; this might be particularly useful in impoverished contexts such as compound noun interpretation and «implicit» semantic role labeling. Conversely, encyclopedic relation learning can be viewed as generalising over instance-level relational analyses. Exploring these connections will be an important theme of the workshop.

= = = = = = = =
Topics
= = = = = = = =

Topics of interest include but are not restricted to the following:

* classification of semantic relations in text, for example in the framework of SemEval-2 Tasks 8 and 9 or TempEval;
* semantic structured prediction: semantic role labeling, event extraction;
* semantic applications of statistical relational learning (Markov Logic, Inductive Logic Programming, and so on);
* joint modelling of heterogeneous semantic relations, connections between traditionally distinct relational modelling tasks;
* relational information extraction and ontology learning;
* compound noun interpretation and retrieval of implicit semantic relations;
* annotation and evaluation issues relating to semantic relations;
* domain-specific aspects of relation learning.

= = = = = = = =
Important Dates
= = = = = = = =

December 23: First call for papers
January 15: Second call for papers
March 25: Paper submissions due
April 25: Notification of acceptance
May 6: Camera-ready papers due
June 23: RELMS-11 workshop

= = = = = = = =
Program Committee
= = = = = = = =

Eneko Agirre, University of the Basque Country, Spain
Timothy Baldwin, University of Melbourne, Australia
Ken Barker, University of Texas at Austin, USA
Paul Buitelaar, National University of Ireland, Galway, Ireland
Nathanael Chambers, Stanford University, USA
Yee Seng Chan, University of Illinois at Urbana-Champaign, USA
Mark Craven, University of Wisconsin-Madison, USA
Matthew Gerber, Michigan State University, USA
Roxana Girju, University of Illinois at Urbana-Champaign, USA
Sanda Harabagiu, University of Texas at Dallas, USA
Iris Hendrickx, University of Lisboa, Portugal
Raphael Hoffmann, University of Washington, USA
Sophia Katrenko, University of Amsterdam, The Netherlands
Roman Klinger, Fraunhofer Institute for Algorithms and Scientific Computing, Germany
Milen Kouylekov, Celi SRL Torino, Italy
Kenneth Litkowski, CL Research, USA
Dan Moldovan, University of Texas at Dallas, USA
Vivi Nastase, HITS gGmbH, Germany
Roberto Navigli, University of Rome «La Sapienza», Italy
Patrick Pantel, Microsoft Research, USA
Marco Pennacchiotti, Yahoo! Inc., USA
Simone Paolo Ponzetto, University of Heidelberg, Germany
Sampo Pyysalo, University of Tokyo, Japan
Sebastian Riedel, University of Massachusetts-Amherst, USA
Alan Ritter, University of Washington, USA
Lorenza Romano, FBK-irst, Italy
Dan Roth, University of Illinois at Urbana Champaign, USA
Barbara Rosario, Intel Lab, USA
Caroline Sporleder, Saarland University, Germany
Carlo Strapparava, Fundacione Bruno Kessler, Italy
György Szarvas, Technical University of Darmstadt, Germany
Peter Turney, National Research Council of Canada, Canada
Benjamin van Durme, Johns Hopkins University, USA
Tony Veale, University College Dublin, Ireland
Andreas Vlachos, University of Wisconsin-Madison, USA
Rui Wang, Saarland University, Germany
Limin Yao, University of Massachusetts Amherst, USA
Deniz Yuret, Koç University, Turkey

= = = = = = = =
Workshop Organizers
= = = = = = = =

Su Nam Kim, University of Melbourne, Australia
Zornitsa Kozareva, University of Southern California,USA
Preslav Nakov, National University of Singapore, Singapore
Diarmuid Ó Séaghdha, University of Cambridge, UK
Sebastian Padó, Universität Heidelberg, Germany
Stan Szpakowicz, University of Ottawa, Canada

= = = = = = = =
Contact
= = = = = = = =

relms.workshop.2011@gmail.com

Рубрика: Без рубрики | Комментарии к записи Два интересных воркшопа EMNLP и ACL в которых хотелось бы поучаствовать отключены

«Когнитивная лингвистика и когнитивный анализ дискурса» Андрея Александровича Кибрика

Лекция Андрея Александровича Кибрика  «Когнитивная лингвистика и когнитивный анализ дискурса» утвердила меня в мысли, что в текущую разработку алгоритма распознавания эмоций просто необходимо включить анализ просодий. Именно эти супрасегментные единицы несут ценную информацию об отношении говорящего к объекту, побудившему его речевой поток 🙂 TODO: Сопоставление мимических и просодических паттернов на одной временной шкале.

Рубрика: Распозавание речи | Комментарии к записи «Когнитивная лингвистика и когнитивный анализ дискурса» Андрея Александровича Кибрика отключены

Touch Graph


Замечательная вещь все-таки этот TouchGraph. Кластеризация графа друзей из facebook-a, изображенная на картинке, вполне соответствует реальности 🙂
Touch Graph для Facebook
Touch Graph для Google

Рубрика: Без рубрики | Комментарии к записи Touch Graph отключены

Диалог 2011

Информация о конференции Диалог 2011 по компьютерной лингвистике (получил сегодня информационное письмо):

Дорогие коллеги!
Мы рады объявить, что очередная 17-я Международная конференция «Диалог» состоится c 25 по 29 мая в Московской области.
Конференция проходит под патронажем Российского Фонда Фундаментальных Исследований и при организационной поддержке компании ABBYY.
В подготовке и проведении «Диалога 2011» участвуют:
Институт лингвистики РГГУ
Институт проблем информатики РАН
Институт проблем передачи информации РАН
Филологический факультет МГУ
Яndex
ABBYY

Тематика Диалога 2011
Конференция проводится по следующим направлениям, сочетающим теоретические исследования и приложения:
Лингвистическая семантика и семантический анализ текста
Формальные модели языка и их применение
Теоретическая и компьютерная лексикография
Разработка и применение компьютерных лингвистических ресурсов
Корпусная лингвистика. Создание, применение, оценка корпусов
Интернет как лингвистический ресурс. Лингвистические технологии в интернете
Извлечение знаний из текстов
Модели общения. Коммуникация, диалог и речевой акт
Анализ и синтез речи
Компьютерный анализ документов: реферирование, классификация, поиск
Машинный перевод

Программа конференции включает пленарные заседания, специальные и стендовые сессии, круглые столы, демонстрации программных систем. Доклады, включенные в программу «Диалога», публикуются в сборнике трудов конференции. Положительно оцененные доклады, не попавшие в основную программу, публикуются (с разрешения авторов) на сайте конференции.

Доминанты Диалога 2011
Каждый год Программный Комитет выбирает отдельные темы или направления в качестве доминант очередной конференции. Им посвящаются специальные заседания, Круглые столы, обзорные выступления приглашенных докладчиков. В этом году выбраны следующие главные темы:
Анализ текстовых корпусов (корпусометрия). Вопросы создания и использования корпусов давно уже находятся в центре внимания на Диалогах. Практически всякое лингвистическое исследование ведется сегодня с привлечением корпусных данных. Но далеко не во всяком исследовании такого рода четко формулируется, какими необходимыми свойствами должен обладать корпус, чтобы полученные результаты заслуживали доверия. Предлагается обсудить на этом Диалоге вопросы сравнительной оценки корпусов и сами параметры такой оценки.
Автоматическое извлечение лингвистических знаний. Вопросы «Linguistic Knowledge Acquisition» тесно связаны с такими важными темами Диалогов, как разметка корпусов, получение и верификация лингвистических описаний с помощью машинного обучения и т.п. Мы приглашаем к участию в Диалоге исследователей, готовых предложить не только методы автоматического извлечения, но и продемонстрировать полученные в результате их применения конкретные лингвистические данные.

Планируется проведение Круглых столов и участие ведущих мировых специалистов в качестве приглашенных докладчиков по обоим доминантным направлениям.

Рабочие языки конференции (обратите внимание!)
Рабочими языками конференции являются русский и английский. Это отражает одинаковую важность для Диалога двух взаимосвязанных целей:
· Создание ресурсов, моделей и технологий для поддержки анализа русского языка.
· Преодоление того методического и технологического отставания от мирового уровня, которое имеет место в отношении российской компьютерной лингвистики в целом, несмотря на отдельные ее успехи.

Для успешного решения второй задачи ПК Диалога пытается внедрить международные стандарты оценки (evaluation) присылаемых работ, этой же цели будет служить и обязательный переход на английский язык для тех направлений Диалога, которые относятся к мировому мэйнстриму. Это позволит, в частности, привлекать к отбору докладов иностранных экспертов. И, что очень важно, сделает пребывание на Диалоге для наших коллег из-за рубежа гораздо более осмысленным.

Таким образом, с этого года ПК вводит следующее правило: те доклады, которые не обращены непосредственно к русскому языку как объекту исследования, должны подаваться на английском языке. Их авторы должны быть также готовы и представлять их на английском языке, если доклад попадет в «международную» секцию программы (о чем ПК сообщит заранее). Для докладов, подаваемых и представляемых на русском языке, мы будем просить авторов делать расширенные аннотации на английском языке.

О принципах отбора докладов на Диалог
«Диалог» принципиально междисциплинарен и ориентирован на общение лингвистов-теоретиков и разработчиков прикладных лингвистических технологий. Мы просим всех, кто планирует участвовать в «Диалоге», учитывать эту традицию при выборе тем, содержания и формы ваших выступлений.
Диалог сохраняет традиционную широту тематики, при этом Программный Комитет оставляет за собой право отклонять доклады, понятные и интересные только узким специалистам. Исследования, выполненные в рамках научных теорий, моделей описания и анализа, не являющихся широко известными, не будут приниматься без введения, представляющего соответствующую исследовательскую парадигму. Наши рецензенты будут обращать особое внимание на наличие в теоретических докладах внятно сформулированной и решенной конструктивной задачи, а в прикладных исследованиях – верифицируемого результата, полученного на адекватном языковом материале.

Порядок подачи докладов
Полные тексты докладов с аннотациями на русском и английском языках будут приниматься до 1 февраля. Доклады подаются через интернет-систему подачи докладов. Вы должны зарегистрироваться в системе здесь. На нашем сайте опубликована инструкция по регистрации и использованию данной системы. Просим вас внимательно с ней ознакомиться. Требования к оформлению докладов остаются такими же, какими они были в прошлом году.
Результаты рецензирования будут рассылаться с 1 по 10 марта. Подробную информацию о порядке рецензирования и публикации докладов вы можете найти на сайте конференции.

Авторам принятых или условно принятых докладов могут быть высказаны пожелания и замечания рецензентов. В некоторых случаях ПК проводит повторное рецензирование

До 22 марта мы ждем от вас итоговые варианты статей, подготовленные с учетом замечаний рецензентов и оформленные в соответствии с требованиями. Обращаем ваше внимание, что организаторы не гарантируют публикации для статей, присланных с опозданием.

Основные даты:
Предоставление полных текстов
до 1 февраля
Решение ПК
с 1 до 10 марта
Подача статей для сборника
до 22 марта
Публикация программы конференции
после 5 мая
Проведение конференции
25-29 мая

Более подробную информацию можно получить на сайте «Диалога» .

На специальном форуме вы можете оставить свои предложения по проведению конференции, задать вопросы.
Оргкомитет конференции располагает некоторым количеством сборников трудов «Диалога» за 1995-2010 годы. Мы готовы бесплатно поделиться сборниками с университетами, кафедрами, библиотеками на условиях самовывоза.
По всем вопросам обращайтесь к секретарю конференции: secretary@dialog-21.ru.

Организационный комитет конференции «Диалог 2011»

Рубрика: Без рубрики | Комментарии к записи Диалог 2011 отключены