Еще одна интересная статья про технику написания научных публикаций: «RULES OF THUMB FOR WRITING RESEARCH ARTICLES».


The paper provides ‘rules of thumb’ for writing research articles (RA) and
getting them published. These were discussed during the «Scientific writing
course» organized for ITC PhD students by Cressie Communication Services.
Important aspects of macro and sub-structure of a paper were selected
through group discussions. The substructure and functions of different
sections of RAs are described. Results of previous investigations and
interviews among journal editors were used to summarize what makes a good
RA. It was concluded that clear, logical, coherent, focused, good argument and
well-structured writing gets the paper published and read. Some important
rules of the thumb selected were: “Adjust your writing to the audience and
purpose”, “Avoid redundancy and unnecessary explanations” and “Write like
you speak and then revise”.

Google NGrams Viewer

Гугл продолжает эксперименты с сверх-большими коллекциями n-граммов. Google NGrams Viewer — интерфейс для просмотра статистики n-граммов в корпусе книг изданных приблизительно с 1800 года по 2010 на английском, русском, французском, и других языках.

When you enter phrases into the Google Books Ngram Viewer, it displays a graph showing how those phrases have occurred in a corpus of books (e.g., «British English», «English Fiction», «French») over the selected years.

Вот пример анализа встречаемости n-граммов для словосочетаний «computer science,artificial intelligence,computational linguistics,natural language processing»
c 1955 года по 2008.

Смотрите более подробное описание здесь http://ngrams.googlelabs.com/info

Здесь неплохой пример того как можно это применить для русского языка.

Два интересных воркшопа EMNLP и ACL в которых хотелось бы поучаствовать

1) EMNLP Workshop on GEometrical Models of natural language Semantics (GEMS 2011)

GEMS — GEometrical Models of natural language Semantics
Workshop at EMNLP, July 31st 2011, Edinburgh, Scotland

GEMS 2011 is the third event in a series of workshops on distributional
models, also known as semantic spaces. These models have become
omnipresent in computational linguistics and neighboring fields.

GEMS 2011 invites original contributions to problems in meaning
representation, acquisition and use, based on distributional and
vector space models. We are interested in methodological innovations
as well as tasks ranging from the induction of linguistic and world
knowledge to practical and industrial NLP applications.

GEMS 2011 will also address one particular challenge of geometrical
models as a scientific field, namely fragmentation — with respect
to data sets, methods and evaluation metrics. To facilitate the
comparison of studies and achieve scientific progress, GEMS will
introduce a shared evaluation:

— We provide two datasets suitable for the evaluation of distributional
models through our website, together with the corpora that can be used
for their modeling.
— These datasets cover two major tasks: differentiation between semantic
relations and addressing compositionality.
— Papers submitted to GEMS are strongly encouraged to evaluate their
models on one of the datasets, or, if this is not possible, to discuss why
their models are not applicable.


Topics of interest include, but are not limited to

— Document-based, collocational and syntax-based spaces
— Eigenvector methods and geometrical embeddings
— Higher order tensors
— Computational complexity and evaluation issues
— Graph-based models over semantic spaces
— Logic and inference in semantic spaces
— Large-scale implementations of distributional models (Map-Reduce, Hadoop)
— Kernels methods for NLP
— Word sense discrimination and discrimination; lexical substitution
— Induction of selectional preferences
— Compositionality in geometrical models: phrase representation; concept combination
— Lexicon acquisition
— Conceptual clustering
— Modeling of linguistic theories and ontological knowledge
— Cognitive theories of semantic space models
— Applications in the humanities and social sciences
— Applications and impact on Web search, Web mining, Query log mining,
Query Intent Modeling, and other industrial activities


Authors are invited to submit papers on original, unpublished work on
the topics of this workshop. There are three paper categories: long papers,
short papers and demos.

— Long papers should present completed work. They can have
up to 9 pages of content, plus references.
— Short papers/demos can present work in progress or the description
of a system. They must not exceed 4 pages plus one page of references.

Submissions should follow the two-column format of ACL 2011
proceedings, see the official style files at
http://www.acl2011.org/call.shtml. As reviewing will be blind, please
ensure that papers are anonymous. The papers should not include the
authors’ names and affiliations or any references to web sites,
project names etc. revealing the authors’ identity.

Each submission will be reviewed by at least two members of the
program committee. Accepted papers will be published in the workshop

Important dates

April 22, 2011: Papers due
May 20, 2011: Notification of acceptance
June 03, 2011: Camera-ready deadline
July 31, 2011: Workshop


Sebastian Pado, University of Heidelberg (Chair)
Yves Peirsman, Stanford University & KULeuven (Chair)

2) Workshop on Relational Models of Semantics
Collocated with ACL 2011 (www.acl2011.org/)
Portland, Oregon, June 2011


Call for papers
(with apologies for multiple postings)

= = = = = = = =
= = = = = = = =

This workshop will bring together NLP researchers whose work deals with relational aspects of language understanding. The ability to reason about semantic relations is a fundamental linguistic competence: it is through recognising explicit and implicit relations between entities and events that humans (and machines) can form a coherent representation of a text’s meaning. Numerous recent workshops have focused on lexical semantics; RELMS-11 will highlight relational semantics.

The modeling of semantic relations has been considered from many angles, across a variety of tasks and sub-disciplines. In ontology learning and information extraction, the focus is on learning «encyclopaedic» relations between entities in the domain of discourse. In structured prediction tasks such as semantic role labeling or biomedical event extraction, systems must reason about the relational content of a text, about which entities and events enter into which mutual relations. The interpretation of compound nouns requires reasoning about probable and plausible relations between two entities, with limited knowledge of context. Some sources of textual information are inherently relational — for example, content in on-line social networks — so computational models can benefit from reasoning explicitly about relational structures. There is also much to gain from understanding the connections between NLP tasks in which semantic relations play a key role. Methods which work for one task tend to generalize to others, and semantic relations tend to interact in interesting ways.

Researchers primarily working on specific modeling contexts stand to gain from understanding the connections between the various NLP tasks in which semantic relations play a key role. As well as considering whether methods used for one task may generalize to others, a key question is how different kinds of semantic relations interact. For example, encyclopedic world knowledge may be of use for «guiding» structured prediction; this might be particularly useful in impoverished contexts such as compound noun interpretation and «implicit» semantic role labeling. Conversely, encyclopedic relation learning can be viewed as generalising over instance-level relational analyses. Exploring these connections will be an important theme of the workshop.

= = = = = = = =
= = = = = = = =

Topics of interest include but are not restricted to the following:

* classification of semantic relations in text, for example in the framework of SemEval-2 Tasks 8 and 9 or TempEval;
* semantic structured prediction: semantic role labeling, event extraction;
* semantic applications of statistical relational learning (Markov Logic, Inductive Logic Programming, and so on);
* joint modelling of heterogeneous semantic relations, connections between traditionally distinct relational modelling tasks;
* relational information extraction and ontology learning;
* compound noun interpretation and retrieval of implicit semantic relations;
* annotation and evaluation issues relating to semantic relations;
* domain-specific aspects of relation learning.

= = = = = = = =
Important Dates
= = = = = = = =

December 23: First call for papers
January 15: Second call for papers
March 25: Paper submissions due
April 25: Notification of acceptance
May 6: Camera-ready papers due
June 23: RELMS-11 workshop

= = = = = = = =
Program Committee
= = = = = = = =

Eneko Agirre, University of the Basque Country, Spain
Timothy Baldwin, University of Melbourne, Australia
Ken Barker, University of Texas at Austin, USA
Paul Buitelaar, National University of Ireland, Galway, Ireland
Nathanael Chambers, Stanford University, USA
Yee Seng Chan, University of Illinois at Urbana-Champaign, USA
Mark Craven, University of Wisconsin-Madison, USA
Matthew Gerber, Michigan State University, USA
Roxana Girju, University of Illinois at Urbana-Champaign, USA
Sanda Harabagiu, University of Texas at Dallas, USA
Iris Hendrickx, University of Lisboa, Portugal
Raphael Hoffmann, University of Washington, USA
Sophia Katrenko, University of Amsterdam, The Netherlands
Roman Klinger, Fraunhofer Institute for Algorithms and Scientific Computing, Germany
Milen Kouylekov, Celi SRL Torino, Italy
Kenneth Litkowski, CL Research, USA
Dan Moldovan, University of Texas at Dallas, USA
Vivi Nastase, HITS gGmbH, Germany
Roberto Navigli, University of Rome «La Sapienza», Italy
Patrick Pantel, Microsoft Research, USA
Marco Pennacchiotti, Yahoo! Inc., USA
Simone Paolo Ponzetto, University of Heidelberg, Germany
Sampo Pyysalo, University of Tokyo, Japan
Sebastian Riedel, University of Massachusetts-Amherst, USA
Alan Ritter, University of Washington, USA
Lorenza Romano, FBK-irst, Italy
Dan Roth, University of Illinois at Urbana Champaign, USA
Barbara Rosario, Intel Lab, USA
Caroline Sporleder, Saarland University, Germany
Carlo Strapparava, Fundacione Bruno Kessler, Italy
György Szarvas, Technical University of Darmstadt, Germany
Peter Turney, National Research Council of Canada, Canada
Benjamin van Durme, Johns Hopkins University, USA
Tony Veale, University College Dublin, Ireland
Andreas Vlachos, University of Wisconsin-Madison, USA
Rui Wang, Saarland University, Germany
Limin Yao, University of Massachusetts Amherst, USA
Deniz Yuret, Koç University, Turkey

= = = = = = = =
Workshop Organizers
= = = = = = = =

Su Nam Kim, University of Melbourne, Australia
Zornitsa Kozareva, University of Southern California,USA
Preslav Nakov, National University of Singapore, Singapore
Diarmuid Ó Séaghdha, University of Cambridge, UK
Sebastian Padó, Universität Heidelberg, Germany
Stan Szpakowicz, University of Ottawa, Canada

= = = = = = = =
= = = = = = = =


Touch Graph

Замечательная вещь, все-таки, этот TouchGraph. Кластеризация графа друзей из facebook-a, изображенная на картинке, вполне соответствует реальности 🙂
Touch Graph для Facebook
Touch Graph для Google

Диалог 2011

Информация о конференции Диалог 2011 по компьютерной лингвистике (получил сегодня информационное письмо):

Дорогие коллеги!
Мы рады объявить, что очередная 17-я Международная конференция «Диалог» состоится c 25 по 29 мая в Московской области.
Конференция проходит под патронажем Российского Фонда Фундаментальных Исследований и при организационной поддержке компании ABBYY.
В подготовке и проведении «Диалога 2011» участвуют:
Институт лингвистики РГГУ
Институт проблем информатики РАН
Институт проблем передачи информации РАН
Филологический факультет МГУ

Тематика Диалога 2011
Конференция проводится по следующим направлениям, сочетающим теоретические исследования и приложения:
Лингвистическая семантика и семантический анализ текста
Формальные модели языка и их применение
Теоретическая и компьютерная лексикография
Разработка и применение компьютерных лингвистических ресурсов
Корпусная лингвистика. Создание, применение, оценка корпусов
Интернет как лингвистический ресурс. Лингвистические технологии в интернете
Извлечение знаний из текстов
Модели общения. Коммуникация, диалог и речевой акт
Анализ и синтез речи
Компьютерный анализ документов: реферирование, классификация, поиск
Машинный перевод

Программа конференции включает пленарные заседания, специальные и стендовые сессии, круглые столы, демонстрации программных систем. Доклады, включенные в программу «Диалога», публикуются в сборнике трудов конференции. Положительно оцененные доклады, не попавшие в основную программу, публикуются (с разрешения авторов) на сайте конференции.

Доминанты Диалога 2011
Каждый год Программный Комитет выбирает отдельные темы или направления в качестве доминант очередной конференции. Им посвящаются специальные заседания, Круглые столы, обзорные выступления приглашенных докладчиков. В этом году выбраны следующие главные темы:
Анализ текстовых корпусов (корпусометрия). Вопросы создания и использования корпусов давно уже находятся в центре внимания на Диалогах. Практически всякое лингвистическое исследование ведется сегодня с привлечением корпусных данных. Но далеко не во всяком исследовании такого рода четко формулируется, какими необходимыми свойствами должен обладать корпус, чтобы полученные результаты заслуживали доверия. Предлагается обсудить на этом Диалоге вопросы сравнительной оценки корпусов и сами параметры такой оценки.
Автоматическое извлечение лингвистических знаний. Вопросы «Linguistic Knowledge Acquisition» тесно связаны с такими важными темами Диалогов, как разметка корпусов, получение и верификация лингвистических описаний с помощью машинного обучения и т.п. Мы приглашаем к участию в Диалоге исследователей, готовых предложить не только методы автоматического извлечения, но и продемонстрировать полученные в результате их применения конкретные лингвистические данные.

Планируется проведение Круглых столов и участие ведущих мировых специалистов в качестве приглашенных докладчиков по обоим доминантным направлениям.

Рабочие языки конференции (обратите внимание!)
Рабочими языками конференции являются русский и английский. Это отражает одинаковую важность для Диалога двух взаимосвязанных целей:
· Создание ресурсов, моделей и технологий для поддержки анализа русского языка.
· Преодоление того методического и технологического отставания от мирового уровня, которое имеет место в отношении российской компьютерной лингвистики в целом, несмотря на отдельные ее успехи.

Для успешного решения второй задачи ПК Диалога пытается внедрить международные стандарты оценки (evaluation) присылаемых работ, этой же цели будет служить и обязательный переход на английский язык для тех направлений Диалога, которые относятся к мировому мэйнстриму. Это позволит, в частности, привлекать к отбору докладов иностранных экспертов. И, что очень важно, сделает пребывание на Диалоге для наших коллег из-за рубежа гораздо более осмысленным.

Таким образом, с этого года ПК вводит следующее правило: те доклады, которые не обращены непосредственно к русскому языку как объекту исследования, должны подаваться на английском языке. Их авторы должны быть также готовы и представлять их на английском языке, если доклад попадет в «международную» секцию программы (о чем ПК сообщит заранее). Для докладов, подаваемых и представляемых на русском языке, мы будем просить авторов делать расширенные аннотации на английском языке.

О принципах отбора докладов на Диалог
«Диалог» принципиально междисциплинарен и ориентирован на общение лингвистов-теоретиков и разработчиков прикладных лингвистических технологий. Мы просим всех, кто планирует участвовать в «Диалоге», учитывать эту традицию при выборе тем, содержания и формы ваших выступлений.
Диалог сохраняет традиционную широту тематики, при этом Программный Комитет оставляет за собой право отклонять доклады, понятные и интересные только узким специалистам. Исследования, выполненные в рамках научных теорий, моделей описания и анализа, не являющихся широко известными, не будут приниматься без введения, представляющего соответствующую исследовательскую парадигму. Наши рецензенты будут обращать особое внимание на наличие в теоретических докладах внятно сформулированной и решенной конструктивной задачи, а в прикладных исследованиях – верифицируемого результата, полученного на адекватном языковом материале.

Порядок подачи докладов
Полные тексты докладов с аннотациями на русском и английском языках будут приниматься до 1 февраля. Доклады подаются через интернет-систему подачи докладов. Вы должны зарегистрироваться в системе здесь. На нашем сайте опубликована инструкция по регистрации и использованию данной системы. Просим вас внимательно с ней ознакомиться. Требования к оформлению докладов остаются такими же, какими они были в прошлом году.
Результаты рецензирования будут рассылаться с 1 по 10 марта. Подробную информацию о порядке рецензирования и публикации докладов вы можете найти на сайте конференции.

Авторам принятых или условно принятых докладов могут быть высказаны пожелания и замечания рецензентов. В некоторых случаях ПК проводит повторное рецензирование

До 22 марта мы ждем от вас итоговые варианты статей, подготовленные с учетом замечаний рецензентов и оформленные в соответствии с требованиями. Обращаем ваше внимание, что организаторы не гарантируют публикации для статей, присланных с опозданием.

Основные даты:
Предоставление полных текстов
до 1 февраля
Решение ПК
с 1 до 10 марта
Подача статей для сборника
до 22 марта
Публикация программы конференции
после 5 мая
Проведение конференции
25-29 мая

Более подробную информацию можно получить на сайте «Диалога» .

На специальном форуме вы можете оставить свои предложения по проведению конференции, задать вопросы.
Оргкомитет конференции располагает некоторым количеством сборников трудов «Диалога» за 1995-2010 годы. Мы готовы бесплатно поделиться сборниками с университетами, кафедрами, библиотеками на условиях самовывоза.
По всем вопросам обращайтесь к секретарю конференции: secretary@dialog-21.ru.

Организационный комитет конференции «Диалог 2011»

Вебинар 17 декабря: «Symbolic and machine learning methods for patient discharge summaries encoding»

В эту пятницу (17 декабря 2010) будет произведена тестовая трансляция семинара CENTAL (Center for Natural Language Processing), University of Louvain.

Тема семинара: «Symbolic and machine learning methods for patient discharge summaries encoding». Будут кратко рассказано о некоторых результатах проекта CAPADIS. Статьи расказывающие о данном исследовании http://www.springerlink.com/content/818526676l52v662/ , http://www.aclweb.org/anthology/W/W10/W10-1113.pdf.

Выступающий: Julia Medori.
Язык: Английский.

Вебинар (трансляция семинара) пройдет в пятницу 17 декабряя 2010 года с 13:00 по 14:15 по московскому времени.
Адрес трансляции: http://video.mail.ru/mail/alexander.panchenko/_bcast

Зарегестрированные пользователи могут задавать вопросы. Слайды презентации будут доступны онлайн за некоторое время до начала презентации (не более 1 часа) по следующему адресу http://cental.fltr.ucl.ac.be/team/panchenko/julia.pdf

Лекция «Vector Space Models: Theory and Applications»

Меня пригласили подготить и прочитать лекцию о моделях векторного пространства (Vector Space Models) и их применении, в контексте информационного поиска и вычислительной семантики. Лекция является частью курса «Введение в Автоматическую Обработку Естественного Языка» (Introduction to Natural Language Processing, Catholic University of Louvain).

Слушатели данного курса это инженеры и лингвисты, поэтому я сделал вводную часть с основами линейной алгебры. Далее я рассказываю собственно о моделях векторного пространства и их применении.

Скачать PDF можно здесь http://cental.fltr.ucl.ac.be/team/panchenko/lecture_vsm.pdf

PS Спасибо Ване Зеленцову за информацию об опечатках.

Конференции об информационном поиске в России: RuSSIR, ROMIP, RCDL

Стали доступными онлайн слайды и публикации участников IV Российской летней школы по информационному поиску RuSSIR 2010, в которой мне довелось поучаствовать.

Хотелось бы так же обратить внимание связанную по тематике конференцию (семинар) ROMIP 2010. Основной задачей ROMIP является эмпирическая оценка и сравнение качества работы информационных-поисковых и других интеллектуальных систем, таких как систем извлечения фактов из новостей. Семинар является русскоязычным аналогом известной конференции TRECText REtrieval Conference).

Организаторы описывают миссию конференции следующим образом:

Целью семинара является создание плацдарма для проведения независимой оценки методов информационного поиска, ориентированных на работу с русскоязычной информацией, а также консолидация сообщества российских исследователей и разработчиков, занимающихся информационным поиском.

Хотелось бы отметить тот факт что в этом году в ROMIP приняла участие вопросо-ответная система «Умба» разработанная аспирантом МГТУ им. Баумана.

Список треков и участников: http://romip.ru/ru/2010/participants.html

Еще одна связанная конференция по информационному поиску в России — RCDL 2010. Вот как организаторы описывают цель конференции:

Электронные библиотеки (ЭБ) — область исследований и разработок, направленных на развитие теории и практики обработки, распространения, хранения, поиска и анализа цифровых данных различной природы. Электронные библиотеки, являющиеся хранилищами знаний, можно рассматривать как сложные информационные системы, при создании и использовании которых требуется решение многих научных, технологических, методологических, экономических, правовых и других вопросов. Развитие технологий электронных библиотек становится всё более существенным для совершенствования стандартов здравоохранения, образования, науки, экономики, равно как и качества жизни вообще. Проекты формирования в цифровой форме информации, накопленной человечеством о Земле, Вселенной, Науке, Литературе, Искусстве, Окружающей среде, Человеке, являются примерами областей интенсивного развития глобальных репозиториев представления знаний.

Eurovoc conference

Посетил конференцию Eurovoc conference, которая прошла  Люксембурге 18-19 ноября 2010. В основном обсуждались различные аспекты применения систем организации знаний (KOS, knowledge organization systems), таких как информационно-поисковые тезаурусы, на примерах реального использования подобных систем в государственных учереждениях Европы.  Основные темы были следующие: презентация тезаурусов и информационно-поисковых систем основанных на тезаурусах и KOS используемых в ЕС, автоматическое слияние различных онтологий и тезаурусов, интеграция и интероперабельность между различными системами организации знаний (KOS), стандарты для систем организации знаний, SKOS, новые стандарты semantic web, автоматическое индексирование юридических документов с помощью информационно-поисковых тезаурусов.

Наиболее понравились презентации «Improve access to EU content through thesaurus matching» (Jerôme Euzenat — INRIA LIG, Laurent Begin — Mondeca) о разработке автоматизированной системы для слияния различных тезаурусов и «Automatic Indexing with the EUROVOC Thesaurus Enabling Cross-lingual Search» (Frane Šarić, University of Zagreb & Marie-Francine Moens, Katholieke Universiteit Leuven) о разработке информационно-поисковой системы для поиска юридическиских документов на хорватском языке с использованием тезаруса Eurovoc.

В ближайшее время на сайте конференции должны появится презентации.

О написании технических статей

Полезная презентация о методике написания технических статей. Автор — Michel Verleysen исследователь, редактор журналов с высоким импакт-фактором, организатор конференций, автор книги по нейронным сетям…

Ссылка (PDF) http://www.dice.ucl.ac.be/~verleyse/lectures/fsa3010/TechWriting2004-B&W.pdf

