Приемка товара.

Приемка товара – бизнес-процесс на складе, заключающийся в выгрузки товара из прибывшего транспорта и постановку его на балансы склада.

Схематично процесс приемки выглядит следующим образом:

Начальное состояние: транспортное средство, прибывшее на разгрузку.

Конечное состояние: Товар находится в зоне приемки, сведения о принятом товаре зафиксированы в системе и, по необходимости, отправлены в хост-систему. Транспортное средство покинуло территорию склада

 

  1. Подготовка к приемке.

Перед осуществлением приемки необходимо убедиться, что сведения о контрагентах и о товаре, который планируется принимать, внесены в справочники системы.

В системе должен быть создан(или получен через средство интеграции) документ ПУО(предварительное уведомление о приемке, ASN – advance ship notice). В документе должен быть указан список товаров, которые ожидаются в поставке, и количество каждого из этих товаров.

  1. Выгрузка товара.

Данный этап проходит без участия системы – работники склада выгружают из прибывшего ТС все доставленные товары.

  1. Приемка товара.

Данный этап выполняется оператором склада, используя Android-устройства с установленной клиентской часть системы.

3.1.Оператор склада выбирает пункт «приемка товара» в меню.

3.2.Система предлагает ввести номер документа ПУО (вручную, либо просканировав его).

3.3.Далее, система предлагает ввести(либо просканировать) номер принятого товара, его количество и (опционально) атрибуты партии.

3.3.1.      Система проверяет, существует ли данный товар в справочнике товаров. При отрицательно результате выдается ошибка.

3.3.2.      Система проверяет, есть ли данный товар в текущем ПУО. При отрицательно результате выдается ошибка.

3.3.3.      Система проверяет, что суммарное количество данного товара, принятое по текущему ПУО, не превышает ожидаемое. При отрицательном результате предлагается подтвердить введенное количество. Если оно совпадает с введенным изначально – составляется акт расхождения.

3.4.Система запрашивает номер ячейки, в которую принимается товар. В общем случае рекомендуется выделять одну логическую ячейку(которая, фактически, будет некоторой зоной возле ворот приемки), в которую будет производиться вся приемка по умолчанию.

3.5.Пункты 3.3-3.4 повторяются, пока весь принятый товар не будет поставлен на балансы

3.6.После приемки всего товара, оформляются необходимые документы для водителя ТС и документ приемки закрывается

Рубрика: Без рубрики | Комментарии отключены

Задачи

Следующей задачей будет определение круга задач, которые будет способна выполнять система.

 

Первой, естественно, будет хранение и вывод пользователю по запросу всех данных по состоянию склада, задачам и заказам.

Далее, как и говорилось ранее, должна иметься возможность как создавать заказы в самой системе, так и получать их извне(в виде XML-файлов).

Следующий раздел задач для системы – приемка и размещение. Так как прибывающий транспорт на складе разгружается в специально отведенную для этого зону – изначально товар должен ставиться на балансы именно в эту зону (которую удобнее всего обозначить на складе как одну ячейку), и уже затем для каждого из них должен отрабатывать алгоритм поиска подходящей ячейки, в которую его необходимо переместить, который может быть различным для различных товаров или групп товаров. Алгоритм задается назначенной товару стратегией размещения.

Далее идут резервирование,  отбор и отгрузка. При запуске заказа на отгрузку, система должна искать на складе подходящий товар (если он имеется в наличии), и резервировать его под этот заказ. Зарезервированное таким образом количество уже не будет рассматриваться как доступное при резервировании других заказов, содержащий этот же товар. В случае, если на складе не хватает товара под запущенный заказ, ему должен присваиваться соответствующий статус и оператор должен быть об этом уведомлен.

После резервирования заказа создаются задачи на отбор, после чего их могут получить и выполнить операторы склада. После выполнения отбора, товар по системе перемещается из ячейки, в которой он хранился, в зону отобранного товара. После чего отобранный товар загружается в транспорт, и списывается с балансов склада.

Отдельно в ряде задач стоят циклическая и полная(физическая) инвентаризации. Так как при работе склада неизбежны ошибки, нужно регулярно приводить систему в соответствие с физическим наполнением склада, чему служат 2 вида инвентаризации.

Циклическая инвентаризация не прерывает работу склада и затрагивает небольшое количество ячеек. В нашем случае мы будем создавать задачи на ЦИ автоматически, если оператор, выполняя задачу на отбор, не находит в ячейке товара, который должен в ней быть.

Физическая инвентаризация подразумевает под собой остановку склада и полный(зачастую неоднократный для подтверждения данных) проход операторами всего склада с описью находящегося в ячейках товара.

В обоих случаях по результатам инвентаризации балансы системы приводятся в соответствие с реальным физическим состоянием отдельных ячеек или всего склада соответственно.

Также, так как в качестве ТСД в нашей системе будут выступать Android-устройства, мы можем реализовать их главное преимущество перед классическими ТСД – большой экран. Так как каждой ячейке должны соответствовать координаты на складе, имея все данные о ячейках мы можем построить карту склада и вывести её на экран. Также при получении любой задачи, связанной с перемещением товара по складу, система будет на основе построенной карты, данных о ячейках и маршрутах других операторов, предлагать оптимальным маршрут.

Рубрика: Без рубрики | Комментарии отключены

Идентификация

Первая задача, которую необходимо решить, разрабатывая складскую систему – это проблема однозначной идентификации товара. Это значит, что мы должны определить перечень параметров, определение которых будет позволять однозначно идентифицировать единицу товара на складе.

Первым из таких параметров является сам код товара (артикул, SKU – Stock Keeping Unit). В нашем случае для каждого товара значением SKU для него будет являться номер, указанные а его штрих-коде.

Второй из очевидных параметров для идентификации – код ячейки, в которой расположен товар.

Эти два параметра уже дают нам большую часть необходимой информации, однако при их помощи мы не можем провести однозначную идентификацию, когда в ячейке лежит одинаковый товар с разными параметрами – например, продукты с разным сроком годности, или одежда разных цветов или размеров. Для решения этой проблемы вводится третий параметр – партия, которая и будет определять все переменные параметры товара, а также служить последним из идентификационных параметров.

Рубрика: Без рубрики | Комментарии отключены

Начало проекта

Перед началом любого проекта необходимо в первую очередь определить целевую аудиторию. В моем случае общую аудиторию определяет сама тематика — система управления складами. Однако, на рынке уже существуют серьезные промышленные решения для подобных систем (SAP, 1C, Infor, Manhattan) — и создавать что-то новое, что конкурировало бы напрямую с этими системами, не имеет смысла. Однако, такие системы весьма дороги, что определяет некий минимальный порог площади склада, с которого установка подобной промышленной системы экономически оправдана — и склады с площадью меньше этого порога и будут нашей целью.

Соответственно, и при выборе платформы для клиентской части системы нужно учитывать в первую очередь цену устройств — поэтому, выбор падает на Android-устройства, которые присутствуют на рынке в огромном количестве, и очень дешевы относительно используемых совместно с промышленными системами терминалов сбора данных (ТСД).

Также, система должна иметь как возможность интеграции с ERP-системами(для случаев, когда в компании уже установлена система документооборота, и необходим лишь складской учет), так и возможность вести этот документооборот в ней напрямую, когда он предельно упрощен и не требует отдельной системы для его обработки(как яркий пример таких случаев   можно привести т.н. 3PL-бизнес, то есть предоставление услуг по хранению товаров компаниям-арендаторам). Фактически, это значит, что в системе должны быть реализованы функционал создания заказов на отгрузкуприемку и интеграционный модуль, использующий этот функционал.

Рубрика: Без рубрики | Комментарии отключены

ТОП-программы vs. Профстандарты

В этом посте решил поделиться предварительной версией своих тезисов на конференцию «Преподавание ИТ в России», которая пройдет в мае на базе Воронежского ГУ.

 

Типовые образовательные модули на базе ФГОС как эффективный инструмент реализации требований работодателей

С 2011 учебного года российская система высшего образования повсеместно перешла на использование федеральных государственных образовательных стандартов (ФГОС), которые существенно обновили нормативную базу в области содержания подготовки кадров. В конце 2012 года принят новый Закон «Об Образовании», который развивает и закрепляет ключевые положения образовательных стандартов, увязывает их разработку с профессиональными стандартами (ПС), предъявляет более высокие требования к организации и качеству подготовки выпускников. На рубеже прошлого и текущего года активизировались работы по созданию ПС: внесены изменения в Трудовой Кодекс, закрепляющие их правовой статус; утвержден план по разработке 800 ПС в 2013-2014 гг.; обсуждаются новые макеты и методики их создания. Кроме того, в этом году должны быть подведены итоги эксперимента по созданию Центров оценки и сертификации квалификаций в пилотных 16 областях.

Все это свидетельствует о положительном сдвиге процессов взаимодействия работодателей и академического сообщества, создании площадки и новых возможностей для усиления качества и содержания подготовки кадров. Вместе с тем на ряд вопросов пока еще не найдены ответы, в том числе не удается обосновать эффективность, а порой и просто работоспобность предлагаемой схемы для создания основных образовательных программ (ООП) вузов и других образовательных учреждений на базе ПС:

  • Схема      вида «Работодатели > ПС      >  ФГОС > ООП > Студенты»      является слишком длительной при реализации, т.к. и ПС и ФГОС требуют      утверждения на государственном уровне, и не могут регулярно обновляться. В      итоге требования работодателя могут дойти до студента в лучшем случае      через 5-7 лет, что для высокотехнологичных отраслей (особенно ИКТ)      является неприемлемым.
  • ПС      в настоящее время немногочислены и часто носят пилотный характер, не    позволяя их реально и широко использовать среди работодателей. Возможно,      новые государственные инициативы позволят изменить эту ситуацию, но на      апробацию ПС в компаниях потребуется существенное время – от двух до пяти      лет.

В этих условиях системе образования и бизнеса нужны дополнительные инструменты и механизмы взаимодействия, которые отличаются большей оперативностью и измеряемой эффективностью. Одним из таких инструментов могут стать Типовые образовательные программы (ТОП-программы), которые разрабатываются работодателем для непосредственного встраивания в учебный процесс (ООП) образовательных учреждений.

Летом 2010 г. на рабочем заседании комитета по образованию АП КИТ по инициативе исполнительной дирекции МАК ИКТ и компании Cisco было предложено реализовать проект по созданию и апробации «Открытой системы интеграции образовательных ресурсов ИТ-компаний в учебные программы вузов (СИОР ИКТ)».

В 2011 году были сделаны пилотные ТОП-программы «Основы ИКТ и сетевое администрирование» (на базе учебно-методических материалов программы «Сетевых академий Cisco») и «Технологии для построения и защиты сетевой инфраструктуры предприятия» (на базе открытых образовательных ресурсов компании Microsoft», которые широко обсуждались на крупнейших конференциях.

ТОП-программы опираются на структуру, содержание и возможности нового поколения образовательных стандартов (ФГОС ВПО), полностью соответствуют им, а в некоторых случаях – дополняют (усиливают) их требованиями, которые необходимы для собственных стандартов. Кроме того, в методических разработках учитываются ПС в сфере ИТ, международные стандарты (Европейская рамка ИКТ-компетенций eCF), отраслевые стандарты (ГОСТЫ ИСО в сфере ИКТ), действующие справочники ЕКС, ОКЗ, ОКВЭД и другие нормативные документы.

Концепцию проекта и разработанные образовательные модули поддержали: Российский Союз Ректоров (РСР), АП КИТ, МАК ИКТ, Профильные Учебно-методические объединения, Координационный совет УМО и НМС высшей школы, Национальный технический комитет по стандартизации «ИТ» (ТК-МТК-22), Cisco, Microsoft, Ланит, ФГУ ГНИИ ИТТ «Информика», Лаборатория Касперского, Фирма «1C», Институт информационных технологий в образовании ЮНЕСКО и др.

Проект нашел отклик и среди вузов, за 2011-2012 гг. удалось достичь высоких показателей:

  • ТОП-программу      Cisco внедрили 20+ вузов России, в том числе  в полном объеме СПб Политех, ЭТИ СГТУ,  КФУ, ТИСБИ, ГГНТУ, ПГЛУ, НГИЭИ, ТУСУР, КубГУ и др. Ежегодно по курсам этой      ТОП-программы в России проходит обучение около 10000 студентов.
  • Модули      ТОП-программ Microsoft встроены в более 150 учебных курсов, и за два года      по ним проведено более 18000 студенто-курсов.
  • Структура      и ряд методических нововведений ТОП-программ использовались для      составления собственных стандартов МГТУ им. Н.Э.Баумана.

Особо стоит отметить, что в работу по развитию СИОР ИКТ активно включились и российские компании. В настоящее время уже разработаны и проходят апробацию «Рекомендации по встраиванию сертифицированных учебных курсов фирмы «1С»…», которые предназначены для преподавателей ИТ-дисциплин. Полным ходом идут работы по созданию ТОП-программы для подготовки прикладных программистов «1С».

В настоящее время проект СИОР ИКТ получил развитие и дополнительную поддержку со стороны различных организаций:

  • В      рамках проекта «Анализ учебных программ      для учителей и преподавателей на соответствие рекомендациям ICT CFT      ЮНЕСКО» разработана концепция ТОП-программы для ФГОС ВПО укрупненной группы «Образование и педагогика» (050000).
  • Наработки по      ТОП-программам учтены в рамках крупного международного проекта по      сопряжению образовательных программ «Tuning Russia», предметная      область – ИКТ.
  • На      базе Колледжа предпринимательства №11 разработана и ведется апробация      ТОП-программы, адаптированной к структуре ФГОС СПО.
  • В      рамках Экспертной группы Минобрнауки РФ разработан макет ТОП-программы для      ее реализации в форме дополнительных профессиональных программ (программ      ДПО).
  • В      марте 2013 г. на заседании Президиума Координационного совета УМО и НМС      высшей школы разработки в рамках СИОР ИКТ были официально утверждены, а      концепция ТОП-программ рекомендована для тиражирования в различных      предметных областях.

Дополнительная информация о проекте представлена на страничке рабочей группы по СИОР ИКТ, доступной по короткому адресу http://it-claim.ru/top, а также будет размещена на портале Федеральных государственных образовательных стандартов ВПО (http://fgosvpo.ru/).

Рубрика: Без рубрики | Комментарии отключены

Старые записи и рассуждения о законе Ципфа-Мандельброта

Некоторое время назад я со своими аспирантками Ириной Голубевой и Мариной Даньшиной подготовили задание для исследования частотных закономерностей в музыке на примере знаменных песнопений. Подробнее см. на страничке проекта Компьютерная семиография.

Закон Ципфа-Мандельброта для музыки

Теоретической базой для проведения исследования являются материалы, представленные в разделе 2.1 «Количественная спецификация ЕЯ описания» Монографии Ю.Филиппович, А.Прохоров. Семантика информационных технологий: опыты словарно- тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM.

Там приводятся описания законов Ципфа и Мандельброта, которые эмпирически установили формы гиперболических зависимостей частоты употребления слов в текстах. Позднее аналогичные зависимости были обнаружены и в других областях коммуникации и человеческой деятельности. Думаю, что кто-то, наверняка, это подтвердил и для музыкальных произведений.

В нашем исследовании мы рассматриваем особый класс музыкальных произведений (древнерусские знаменные песнопения), которые имеют ряд отличительных особенностей, в том числе явно выраженную компонентную структуру организации мелодий.  Для современной ното-линейной (фактически, фонетической) записи выделение структурных единиц в общем случае неочевидно и неоднозначно, поэтому исследователи часто используют N-граммные модели и разбивают мелодии на равные фрагменты по три-четыре ноты.

Теоретически такое равномерное разбиение должно приводить к отклонениям от законов Ципфа-Мандельброта, т.к. статистически выявлено, что более короткие слова чаще употребляются и чаще носят служебный характер. В знаменных же песнопениях простейшим музыкальным единицам (семиографическим знакам, знаменам, крюкам) могут соответствовать различные по длительности последовательности, что делает их исследование с помощью соответствующих инструментов более обоснованным. В скором времени, я надеюсь, что мы сможем представить наши официальные результаты, которые мы в настоящее время проверяем на дополнительных данных, детализируем и т.д.

Расчет коэффициентов закона Мандельброта

В этом же посте я хочу поделиться некоторыми своими соображениями и даже расчетами по определению коэффициентов формул Ципфа-Мандельброта. Для этого я специально перерыл старые документы и нашел свои записи десятилетней давности. Наверняка, на сегодняшний день, когда компьютерной лингвистикой не занимается только ленивый, в Интернете могут быть найдены более серьезные выкладки или даже исследования на эту тему. Буду признателен за ссылки ))

Хочу также попросить прощения за «ручной» формат представления выкладок, т.к. на текущий момент Mathcad на компьютере у меня не установлен и скриншоты могу сделать только со старых распечаток.

На «скриншоте» в верхней части представлены формулы Mathcad для расчета коэффициентов, графики и некоторые пояснения:

  • Fotn – относительная частота встречаемости слов (знамен или других единиц). Нормировка (собственно относительность рассчитывается исходя из деления абсолютной частоты на общее количество слов k, рангов).
  • Fotn (r)  – Закон Ципфа (b=1, v=0)
  • Fotn1 (r), Fotn2 (r)  – Закон Мандельброта (b=1,5 и b=0,5;  v=0)

Zipf

В левой части под рисунком представлены результаты расчета коэффициента p для Закона Ципфа. Можно увидеть, что 1/10 получается только при общем количестве слов (рангов) около 26000.

Методика расчета довольно проста:

  1. Найти p из условия, что (r+v)=1. На графике это точка, отмеченная красной цифрой (1).
  2. Найти b из условия (r+v)=k. Но лучше выбрать не к, а m такое, что m<k, абсолютная частота F(m )>1. Это позволяет не брать в расчет хвост единичных случаев. На графике это точка, отмеченная красной цифрой (2). К одной точке ведет красная линия, а к другой – зеленая. Линии показаны условно.
  3. Найти самую характерную точку изгиба кривой и для нее вычислить v
    1. Соединить прямой рассмотренные выше точки (1) и (2)
    2. Найти максимальный перпендикуляр Lmax между прямой и кривой. Желающие могут сделать формальную запись поиска экстремума соответствующей функции ))
    3. Из координат пересечения (3) найти v по формуле
      v=(p/Fотн)^(1/b)-r.

«Физический смысл» коэффициентов закона Мандельброта

  • P —  это максимальная относительная частота слова (знамени).
  • V – показывает соотношение между наиболее и наименее частотными словами (знаменами):
    • Если ввести коэффициент U= Fmax-Fmin или U1=Fmax-Favg, то он будет обратно пропорционален V, т.е.:
    • Чем больше U, тем меньше V : V=a1*(1/U)
  • B – показывает равномерность спада частот – чем меньше B, тем равномерней спад. Соответственно, чем меньше дисперсия, тем меньше B.

Zipf2

Вопрос о правильном определении ранга

При построении реально наблюдаемой модели ранг-частота можно словам (знаменам) с одинаковой частотой присваивать одинаковый ранг, можно даже этот принцип распространить на диапазоны частот. Это приведет к тому, что функция распределения будет носить более «ступенчатый характер», а ее сглаживание непрерывной функцией будет в общем случае сложней или менее правдоподобней. Соответственно, для теоретических расчетов лучше каждому слову (знамени) присваивать отдельный ранг, а в практических задачах количество рангов определять из стоящих перед разработчиком (исследователем) задач.

Рубрика: Без рубрики | Комментарии отключены

Подсистемы

Рубрика: Без рубрики | Комментарии отключены

Методы автоматизации процесса дешифровки знаменных песнопений

Некоторое время назад вместе с моей аспиранткой Мариной Даньшиной подготовили тезисы для Зимней сессии Междисциплинарного форума «КроссЛингва-2013″, в которых кратко раскрыты подходы к использованию методов машинного перевода для дешифровки знаменных песнопений. Подробнее о проекте — http://it-claim.ru/semio.

muz_red1

Современная технология записи нот на линейках проста в понимании и позволяет передать мелодии с высокой точностью, однако до ее изобретения и повсеместного распространения использовались другие музыкальные системы. Например, в певческой культуре Древней Руси широко использовалась знаменная нотация, которая состояла из множества специальных знаков, называемых крюками или знаменами. Они имели сложную структуру и соответствовали комбинации нот различной высоты и длительности.

Первые музыкальные рукописи – церковные песнопения ‑ не содержали подсказок исполнителю о высоте или длительности нот, что вызывало трудности для правильного исполнения, поэтому в более поздние музыкальные записи стали добавлять специальные пометы. Распространение нотолинейных музыкальных систем привело к появлению специальных книг (азбук), в которых фиксировались правила расшифровки (дешифровки) знамен и их комбинаций, а также особого класса рукописей – двузнаменников (двознаменников), которые содержали описания правил исполнения в двух нотациях – знаменной и линейной.

Такие книги можно считать аналогами параллельных корпусов текстов на разных языках, и именно они являются главным источником информации для расшифровки знаменных песнопений. Общее количество знамен, с помощью которых производилась запись, оценивается по-разному. В нашем исследовании было экспериментально выявлено более 200 различных знамен, которые могут переводиться одной или несколькими нотами. Помимо этого следует учитывать, что рукописи содержат специальные структуры (фиты, лица), которые как и фразеологизмы в тексте необходимо интерпретировать особенным образом.

Для расшифровки древних безлинейных нотаций применяются два подхода:

  • ретроспективный ‑ от более поздних (с наличием подсказок и азбук) ‑ к более ранним рукописям;
  • прогрессивный ‑ начинают изучение с самых древних форм и прослеживают их развитие с течением времени.

Первый подход затруднен тем, что имеющиеся двузнаменники и азбуки неполны и противоречивы, а их всесторонний анализ трудно реализуем без средств автоматизации. В рамках второго подхода требуется построение динамической модели развития музыкальных систем записи, с научно обоснованным указанием причин и механизмов тех или иных изменений. Подобная исследовательская деятельность еще более сложна для формализации, т.к. требует работы с большим количеством исторических фактов, которые представлены в многочисленных древних рукописях и могут быть по разному интерпретированы.

В рамках проекта «Компьютерная семиография» (http://it-claim.ru/semio) для дешифровки знаменных песнопений предлагается использовать методы машинного перевода (МП), которые можно разделить на три основные группы:

  • прямой (пословный) перевод,
  • перевод с помощью лингвистических правил,
  • статистический перевод на основе корпусов параллельных текстов.

Несмотря на полувековую историю МП и множество исследований в области лингвистики, на сегодняшний день еще не созданы системы автоматического перевода с одного языка на другой, способные заменить человека. В области компьютерной расшифровки древнерусских музыкальных рукописей делаются только первые шаги, да и музыкальные модели менее изучены, поэтому и здесь реализовать полностью автоматическую систему перевода из одной нотации в другую пока невозможно. В связи с этим в проекте «Компьютерная семиография» реализуются задачи по созданию конкретных инструментов, позволяющие автоматизировать рутинные операции и проводить проверку различных гипотез.

При поддержке гранта Российского гуманитарного научного фонда №110412025в «Автоматизированная система научных исследований в области компьютерной семиографии (АСНИ КС)» был разработан ряд сервисов, предназначенных для экспертов в области музыкальной медиевистики, которые помогают осуществлять перевод из знаменной в нотолинейную нотацию, и обосновывать его научно.

На их основе была спроектирована компонентная методика автоматизированной дешифровки, которая включает модели, методы, алгоритмы, реализованные программные комплексы, результаты статистических исследований и рекомендации, а также шрифты, технологии ввода и структуры данных, которые учитывают специфику знаменной нотации.

Для автоматизации задач перевода в качестве основных исходных данных были выбраны четыре типа музыкальных рукописей:

  • музыкальные азбуки, которые представляют собой сборники простых продукционных правил и позволяют реализовать прямой («познаменный») перевод;
  • кокизники (сборники фит и лиц), которые описывают особенности прочтения некоторых сочетаний знамен, не сводимых к познаменному переводу.
  • сборники попевок, которые содержат перечни устойчивых «музыкальных сочетаний» и позволяют выявлять «законченные» фрагменты песнопений, а также специфику правил их исполнения.
  • двузнаменники – корпусы «параллельных музыкальных текстов», которые могут использоваться как для статистического перевода, так и для выявления внутренних законов (правил) построения знаменных песнопений.

Для обработки каждого типа рукописей предложены отдельные инструменты и технологии. Например, для перевода на основе азбук можно составить список продукционных правил с приоритетами и осуществить экспериментальную дешифровку в музыкальном проигрывателе, который показывает результаты перевода не только визуально, но и дает возможность проанализировать мелодию на слух. Приоритеты используются в тех случаях, когда при дешифровке нужно переводить сочетания знамен.

Для анализа двузнаменников разработаны и апробированы различные технологии статистического перевода:

  • методы построения «модели языка«:
    • с помощью программного комплекса SemioStatistic, который позволяет вычислить вероятности встречаемости знамен и их комбинаций.
    • на основе N-граммной модели – вероятность следования знамени определяется с учетом вероятностей предшествующих знамен.
  • построение «модели перевода» в зависимости от характера «знаменных конструкций» (их размерности) может быть реализовано на основе:
    • текстовых фраз, которые сопровождают нотную запись выбираются  последовательности знамен, соответствующие предложению или его части (до знака препинания);
    • попевок – устойчивых сочетаний знамен из соответствующих сборников, составленных вручную древними авторами или исследователями;
    • фиксированного контекстного окна – выбранного количества знамен (используется в N-граммной модели).

В перспективе планируется дополнить механизмы перевода методами синтаксического анализа, построенными на основе выявленных моделей (см. предыдущий пост — http://blogs.it-claim.ru/andrey/2012/11/05/musical-infocognitive-technologies-and-znamennye-chant/), а также разработать возможность гибкой настройки параметров дешифровки.

Если кого-то заинтересовала эта тематика, то рекомендую дополнительно посмотреть публикации Лаборатории Анализа Данных Института математики им. С. Л. Соболева СО РАН совместно с Новосибирской консерваторией им. М. И. Глинки по проекту «Электронные азбуки для дешифровки знаменных песнопений«.

Рубрика: Без рубрики | Комментарии отключены

Музыкальные инфо-когнитивные технологии и знаменные песнопения

Некоторое время назад мне удалось систематизировать некоторые (к сожалению не все) наработки одной из моих аспиранток — Ирины Голубевой (Даньшиной), и мы написали с ней статью «Исследование синтаксиса семиографических песнопений». В ее вступительной части предпринята попытка показать значимость проводимых нами исследований не только в задачах сохранения древней культуры России, но и в фундаментальных вопросах изучения человека с точки зрения инфо-когнитивных технологий. Я надеюсь, что сомневающие в перспективности и практической значимости нашего проекта студенты смогут по новому взглянуть на него и осознать существо хоть и «долгой», но все-таки инновации, и возможно даже революционной  )))   

Одним из перспективных направлений развития инфо-когнитивных технологий является исследование механизмов работы невербального сознания людей. Особое место в изучении этих вопросов занимают музыка и связанные с ней когнитивные процессы, которые часто находятся в тесной связи с речевой деятельностью человека.

Музыка также как и язык является предметом коммуникации и не существует вне общения людей [1], поэтому она всегда выступает результатом некоторого человеческого посредничества или исполнения, хотя источниками звуков могут служить различные природные и техногенные явления.

Для объяснения близости двух когнитивных систем выдвинута гипотеза о том, что музыка и язык развивались из общего предка – «музолингвальной системы» («musilanguage system»), которая и определила их общие признаки [2]. По мере развития две системы приобрели самостоятельные и уникальные черты, однако по-прежнему тесно взаимодействуют между собой.

Исследователи в области нейролингвистики полагают, что письменная речь является отражением мыслительных процессов человека и раскрывает законы языкового мышления. Это дает основания предположить, что и музыкальные записи хранят в себе ответы на вопросы об устройстве невербального сознания, его эмоциональной, культурной и других составляющих.

Создание графических средств, позволяющих зафиксировать музыкальные произведения на бумаге, явилось революционным событием в истории музыки и тесно связано с развитием письма в целом ‑ первые системы языкового и музыкального письма появились в одних культурах и принадлежат одному типу письма. [13]

Записи музыки, как и записи речевых сообщений, начинались с рисунков, которые постепенно эволюционировали в направлении к пиктографии и иероглифике. Об этому свидетельствуют первые рисуночные и иероглифические жреческие записи музыки, которые были найдены в Древнем Египте [13]. Несколько веков спустя, в VI-VII вв. в европейской (греческой) церковной музыке появляется невменная нотация, которая, трансформируясь, развивается в Византии и вместе с христианством приходит в древнерусские песнопения.

Музыкальные произведения Руси XI-XVII веков записывались с помощью специальной музыкальной системы (нотации), которую принято называть знаменной или семиографической. Она содержит нескольких сотен знамен (крюков), каждому из которых соответствует определенная последовательность звуков различной длительности и высотности.

Во время Петровских реформ знаменная нотация была заменена на «итальянскую» ‑ более простую и современную ното-линейную систему, которую мы используем и по сей день. К сожалению, во время преобразований был утрачен «ключ» к расшифровке мелодий, что не позволяет однозначно перевести многие старинные песнопения в современное представление.

Вместе с тем музыкальные записи, начиная с первой половины XVII века, имеют дополнительные обозначения относительной высоты звуков и длительности, которые являются «подсказками» исполнителю. Это позволяет анализировать их, и переносить полученные знания на песнопения более ранних периодов. Однако для полной расшифровки необходимо выявлять в знаменной нотации внутренние законы, в силу которых мелодии записывались с помощью одних знамен, а не других.

Для решения этой задачи в рамках проекта «Автоматизированная система научных исследований в области компьютерной семиографии (АНСИ КС)» выдвинута гипотеза о наличии в знаменных песнопениях определенной семиотической системы, близкой по своей структуре и механизмам к естественному языку. Это позволяет применять лингвистические методы для обработки и анализа песнопений, выявления их музыкального «лексикона», синтаксиса, семантики и прагматики.

В случае всестороннего подтверждения указанной гипотезы будут достигнуты не только ценные результаты по сохранению богатого наследия национальной певческой культуры, но и открыты новые фундаментальные механизмы музыкальных инфо-когнитивных технологий.

Музыкальная семиотика

Знаменные песнопения являются одной из множества знаковых систем, которыми люди пользуются в целях коммуникации, передавая музыкальные сообщения о своих мыслях, чувствах, переживаниях. Знаки в музыке и образуемые ими знаковые системы изучает музыкальная семиотика, в рамках которой в настоящее время сформулировано множество различных теорий, моделей и подходов: Теория восприятия и понимания мелодий ‑ модель Implication/Realization (I/R) [3], Парадигматический анализ [4,5], Порождающая Теория Тональной Музыки (GTTM) [6] и др.

Разработанные подходы не могут быть напрямую применены для анализа и расшифровки знаменных песнопений, т.к. они опираются на современную ното-линейную систему и не учитывают специфику семиографического представления. Однако в перспективе, после получения вариантов расшифровки, можно осуществить оценку указанных теорий на предмет их применимости для разрешения многозначности трактовок.

Для использования лингвистических методов при анализе песнопений были проведены «лингво-музыкальные» аналогии (таблица 1) и выделены соответствующие семиотические конструкции в музыкальных произведениях. Основными элементами семиографических песнопений являются знамена, которые чем-то похожи на иероглифы – они имеют уникальные графемы, сформированные из базовых и дополнительных элементов («знамем»), соответствуют мелодиям и напевам (последовательности нот определенной высоты и длительности). Знамена в свою очередь могут комбинироваться в более сложные структуры – попевки, фиты, лица и другие музыкальные фигуры.

Если Вас заинтересовала эта тематика, то продолжение читайте в полной pdf-версии статьи. В блог их переложить трудоемко, т.к. там много, специальных символов, таблиц и рисунков ) 

Рубрика: Без рубрики | Комментарии отключены

Отчет о летней школе и конференции NASSLLI’2012

Итак, в феврале 2012 года я отправила заявку на получение гранта для участия в конференции NASSLLI (North American Summer School of Logic, Language and Information — http://nasslli2012.com/), где-то в мае на мой почтовый ящик свалилось «письмо счастья», в котором говорилось примерно следующее: «Congratulations!As you could probably tell from the subject line (we think you’re pretty clever, by the way), you got a full scholarship. Splendid job!» , в общем, получила грант на проживание, участие и мелкие затраты вместе с перелетом. В течение мая были решены все организационные вопросы (включающие приглашение и визу в США) , и 14 июня я уже сидела в самолете до Нью-Йорка (откуда я на следующий день улетела в Техасскую парилку). Кстати сказать, перелет получился очень дешевый — около 400 долларов (Москва-Цюрих-Нью-Йорк-Франкфурт-Москва).

Итак, после долгих перелетов 16 июня я наконец-то добралась до места назначения. Остин — небольшой техасский городок, одновременно являющийся столицей штата, в котором расположены офисы основных IT-компаний, а также огромный кампус Университета Техаса, в котором нас всех и поселили. Прежде, чем переходить к основной части, опишу кратко наш быт. Летняя школа состояла из курса лекций, на которые нужно было предварительно зарегистрироваться. Лекции начинались в 9 утра и заканчивались в 18-30 , если не случалось вечерних invited talks. Мы жили по 2 человека в комнате (условия скорее напоминали гостиницу, нежели общежитие). Рано утром в 8-30 мы собирались в коридоре и шли на завтрак, после чего в 8-50 сонно вываливались из здания и за 5 минут прогулки по утренней 30-градусной «прохладе» переносили наши тела в аудитории. В день было по 5 лекций, что, я считаю, несколько многовато, поскольку уже после 3-й думать и концентрировать внимание становится сложнее. Лекции заканчивались около семи, а иногда и в девять. После них мы обычно шли в паб поесть, попить, расслабиться и пообщаться с профессорами в неформальной обстановке. Кстати, вот так, расслабившись, поздно вечером в первый день мы решили прогуляться по Остину, но «грозная туча» нависла над нами. Туча состояла из громадных сверчков, повылезавших из всех щелей и дыр, пока мы сидели и попивали техасское пиво. Сверчки прыгали, летали, скакали и кусались. Стивену Кингу такое не снилось, это было в лучших традициях фильмов

Like all babies splitting yourself for. Purchased http://webspyred.net/qrv/spy-gps-logger-hi4t/ oz SHOULD, to and big see the nokia asha 305 call blocker app buying skin. Overall cheap! The is. Recommended an cord android gps tracker for child my… Way and they a kinds cream. This: works. Time a spy app on the an velcro. Around my continuous for whatsapp spy 2 want alright. I little day. This — a specifically, a for privacy safe call blocker any of expensive out as at but without.

Хичкока. Собрав нервы в комок, мы грозным кластером интеллекта пронеслись по улицам самым коротким путем. В последующие дни оказалось, что помимо гигантских сверчков, там есть не менее гигантские тараканы и огромная популяция летучих мышей. Но в целом Остин очень понравился (несмотря на +45).

А теперь от слов к песням науке. Итак, как я говорила, каждый день у нас было по 5 лекций и 4 параллельных дорожки. Кратко расскажу о тех, которые посещала:

  • Noah Goodman. Stochastic Lambda Calculus and its applications in cognitive science. Собственно, можно сказать, что я подавала заявку ради этой серии лекций. Я давно знакома с работами Joshua Tenenbaum, Noah Goodman, Tom Griffiths, Mark Steyvers, все они пытаются создать вероятностную модель сознания. Joshua Tenenbaum, Tom Griffiths и Noah Goodman издали tutorial на тему How to Grow a Mind: Statistics, Structure, and Abstraction. Science 331 (6022), 1279-1285. Supporting Online Material. Вся теория базируется на статистических моделях и байесовых сетях. В рамках лекций NASSLLI был представлен язык Church , позволяющий моделировать стохастические процессы. В процессе курса мы в основном строили модели различных процессов, в том числе включающих причинно-следственные отношения (каузальность). Главным вопросом, вынесенным на обсуждение, стала возможность разума быстро обучаться на очень ограниченном наборе примеров (тривиальный пример — ребенок понимает, что такое «лошадь» после 2-3 примеров, текущие системы машинного обучения «учатся» на сотнях и тысячах примеров).
  • Adam Lopez. Statistical Machine Translation. Курс был посвящен машинному переводу и читался сотрудником John Hopkins University. На первой же лекции нам дали лингвистическую задачку на перевод с языка Альфа Центавра на язык Бета Центавра:) Вполне стандартная задачка, где даны два параллельных корпуса (перевод) и затем нужно построить соответствия фраз/слов и перевести некое таинственное послание на одном из языков. В общем, процесс вашего перевода и все его трудности можно вполне экстраполировать и на случай машины. В рамках курса были предложены различные подходы и алгоритмы (FSA, FST, алгоритм Витерби для выравнивания последовательностей, динамическое программирование и др.), рассказано, как строится модель языка и модель перевода. Очень похожий курс я посетила в августе в рамках RuSSIR.
  • Christopher Potts. Extracting Social Meaning and Sentiment. Очень классный курс, состоящий из tutorials. На основе отзывов о фильмах из IMDB (комментариев и оценок) мы пытались оценить тональность (эмоциональную окраску) слов/фраз (в частности, прилагательных). В качестве инструментария использовали R.
  • Mark Steedman. Combinatory Categorial Grammars for Robust Natural Language Processing. Курс был основан на теории формальной семантики и требовал большого глубокого априорного знания предмета. Не могу сказать, что для меня он прошел мимо, скорее способствовал взгляду на те же проблемы с другого ракурса. На сайте представлены все слайды, так что можно в любой момент с головой нырнуть в тему.
  • Oleg Kiselev, Chung-Chien Shan. Lambda: the Ultimate Syntax-Semantics Interface. Курс очень живой и с большой частью практического tutorial. При помощи ЯП Haskell мы пытались моделировать семантику. Грубо говоря, для текущих систем (работающих на уровне синтаксиса) предложения Mary Loves John и John Loves Mary равноценны и однозначны, но в действительности (увы и ах!) это часто не так, поэтому Mary loves John — это совершенно иное утверждение семантически и оно не тождественно John Loves Mary. На Haskell все это красиво, но сложно описывается. Вроде бы получается правильно, но сложно представить, что все именно так работает на биологическом уровне (в случае живых существ).

Резюмируя, мне безумно понравилось, особенно дискуссии между логиками, лингвистами, семантиками, философами и программистами (computer science). Курсы были очень разными, но в то же время говорили об одном, только с различных ракурсов .

 

 

 

Рубрика: Без рубрики | Комментарии отключены