Старые записи и рассуждения о законе Ципфа-Мандельброта

Некоторое время назад я со своими аспирантками Ириной Голубевой и Мариной Даньшиной подготовили задание для исследования частотных закономерностей в музыке на примере знаменных песнопений. Подробнее см. на страничке проекта Компьютерная семиография.

Закон Ципфа-Мандельброта для музыки

Теоретической базой для проведения исследования являются материалы, представленные в разделе 2.1 «Количественная спецификация ЕЯ описания» Монографии Ю.Филиппович, А.Прохоров. Семантика информационных технологий: опыты словарно- тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM.

Там приводятся описания законов Ципфа и Мандельброта, которые эмпирически установили формы гиперболических зависимостей частоты употребления слов в текстах. Позднее аналогичные зависимости были обнаружены и в других областях коммуникации и человеческой деятельности. Думаю, что кто-то, наверняка, это подтвердил и для музыкальных произведений.

В нашем исследовании мы рассматриваем особый класс музыкальных произведений (древнерусские знаменные песнопения), которые имеют ряд отличительных особенностей, в том числе явно выраженную компонентную структуру организации мелодий.  Для современной ното-линейной (фактически, фонетической) записи выделение структурных единиц в общем случае неочевидно и неоднозначно, поэтому исследователи часто используют N-граммные модели и разбивают мелодии на равные фрагменты по три-четыре ноты.

Теоретически такое равномерное разбиение должно приводить к отклонениям от законов Ципфа-Мандельброта, т.к. статистически выявлено, что более короткие слова чаще употребляются и чаще носят служебный характер. В знаменных же песнопениях простейшим музыкальным единицам (семиографическим знакам, знаменам, крюкам) могут соответствовать различные по длительности последовательности, что делает их исследование с помощью соответствующих инструментов более обоснованным. В скором времени, я надеюсь, что мы сможем представить наши официальные результаты, которые мы в настоящее время проверяем на дополнительных данных, детализируем и т.д.

Расчет коэффициентов закона Мандельброта

В этом же посте я хочу поделиться некоторыми своими соображениями и даже расчетами по определению коэффициентов формул Ципфа-Мандельброта. Для этого я специально перерыл старые документы и нашел свои записи десятилетней давности. Наверняка, на сегодняшний день, когда компьютерной лингвистикой не занимается только ленивый, в Интернете могут быть найдены более серьезные выкладки или даже исследования на эту тему. Буду признателен за ссылки ))

Хочу также попросить прощения за «ручной» формат представления выкладок, т.к. на текущий момент Mathcad на компьютере у меня не установлен и скриншоты могу сделать только со старых распечаток.

На «скриншоте» в верхней части представлены формулы Mathcad для расчета коэффициентов, графики и некоторые пояснения:

  • Fotn – относительная частота встречаемости слов (знамен или других единиц). Нормировка (собственно относительность рассчитывается исходя из деления абсолютной частоты на общее количество слов k, рангов).
  • Fotn (r)  – Закон Ципфа (b=1, v=0)
  • Fotn1 (r), Fotn2 (r)  – Закон Мандельброта (b=1,5 и b=0,5;  v=0)

Zipf

В левой части под рисунком представлены результаты расчета коэффициента p для Закона Ципфа. Можно увидеть, что 1/10 получается только при общем количестве слов (рангов) около 26000.

Методика расчета довольно проста:

  1. Найти p из условия, что (r+v)=1. На графике это точка, отмеченная красной цифрой (1).
  2. Найти b из условия (r+v)=k. Но лучше выбрать не к, а m такое, что m<k, абсолютная частота F(m )>1. Это позволяет не брать в расчет хвост единичных случаев. На графике это точка, отмеченная красной цифрой (2). К одной точке ведет красная линия, а к другой – зеленая. Линии показаны условно.
  3. Найти самую характерную точку изгиба кривой и для нее вычислить v
    1. Соединить прямой рассмотренные выше точки (1) и (2)
    2. Найти максимальный перпендикуляр Lmax между прямой и кривой. Желающие могут сделать формальную запись поиска экстремума соответствующей функции ))
    3. Из координат пересечения (3) найти v по формуле
      v=(p/Fотн)^(1/b)-r.

«Физический смысл» коэффициентов закона Мандельброта

  • P —  это максимальная относительная частота слова (знамени).
  • V – показывает соотношение между наиболее и наименее частотными словами (знаменами):
    • Если ввести коэффициент U= FmaxFmin или U1=FmaxFavg, то он будет обратно пропорционален V, т.е.:
    • Чем больше U, тем меньше V : V=a1*(1/U)
  • B – показывает равномерность спада частот – чем меньше B, тем равномерней спад. Соответственно, чем меньше дисперсия, тем меньше B.

Zipf2

Вопрос о правильном определении ранга

При построении реально наблюдаемой модели ранг-частота можно словам (знаменам) с одинаковой частотой присваивать одинаковый ранг, можно даже этот принцип распространить на диапазоны частот. Это приведет к тому, что функция распределения будет носить более «ступенчатый характер», а ее сглаживание непрерывной функцией будет в общем случае сложней или менее правдоподобней. Соответственно, для теоретических расчетов лучше каждому слову (знамени) присваивать отдельный ранг, а в практических задачах количество рангов определять из стоящих перед разработчиком (исследователем) задач.

Запись опубликована в рубрике Без рубрики. Добавьте в закладки постоянную ссылку.
  • Наиль(Николай)

    Уважаемый Андрей. Допускаю,что вам могут быть интересны мои находки,сделанные при исследовании структуры иконы Троица Ветхозаветная св.прп.Андрея Андрея Рублева.
    В основе структуры иконы оказался фрактальная структура, которая является развёрткой 4 чисел. 3 целых и одно дробное имеющее смысл углового параметра. Для меня оказалось потрясением, что развёртка не теряет смысл при изменении величины этого углового в параметра. Для иконы св.прп.Андрея Рублева этот параметр близок 1.48 ( в градусах).
    Я реализовал эту развертку в компьютере, и теперь можно наблюдать динамику образов Троицы, которые знаменуют Библейские историю от сотворения мира до наших дней.
    Вам этот материал может быть интересен в том смысле, что в развертке есть два семантических центра. Из первого исходит 10 струн,знаменующих 10 заповедей ,а из второго 10 струн, знаменующ 5 божественых пар понятий ( об этих понятия рассказано в комментариях к труду св.мчн. Максима Исповедника «мистагогия или тайноводство» , напичатанного в ЖМП за 1987 г. Т.е. развёртка может и зазвучать !
    Если вам интересна эта информация ,можете написать мне по адресу nail.salyakhov@gmail.com.