Закон Ципфа



Портрет Джорджа Ципфа
Джордж Кингсли Ципф (1902 — 1950)

Закон Ципфа — это интересная закономерность распределения частотности слов в языках. Согласно ему, всего 20% слов языка покрывают 80% всей нашей речи. Если все слова языка или любого длинного текста упорядочить по убыванию частотности их использования, то частотность n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n.


Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее.


Цель этой страницы — показать, как мы используем язык, с помощью интерактивных графиков.



График №1


Итак, давайте попробуем просто расположить первые тысячу русских слов по убыванию частоты их использования. Звучит незначительно, однако эти слова покрывают 64% всех русских текстов! Под словами подразумеваются любые единицы языка — так называемые леммы. Водите мышью по графику, чтобы листать список.




Как вы можете видеть, самое часто используемое русское слово это... «и». Мы произносим «и» примерно через каждые 28 слов. Вторая по популярности лемма — предлог «в». Он встречается примерно через каждые 36 слов.



График №2


А теперь расположим первые 5000 слов (82% всей нашей речи) по частоте использования на двумерном графике. Чем выше слово, тем чаще оно встречается. По оси y отложен ipm (случаев на миллион слов). Водите мышью по графику, чтобы узнать больше о слове. С помощью ползунка можно увидеть, как изменится распределение, если слов будет больше.




Чем больше слов мы добавляем, тем сильнее заметно влияние закона. Первые насколько слов встречаются в несколько раз чаще, чем все остальные слова языка. Кстати, это справедливо не только для русского, но и для любого другого языка. Закону подчиняются даже древние языки, которые нам все еще не удалось расшифровать. Текст этого сайта тоже подчиняется закону.



Убедитесь сами


Введите любой большой текстовое поле ниже, чтобы узнать распределение частотности слов в этом тексте. В качестве эксперимента можно даже попробовать ввести текст на английском. Самое популярное английское слово — «the».



На графике видно, что распределение даже в этом относительно небольшом тексте почти такое же, как и во всем русском языке: «и» на первом месте, «в» — на втором, и так далее.



Источники


  1. Частотный список взят с сайта http://bokrcorpora.narod.ru/frqlist/frqlist.html.
  2. Проект вдохновлен Wordcount (устарел на данный момент).
  3. Подробное видео Vsause о законе Ципфа.
  4. Закон Ципфа на Wikipedia.

Мэйд виз ❤️ бай Миша Саидов

Телеграм-канал Другие проекты
Купить мне кофе ☕