Гарвардский профессор-лингвист Джордж Ципф установил, что частота использования n-го наиболее часто используемого слова в естественных языках приблизительно обратно пропорциональна n.
Лингвисты всё ещё спорят, является ли это общим законом или просто статистическим артефактом. Исследование 50 языков, проведённое учёными из Пекина, подтвердило, что Закон Ципфа является универсальной особенностью распределения частот слов в естественных языках, а не статистической ошибкой низкочастотных слов. Закон обусловлен когнитивными механизмами: человеческий мозг обрабатывает простые слова интуитивно, тогда как обработка редких задействует более сложное мышление. Среднечастотные слова обрабатываются комбинацией этих способов.
Tagged in: Обработка естественного языка