Наверное нету ничего более сложного чем на эапе пре-лингвистического анализа научится отбирать слова которые несут большую информативность или меньшею. В этом разделе блога я по нимного постараюсь преодкрыть завесу тайны над существующими методами и алгоритмами которые Вы сможете использовать самостоятельно.
Но все по порядку и начнем мы с малого и простого. Наш первый метод будет давольно банальным и основыватся на обычном подсчете числа вхождений того или иного слова в текст(под вхождением подразумивается число раз которое слово встречается в тексте). Разумеется для этого необходимо описать что такое слово и как его сравнивать. К примеру у нас в одном месте текста встречается слово Кот, а в другом месте слово Кота, это одно слово или разные? Но об этом тоже позднее.
Возвращаемся к нашим баранам. Для текста в котором необходимо отсеять слова-паразиты експертным методом выберается другой текст схожей те
...
Читать дальше »