Разделы дневника

MadWin [7]
Основная проблематика связанная с программой и исследования на ее основе
Слова "паразиты" [2]
Поиск, извлечение, анализ слов "паразитов"
Сайт [1]
Записи по поводу сайта и изменений на нем
Бизнес [3]
Видение бизнеса при помощи разработок нашей команды
Культура и досуг [7]
неотъемлемая часть нас любого исследователя и ученого
Глобализация [4]
Проблемы глобализации общества
Информационная экология [3]

Форма входа

Календарь

«  Декабрь 2008  »
ПнВтСрЧтПтСбВс
1234567
891011121314
15161718192021
22232425262728
293031

Друзья сайта




Онлайн всего: 1
Гостей: 1
Пользователей: 0


Четверг, 2024-11-28, 11:31 PM
Приветствую Вас Гость | RSS
Автоматизований інформаційний аналіз
Главная | Регистрация | Вход
Блог информационного исследователя


Главная » 2008 » Декабрь » 7 » Одно из самых сложных заданий - поиск слов "Паразитов"
Одно из самых сложных заданий - поиск слов "Паразитов"
1:40 PM
     Наверное нету ничего более сложного чем на эапе пре-лингвистического анализа научится отбирать слова которые несут большую информативность или меньшею. В этом разделе блога я по нимного постараюсь преодкрыть завесу тайны над существующими методами и алгоритмами которые Вы сможете использовать самостоятельно.
    Но все по порядку и начнем мы с малого и простого. Наш первый метод будет давольно банальным и основыватся на обычном подсчете числа вхождений того или иного слова в текст(под вхождением подразумивается число раз которое слово встречается в тексте). Разумеется для этого необходимо описать что такое слово и как его сравнивать. К примеру у нас в одном месте текста встречается слово Кот, а в другом месте слово Кота, это одно слово или разные? Но об этом тоже позднее.
   Возвращаемся к нашим баранам. Для текста в котором необходимо отсеять слова-паразиты експертным методом выберается другой текст схожей тематики(т.е. мы уже видим громосткость этого метода необходимостью подключения експерта). Далее из обоих текстов выбераем 5% слов которые встречаются чаще всего. Получаем два множества слов, одно из нашего текста, другое из експертно выбраного текста. Анализируем эти два множества на пересикаемость. В случае если какие либо слова садержутся в двух множествах одновременно, эти слова считаются словами "паразитами"...
   Вот такой простой, однако грамозткий и во многом проблематичный для конкретной реализации, алгоритм мы рассмотрели. У кого по нему возникнут дополнительный вопросы прошу пишите мне в личку.
Категория: Слова "паразиты" | Просмотров: 1184 | Добавил: analiz | Рейтинг: 0.0/0 |
Всего комментариев: 0
Имя *:
Email *:
Код *:

Copyright MyCorp © 2024