Одно из самых сложных заданий - поиск слов "Паразитов" - 07 Декабря 2008 - Блог информационного исследователя

Main
Web Private Detective
Forum
Information
- Articles
- Blog
- Links
Mini Games
- Earth
- Sea
- Egypt
- Piramides
- Books
Contacts

Поиск по сайту:

Разделы дневника

MadWin [7]

Основная проблематика связанная с программой и исследования на ее основе

Слова "паразиты" [2]

Поиск, извлечение, анализ слов "паразитов"

Сайт [1]

Записи по поводу сайта и изменений на нем

Бизнес [3]

Видение бизнеса при помощи разработок нашей команды

Культура и досуг [7]

неотъемлемая часть нас любого исследователя и ученого

Глобализация [4]

Проблемы глобализации общества

Информационная экология [3]

Форма входа

Календарь

Друзья сайта

Онлайн всего: 1

Гостей: 1

Пользователей: 0

	Суббота, 2025-07-05, 11:11 PM
	Приветствую Вас Гость \| RSS
	Автоматизований інформаційний аналіз
	Главная \| Регистрация \| Вход

Блог информационного исследователя

Главная » » Одно из самых сложных заданий - поиск слов "Паразитов"

Одно из самых сложных заданий - поиск слов "Паразитов"	1:40 PM
Наверное нету ничего более сложного чем на эапе пре-лингвистического анализа научится отбирать слова которые несут большую информативность или меньшею. В этом разделе блога я по нимного постараюсь преодкрыть завесу тайны над существующими методами и алгоритмами которые Вы сможете использовать самостоятельно. Но все по порядку и начнем мы с малого и простого. Наш первый метод будет давольно банальным и основыватся на обычном подсчете числа вхождений того или иного слова в текст(под вхождением подразумивается число раз которое слово встречается в тексте). Разумеется для этого необходимо описать что такое слово и как его сравнивать. К примеру у нас в одном месте текста встречается слово Кот, а в другом месте слово Кота, это одно слово или разные? Но об этом тоже позднее. Возвращаемся к нашим баранам. Для текста в котором необходимо отсеять слова-паразиты експертным методом выберается другой текст схожей тематики(т.е. мы уже видим громосткость этого метода необходимостью подключения експерта). Далее из обоих текстов выбераем 5% слов которые встречаются чаще всего. Получаем два множества слов, одно из нашего текста, другое из експертно выбраного текста. Анализируем эти два множества на пересикаемость. В случае если какие либо слова садержутся в двух множествах одновременно, эти слова считаются словами "паразитами"... Вот такой простой, однако грамозткий и во многом проблематичный для конкретной реализации, алгоритм мы рассмотрели. У кого по нему возникнут дополнительный вопросы прошу пишите мне в личку.
Категория: Слова "паразиты" \| Просмотров: 1201 \| Добавил: analiz \| Рейтинг: 0.0/0 \|

Всего комментариев: 0