Семантично потвърдени агрегати на ключови думи

2Сред различните методи, които могат да бъдат разгледани за създаване или идентифициране на тези общности, ние избрахме да се съсредоточим върху тези, базирани на създаването на агрегати на ключови думи. Терминът, обикновено посветен на групирането на ключови думи, е терминът „клъстер“. Понятието "клъстер" се отнася както до възлите на мрежата, така и до поддържащата структура на тази мрежа. В нашия случай процесът на агрегиране, въпреки че използва обвързвания като ресурси, генерира прост списък. Ето защо предпочетохме термина агрегат. Съвкупност се определя от Bayaly и Cunny, (1986) като набор от възли, логически свързани в графика.

3 За да идентифицираме потребителски общности, основани на интереси, предлагаме да групираме ключови думи от търсенето на информация в агрегати със силна семантична последователност. Под семантична последователност имаме предвид способността на група думи да покрива полето на домейн възможно най-точно. Този списък с думи може да бъде подобен на това, което в лексикологията се нарича лексикално поле. Mel'Cuk и сътр. (1995) дават следното определение на лексикалното поле: "Лексикалното поле на семантично поле наричаме набора от думи, чиито основни лексики принадлежат към това семантично поле".

4При използването от ключовите думи, използвани по време на търсене на информация от нов потребител, ще можем (1) да идентифицираме съответните общности благодарение на така конструираните агрегати, за да (2) приближим този потребител до свързаните потребители с най-близките общности и по този начин (3) предлагат нови услуги, базирани на тези общности.

6 „Групирането“ на ключови думи е обект на много изследвания през последните години, както в класификацията (на документи, заявки, уебсайтове и т.н.), така и в информационните изследвания. Въпреки това, както посочват други автори преди нас (Shingo et al., 2006), изучаването на ключовите думи, използвани в контекста на дейностите на потребителски заявки в Интернет чрез „търговски“ търсачки (Google, Yahoo, Exalead ...) е трудно, ако не почти невъзможно, просто защото необходимите ресурси не се разпределят, защото представляват част от техния бизнес (пример: препродажба на ключови думи). Всъщност има малко публикации за изследването или дори за експлоатацията, които човек може да предложи за ключови думи, използвани в интернет търсачките. Ние обаче ще изготвим най-съвременното ниво на работа, което разглежда съвкупността от ключови думи. Първо ще обсъдим работата по групирането на ключови думи от интернет търсачките. Впоследствие ще се съсредоточим върху работата, свързана със създаването на семантично хомогенни агрегати, които са вдъхновили нашата работа.

8 Други произведения, като тези на (Cui et al., 2002) и (Fonseca et al., 2004), се опитват да създадат клъстери на ключови думи, като съпоставят ключовите думи, използвани при търсенето, с тези, предложени от върнатите URL адреси (URL, заглавие, ключови думи, цитирани в html страницата и др.) и избрани от потребителя на интернет. Този метод има същите зависимости от индексите на търсачките като предишния. В допълнение, този метод също така поставя проблема за уместността на подреждането на резултатите от търговските интернет търсачки, като реда на представяне силно влияе върху избора на сайт, предложен от потребителя.