Как поколението на естествени езици променя SEO играта - последните новини

Технологиите и техниките за генериране на съдържание, които ще представя в тази рубрика, изглеждат сякаш са излезли от научнофантастичен роман, но днес са много реални и свободно достъпни.

След като завърших експериментите по кодиране и започнах да пиша тази статия, се замислих за положителните и отрицателните последици от публичното споделяне на тази информация.

Както ще видите, днес е сравнително лесно да се произвежда машинно генерирано съдържание и качеството на поколенията се подобрява бързо.

Това ме доведе до тъжното заключение, че ще видим много повече спам резултати от преди.

За щастие наскоро Google пусна своя доклад за спам за 2019 г., който ме накара да се чувствам много комфортно.

Разглеждали ли сте някога папката си за нежелана поща? Ето как биха могли да изглеждат резултатите от търсенето без стъпките, които предприемаме за борба със спама при търсене. Нашата статия днес разглежда как работим, за да предотвратим появата на нежелана поща в резултатите от търсенето с Google https://t.co/RA4lUoDXEF

- Google SearchLiaison (@searchliaison) 9 юни 2020 г.

„Миналата година установихме, че повече от 25 милиарда страници, които намираме всеки ден, са спам. (Ако всяка от тези страници беше страница в книга, това би представлявало над 20 милиона копия на „Война и мир“ всеки ден).

Продължете да четете по-долу

Усилията ни гарантираха, че над 99% от посещенията от нашите резултати се превръщат в опит без спам.

През последните години наблюдаваме увеличаване на броя на сайтовете за нежелана поща с автоматично генерирано и изтрито съдържание, с поведение, което дразни или уврежда търсещите, като фалшиви бутони, инвазивни реклами, подозрителни пренасочвания и злонамерен софтуер. Тези сайтове често са измамни и не предлагат реална стойност за хората. През 2019 г. успяхме да намалим въздействието на този тип спам върху потребителите на Търсене с над 60% в сравнение с 2018 г. ″.

Докато Google съобщава за зашеметяващ брой нежелани страници на ден, той отчита впечатляващ 99% успех в потискането на спама като цяло.

Най-важното е, че те постигнаха невероятни крачки в премахването на машинно генерирано нежелано съдържание.

В тази тема ще обясня с код как компютърът е в състояние да генерира съдържание, използвайки най-новите постижения в NLG.

Ще разгледам теорията и някои насоки, за да запазите съдържанието си полезно.

Това ще ви попречи да се уловите с целия спам, който Google и Bing работят, за да премахнат 24 часа в денонощието.

Продължете да четете по-долу

Тънки страници със съдържание

В моята статия за генериране на заглавия и мета описания, аз споделих ефективна техника за обобщаване на съдържанието на дадена страница за създаване на мета тагове.

След като изпълните стъпките, можете да видите, че работи наистина добре и дори може да създаде някои висококачествени и неиздавани текстове.

Но какво, ако страниците нямат съдържание за обобщение? Техниката се проваля.

Позволете ми да ви кажа много умен трик за решаване на този проблем.

Ако тези страници имат качествени връзки, можете да използвате закотвения текст и текста около връзката като обобщен текст.

Нека се върна към 1998 г., когато беше създадена търсачката на Google.

В документа, описващ новата им търсачка, Пейдж и Брин споделиха много интересна информация в раздел 2.2.

„Повечето търсачки свързват текста на линка със страницата, на която е връзката. Освен това го свързваме със страницата, към която сочи връзката. Това има няколко предимства. Първо, котвите често предоставят по-точни описания на уеб страниците, отколкото самите страници. Второ, могат да съществуват котви за документи, които не могат да бъдат индексирани от текстово базирана търсачка, като изображения, програми и бази данни. Това прави възможно връщането на уеб страници, които всъщност не са обходени ".

Ето техническия план:

Ще получим съответните препратки и закотвени текстове, използвайки новите инструменти за уеб администратори на Bing.
Ще изстъргваме околния текст от връзки с най-високо качество.
Ще създаваме резюмета и дълго съдържание, като използваме надраскан текст.

Отчет за инструменти на Bing за уеб администратори

Една от характеристиките, които харесвам в новия инструмент за проследяване на BWT, е, че той може да предоставя връзки не само към вашия собствен сайт, но и към други сайтове.

Очаквам това да се превърне в популярна и безплатна алтернатива на платените инструменти.

Експортирах CSV файла с големия списък с връзки и анкери, но когато се опитах да го заредя с помощта на Python pandas, открих редица проблеми с форматирането.

Продължете да четете по-долу

Случайните закотвени текстове могат да включват запетаи и да причиняват проблеми с файл, разделен със запетая.

Реших ги, като отворих файла в Excel и го запазих като Excel.

Издраскване на околния текст с python

Както можете да видите от горната екранна снимка, много от котвата са доста кратки.

Можем да надраскаме страниците, за да получим абзаца, който ги съдържа.

Първо, нека да заредим отчета, който сме експортирали от BWT.

Разгледах целевия URL адрес въз основа на броя на използваните входящи връзки.

Издърпах препратките от една от страниците, за да тествам идеята, използвайки този код.

Продължете да четете по-долу

Сега нека видим как можем да използваме целеви URL и обратна връзка за извличане на съответния котва текст, който включва котвата.

Извличане на текстове от препратки

Първо, нека инсталираме заявки-html.

За да улесня кода, ще създам ръчно CSS селектор, за да въведа текста около връзката.

Не е трудно да се изчисли, като се има предвид връзката и котвата на страницата, използвайки JavaScript или Python код.

Може би е добра идея да опитате като домашна работа.