Optimization 2019: Как работать с новенькими текстовыми факторами | Статьи SEOnews » PHP Hyper — AI-платформа для проектирования программных систем и подготовки технических заданий

Алексей Чекушин про «Палех», «Королев», BERT и о том, как делать текст, который полюбит поиск

Драгоценная Редакция 30 октября свершилась ежегодная конференция по поисковому маркетингу Optimization 2019.

В рамках секции о текстовых факторах выступил Алексей Чекушин, основоположник Just-Magic.org. Он поведал о «Технологии текстового контента»: как поиск ранжирует тексты и умеет ли осмысливать смысл, как работают «Палех», «Королев» и BERT и что делать с новенькими технологиями.

Поисковые системы утверждают: «Пишите тексты для жителей нашей планеты не делайте SEO-тексты». По словам Алексея, ежели бы мы жили в вакуумном мире, где развита обработка природного языка (Natural Language Processing, NLP) , такое заявление было бы на 100% правильно. Поэтому что обработка природного языка не просит доп технических навыков, просто пишите превосходный текст. Но до такового уровня поиск еще не дошел лет на 5–10 точно и плавненько к этому движется. Ежели ранее главны были лишь ключевые вхождения (keywords) , то на данный момент поиск находится на середине пути к пониманию природного языка, а означает, без технической оптимизации текстов обойтись пока невероятно.

Как поиск расценивает тексты:

Причины ранжирования

- Текстовые причины (classic) ;

- New-gen текстовые причины;

- Поведенческие причины.

Антиспам

С какими величинами работает поиск?Причины «классические»

Мешок слов – процесс, когда все слова из текста просто вытряхнули, перемешали и пересчитали. На этом шаге уничтожается вся информация о связности текста. При всем этом 97% слов просто выбрасываются, поэтому что не могут рассматриваться.

Биграммы – пары слов. Они извещают, какие слова идут друг за ином.

При всем этом пропадает информация о расположении слов и о словах, не содержащихся в запросе. Синонимы есть, но это чрезвычайно малюсенькое расширение, которое, по словам докладчика, слабо работает. Даже примитивные синонимы, как, к примеру, «мобильные телефоны» и «сотовые телефоны», могут оказаться не обоюдными. Синоним исходя из убеждений поиска – это вектор, и он быть может не двунаправленным, даже ежели для нас – это явные синонимы.

Какие трудности при работе с ими?

Машинное обучение. Ежели ранее был обычный метод – «спамить побольше», то с появлением машинного обучения стало необходимо влезать в спектры по ключевикам. Эти спектры непонятны, и оптимизация сводится к чисто техническому угадыванию.
Пробы технического угадывания натыкаются на великое обилие результатов в выдаче.
Воздействие иных причин, большая часть их которых отсечь невероятно.
Иные текстовые (текст не ограничивается вхождениями) .

Что с сиим делать

Используем текстовые анализаторы, которые демонстрируют данные по вхождениям различных ключей на страничках сайтов-конкурентов.

Что поменялось с появлением новейших алгоритмов?Стал различаться принцип работы:

Оптимизаторам стало наименее главно точно затачивать странички по ключевым вхождениям.
Стал главен отбор запросов для анализа группы. «Палех» и «Королев» изменили верховодило ранжирования сортировок.
Сейчас оптимизироваться может НЕ текст.

Новое поколение текстовых факторов

DSSM – «Палех»/«Королев»;
BERT.

Как два метода недалеки к NLP (Natural Language Processing) ?

Что такое Палех/Цариц

DSSM – deep structured semantic model. И «Палех», и «Королев» – это один метод, который работает с различными зонами. Чем он оперирует:

буквенными триграммами,
словами,
парами слов.

Как бы то же самое?Но есть принципиальная разница:

В оценку идут все слова, но не совершенно лишь содержащиеся в запросе. Ежели ранее при сборе «мешка слов» 97% слов выкидывали, то сейчас оценивается все. Невзирая на то, что все еще пропадает информация о том, как структурирован текст, все одинаково употребляется веско больше данных.
Модель умышленно натренирована на нахождение вхождения НЕ слов и биграмм 1-го запроса.
Анализируется «важный» контент странички («Королев») . А какая часть странички и контента является главной – знаменито лишь нейросетям Яндекса.

Поиск продвинулся на 1 шаг: сейчас не пропадает информация о словах, не содержащихся в запросе. Но это еще не Natural Language Processing (NLP) .

Как это смотрится. На данный момент теснее до 40% всех запросов неповторимы, другими словами не повторяются желая бы дважды в течение всего периода наблюдений. Пример входных данных:

В анализ идут буквенные триграммы (часть слова) , униграммы (1 слово) , биграммы (2 слова, идущих подряд) .

Как это смотрится в поиске. К примеру, вводим не чрезвычайно частотный запрос, раскрывается картина, которую SEO-специалисты в высококонкурентных темах созидать не привыкли:

В запросе содержится слово «бутыль», а в выдаче «бутилированный» и «бутылка» – это не совершенно синонимы. Но имеются повторяющиеся паттерны в title, которые можнож выделять зрительно или автоматом и использовать.

По словам Алексея, были случаи, когда прибавление всего 1-го слова в title, не содержащегося в запросе не являющегося синонимом, дозволяло (на «Палехе») вытаскивать запросы из ТОП 15 в ТОП 3. Метод анонсировали издавна, но работать он начал лишь в зимний период 2018–2019 года.

Как с сиим работать. Используем методику автоматического выделения. Берем выдачу «доставка воды москва» и выделяем определенные текстовые паттерны, используя методы, которые определяют тематическую близость. Получаем биграммы, которые в запросе вообщем не содержатся.

Практика указывает, что добавление в title, тексты и иной контент странички слов, не содержащихся в запросе, но релевантных теме, позитивно сказывается на ранжировании.

Как «Палех»/«Королев» влияют на оптимизацию

Поменялись сортировки. Кто продвигает под Яндекс, знает, что сортировки слов – это самое главное при работе с контентом. Ежели ошибся на шаге сортировки, то остальное можнож не улучшить. Поменять что-либо фактически невероятно.

Стало меньше схожих слов в запросах 1-го кластера. Ранее такового разброса в конкурентных(!) темах не было.
Больше кластеры, больше НЧ на страничке.
Еще труднее стало деоптимизировать страничку. Ежели запрос повело не туда, ранее необходимо было просто убрать ключевые слова. А сейчас, так как поиск оперирует словами, которые не соединены с ключевиком, деоптимизировать стало вообщем трудно, проще смириться с сиим.

Это главный момент, который поменял регламент по оптимизации.

Что такое BERT

Это последующий шаг по сопоставлению с «Палехом»/«Королевом». Метод BERT от Google был анонсирован в 2018 году, запущен в октябре 2019. Пока обхватывает лишь британский язык и 10% запросов.

BERT – Bidirectional Encoder Representations from Transformers Bidirectional – метод «читает» текст как слева-направо, так и справа-налево.
Пробует «угадать» слово по контексту.
Имеет великое число применений (Q/A, проверка гипотез) . Ежели «Палех»/«Королев» – это просто соответствие запроса документу, то BERT может из кусочка текста, где содержится ответ, выделить сам ответ. Или может проверить догадку и т.д.

Кроме самого токена (вхождения) , BERT употребляет сектор (предложение) и безусловную позицию, которая выходит за рамки сектора.

Этот метод теснее вполне употребляет всю информацию, которая есть в тексте. Учитывает не совершенно лишь все слова, не содержащиеся в запросе, но и дозволяет не утрачивать информацию о расположении слов.

Тем не наименее для решения задачки Q/A ему надобно заблаговременно отдать ответ на этот вопросец в тексте. Сам его составить он пока не может.

Это еще не Natural Language Processing (понимание текста) . Как воздействует BERT на поиск и как под него улучшить?«Пока неизвестно», – заключил Алексей.

Презентацию доклада Алексея Чекушина вы найдете по ссылке

Занимательное с Optimization 2019:

1. Оплошности текстовых анализаторов

2. Как создать контент-стратегию для SEO и пиара за 9 шагов

3. 5 трендов поискового маркетинга от Сайруса Шепарда

4. Современные трудности SEO-специалистов

5. SEO-тренды: как пробиться в ТОП в 2020 году

6. Исследование причин ранжирования в Яндексе и Google в 2019 году

7. Что можнож использовать в Руинтернете из английского SEO

Optimization 2019: Как работать с новенькими текстовыми факторами | Статьи SEOnews