google-site-verification: googlebc47d07320294fb4.html

TW-BERT: End-to-end query term weighting and the future of Google Search

Search is hard, as Seth Godin wrote in 2005.

I mean, if we think SEO is hard (and it is) imagine if you were trying to build a search engine in a world where:

  • The users vary dramatically and change their preferences over time.
  • The technology they access search advances every day.
  • Competitors nipping at your heels constantly.

On top of that, you’re also dealing with pesky SEOs trying to game your algorithm gain insights into how best to optimize for your visitors.

That’s going to make it a lot harder.

Now imagine if the main technologies you need to lean on to advance came with their own limitations – and, perhaps worse, massive costs.

Well, if you’re one of the writers of the recently published paper, “End-to-End Query Term Weighting” you see this as an opportunity to shine.

What is end-to-end query term weighting?

End-to-end query term weighting refers to a method where the weight of each term in a query is determined as part of the overall model, without relying on manually programmed or traditional term weighting schemes or other independent models.

What does that look like?

All Marketers Are Liars

Here we see an illustration of one of the key differentiators of the model outlined in the paper (Figure 1, specifically).

On the right side of the standard model (2) we see the same as we do with the proposed model (4), which is the corpus (full set of documents in the index), leading to the documents, leading to the terms. 

This illustrates the actual hierarchy into the system, but you can casually think of it in reverse, from the top down. We have terms. We look for documents with those terms. Those documents are in the corpus of all the documents we know about.

To the lower left (1) in the standard Information Retrieval (IR) architecture, you’ll notice that there is no BERT layer. The query used in their illustration (nike running shoes) enters the system, and the weights are computed independently of the model and passed to it.

In the illustration here, the weights are passing equally among the three words in the query. However, it does not have to be that way. It’s simply a default and good illustration. 

What is important to understand is that the weights are assigned from outside the model and entered it with the query. We’ll cover why this is important momentarily.

If we look at the term-weight version on the right side, you’ll see that the query “nike running shoes” enters BERT (Term Weighting BERT, or TW-BERT, to be specific) which is used to assign the weights that would be best applied to that query.

From there things follow a similar path for both, a scoring function is applied and documents are ranked. But there’s a key final step with the new model, that is really the point of it all, the ranking loss calculation.

This calculation, which I was referring to above, makes the weights being determined within the model so important. To understand this best, let’s take a quick aside to discuss loss functions, which is important to really understand what’s going on here.

What is a loss function?

In machine learning, a loss function is basically a calculation of how wrong a system is with said system trying to learn to get as close to a zero loss as possible.

Let’s take for example a model designed to determine house prices. If you entered in all the stats of your house and it came up with a value of $250,000, but your house sold for $260,000 the difference would be considered the loss (which is an absolute value).

Across a large number of examples, the model is taught to minimize the loss by assigning different weights to the parameters it is given until it gets the best result. A parameter, in this case, may include things like square feet, bedrooms, yard size, proximity to a school, etc.

Now, back to query term weighting

Looking back at the two examples above, what we need to focus on is the presence of a BERT model to provide the weighting to the terms down-funnel of the ranking loss calculation. 

To put it differently, in the traditional models, the weighting of the terms was done independent of the model itself and thus, could not respond to how the overall model performed. It could not learn how to improve in the weightings.

In the proposed system, this changes. The weighting is done from within the model itself and thus, as the model seeks to improve it’s performance and reduce the loss function, it has these extra dials to turn bringing term weighting into the equation. Literally.

ngrams

TW-BERT isn’t designed to operate in terms of words, but rather ngrams.

The authors of the paper illustrate well why they use ngrams instead of words when they point out that in the query “nike running shoes” if you simply weight the words then a page with mentions of the words nike, running and shoes could rank well even if it’s discussing “nike running socks” and “skate shoes”.

Traditional IR methods use query statistics and document statistics, and may surface pages with this or similar issues. Past attempts to address this focused on co-occurrence and ordering.

In this model, the ngrams are weighted as words were in our previous example, so we end up with something like:

Core

On the left we see how the query would be weighted as uni-grams (1-word ngrams) and on the right, bi-grams (2-word ngrams).

The system, because the weighting is built into it, can train on all the permutations to determine the best ngrams and also the appropriate weight for each, as opposed to relying only on statistics like frequency.

Zero shot

An important feature of this model is its performance in zero-short tasks. The authors tested in on:

  • MS MARCO dataset – Microsoft dataset for document and passage ranking
  • TREC-COVID dataset – COVID articles and studies
  • Robust04 – News articles
  • Common Core – Educational articles and blog posts

They only had a small number of evaluation queries and used none for fine-tuning, making this a zero-shot test in that the model was not trained to rank documents on these domains specifically. The results were:

Godin

It outperformed in most tasks and performed best on shorter queries (1 to 10 words).

And it’s plug-and-play!

OK, that might be over-simplifying, but the authors write:

“Aligning TW-BERT with search engine scorers minimizes the changes needed to integrate it into existing production applications, whereas existing deep learning based search methods would require further infrastructure optimization and hardware requirements. The learned weights can be easily utilized by standard lexical retrievers and by other retrieval techniques such as query expansion.”

Because TW-BERT is designed to integrate into the current system, integration is far simpler and cheaper than other options.

What this all means for you

With machine learning models, it’s difficult to predict example what you as an SEO can do about it (apart from visible deployments like Bard or ChatGPT).

A permutation of this model will undoubtedly be deployed due to its improvements and ease of deployment (assuming the statements are accurate).

That said, this is a quality-of-life improvement at Google, that will improve rankings and zero-shot results with a low cost.

All we can really rely on is that if implemented, better results will more reliably surface. And that’s good news for SEO professionals.

The post TW-BERT: End-to-end query term weighting and the future of Google Search appeared first on Search Engine Land.

Original source: https://searchengineland.com/tw-bert-end-to-end-query-term-weighting-google-search-431907

42 thoughts on “TW-BERT: End-to-end query term weighting and the future of Google Search”

  1. [url=https://frespinn.fun] Играть в казино[/url]
    Способ получить бездепозитные бонусы казино

    Индустрия онлайн-гемблинга frespinn.fun стремительно развивается. Еще несколько лет назад игроки довольствовались большим выбором игровых автоматов и других приложений. Сегодня ситуация коренным образом изменилась. В Интернете можно найти не только казино с бонусами за регистрацию. Благодаря отделу маркетинга игрового института игроков ждет множество подарков. Как насчет бесплатных вращений или дополнительных кредитов? Простая регистрация разделяет бесплатные спины и деньги.

    Для получения различных бонусов достаточно зарегистрироваться на сайте. Для этого заполните форму, указав реальные данные, логин, пароль, e-mail или воспользуйтесь кнопками быстрого входа. Все, что вам нужно, это страница в одной из популярных социальных сетей – Вконтакте, Твиттер, Фейсбук. Теперь вы можете зарегистрироваться на сайте и получить бездепозитный бонус за регистрацию в казино.

  2. [url=https://bezdepozitniebonusicasino.website] Бездепозитные бонусы в казино[/url]

    [url=https://bezdepozitniebonusicasino.website] Фриспины[/url]

    [url=https://bezdepozitniebonusicasino.website] Бонусы в казино[/url]

    [url=https://bezdepozitniebonusicasino.website] Промокоды в казино[/url]

    [url=https://bezdepozitniebonusicasino.website] Играть в казино[/url]

  3. [url=https://top10casino.website/] Бездепозитные бонусы в казино: лучшие бездепы 2023-2024[/url]
    Бездепы по праву считаются самой желанной разновидностью промо-акций в онлайн-казино. Причина проста – игроку не нужно вносить реальные деньги на баланс и тем самым подвергать свой капитал риску. В плюсе оказывается и игровая площадка, ведь ей удается заинтересовать потенциального клиента, который впоследствии может проявлять много активности.
    Например, пользователь может получить 500 рублей или 100 бесплатных вращений за обычное прохождение регистрации, после чего сможет воспользоваться подарочными средствами в любимых развлечениях. Более того, после отыгрыша любое вознаграждение можно благополучно вывести на банковскую карту, электронный кошелек или криптой.
    На текущей странице собраны актуальные предложения по бездепозитным бонусам на 2023-2024 годы. Игрок может выбрать наиболее предпочтительное предложение, перейти на официальный сайт онлайн-казино и выполнить действие. Как правило, для регистрации достаточно указать email, придумать пароль и выбрать валюту. Зачастую операторы казино в качестве бездепов начисляют фриспины в популярные слоты: Book of Dead, Razor Shark, Space Wars.

  4. [url=https://bezdepozitniebonusicasino.website] Бездепозитные бонусы в казино: лучшие бездепы 2023-2024[/url]
    Бездепы bezdepozitniebonusicasino.website по праву считаются самой желанной разновидностью промо-акций в онлайн-казино. Причина проста – игроку не нужно вносить реальные деньги на баланс и тем самым подвергать свой капитал риску. В плюсе оказывается и игровая площадка, ведь ей удается заинтересовать потенциального клиента, который впоследствии может проявлять много активности.
    Например, пользователь может получить 500 рублей или 100 бесплатных вращений за обычное прохождение регистрации, после чего сможет воспользоваться подарочными средствами в любимых развлечениях. Более того, после отыгрыша любое вознаграждение можно благополучно вывести на банковскую карту, электронный кошелек или криптой.
    На текущей странице собраны актуальные предложения по бездепозитным бонусам на 2023-2024 годы. Игрок может выбрать наиболее предпочтительное предложение, перейти на официальный сайт онлайн-казино и выполнить действие. Как правило, для регистрации достаточно указать email, придумать пароль и выбрать валюту. Зачастую операторы казино в качестве бездепов начисляют фриспины в популярные слоты: Book of Dead, Razor Shark, Space Wars.

  5. Рассматривая понятие инвестиционной деятельности, следует знать, что законом допускается совмещение функций нескольких субъектов. К примеру, инвестор имеет возможность самостоятельно реализовывать проект, а также получать от него прибыль.
    Период первоначальных инвестиционных затрат, в котором еще нет притоков от операционной деятельности, принимается за нулевой.
    9. Министерство Российской Федерации по развитию Дальнего Востока не позднее 10 календарных дней со дня поступления доработанных проектов инвестиционных программ согласовывает инвестиционные программы или направляет мотивированный отказ в их согласовании.
    Keywords: innovative project; the formation scheme; balanced set of investment projects; a set of stages of the investment and innovation project.
    Бонд – облигации (от англ. «Bond»). Облигации выпускают государство, корпорации, в том числе и банки. Инвестор может купить бонды банка и получать с них купонный доход.

    Интересная статья посвящена торговле на форекс вместе с советниками https://telegra.ph/Kak-skalping-stal-populyarnoj-strategiej-na-rynke-Foreks-istoriya-i-sushchnost-09-04
    180. Моисеева Н.К. Управление маркетингом: теория, практика, информационные технологии. Учебное пособие. М: Изд-во «Финансы и статистика», 2004 г.
    Практические рекомендации: Применение системы сбалансированного развития инновационной и инвестиционной деятельности промышленной корпорации позволяет эффективно использовать имеющиеся в наличии ресурсы и рационально реструктуризировать или свернуть инновационный проект в случае резкого ухудшения внешних условий, таких как современный системный финансовый кризис. Своевременная реструктуризация инновационного проекта дает возможность сохранить структуру и инвестиционные возможности промышленной корпорации и довести до успешного завершения инновационный проект от нематериальной идеи до создания производственных мощностей нового поколения.
    Липецкая область обеспечивает равные условия, как для российских, так и для иностранных инвесторов.
    В основе расчета этих коэффициентов лежат дисконтные способы, основанные на принципах временной денежной стоимости. Как правило, ставкой дисконтирования становится величина средневзвешенной стоимости капитала WACC, которая может корректироваться на показатели возможного риска (если возникает такая необходимость).
    Портал ведется на двух языках (русский и английский).

Leave a Reply

Your email address will not be published. Required fields are marked *

+ +