Як працює Пошук Google?

Як працює Пошук Google, основні алгоритми оновлення



В наш час пошукові системи, зокрема Google, нагадують «вітрину» Інтернету і є найбільш важливим каналом поширення інформації в цифровому маркетингу. З допомогою глобальної ринкової частки, яка складає більше 65% за даними за січень 2016 року, Google явно домінує в пошуковій індустрії. Хоча компанія офіційно не розкриває ступінь свого зростання, до 2012 року було підтверджено, що їх інфраструктура обслуговує близько 3 мільярдів пошукових запитів в день.

Google.com глобально зайняв звання сайту номер 1 в Alexa Top 500 Global Sites. Враховуючи ці цифри, власникам власних веб-сторінок особливо важливо мати хорошу видимість своїх сайтів пошуковою системою.

Але не дивлячись на таку загальну популярність Google, чи знаєте ви, як він дійсно працює і що це за панди, пінгвіни, калибри?

Чим потрібніше стає Google для сучасного маркетингу, тим важливіше розуміти функції пошуку і алгоритми оновлень, які безпосередньо впливають на ранжирування результатів. Moz припускає, що Google змінює свої алгоритми за 600 разів за рік. Багато з цих змін і пов'язані з ними фактори ранжирування тримаються в секреті. І тільки про великих оновлення оголошують публічно.

У цій статті ми розглянемо основи функціональності пошукової системи і пояснимо основні оновлення алгоритму Google, починаючи з 2011 року. Виведемо також стратегії, слідуючи яким можна йти в ногу із змінами пошукової системи. Так що читайте далі…

Як працює Google?
Своєю появою пошукові системи геть змінили звичний для нас спосіб збору інформації. Чи цікавить вас оновлення даних фондового ринку або ви хочете знайти кращий ресторан в районі, або пишете академічний звіт про Ернеста Хемінгуея — пошуковик дасть відповідь на всі запити. У 80 роки відповіді на питання зажадали б відвідин місцевої бібліотеки. Тепер же все вирішується протягом мілісекунди з використанням алгоритмічних повноважень пошуковика.

В цьому відношенні головна мета пошукової системи полягає в тому, щоб максимально швидко знайти доречну і актуальну інформацію, як відповідь на введені пошукові терміни, також звані ключовими словами. Тому центральним аспектом для будь-якої пошукової системи, яка бажає видати справді корисний результат, є поняття мети пошуку, того, як саме люди шукають.

Результат роботи Google можна порівняти з інтернет-каталогом, відібраних за допомогою рейтингової системи на основі алгоритмів. Більш конкретно алгоритм пошуку можна описати як «знаходження елемента з заданими властивостями серед списку елементів».



Тепер Давайте докладніше розглянемо залучені процеси сканування, індексування та позиціонування.

Сканування
Сканування може бути описано, як автоматизований процес систематичного вивчення загальнодоступних сторінок в Інтернеті. Простіше кажучи, під час цього процесу Google виявляє нові або оновлені сторінки і додає їх в свою базу. Для полегшення роботи він використовує спеціальну програму. «Googlebots» (можна зустріти альтернативні назви: «боти» або «роботи») відвідують список URL-адрес, отриманих у процесі минулого сканування і доповнених даними карти сайту, яку надають веб-майстра і аналізують їх зміст. При виявленні посилань на інші сторінки під час відвідування сайту, боти також додають їх в свій список і встановлюють систематичні зв'язки. Процес сканування відбувається на регулярній основі з метою виявлення змін, вилучення «мертвих» посилань і встановлення нових взаємозв'язків. І це при тому, що тільки за даними на вересень 2014 року налічується близько мільярда веб-сайтів. Можете собі уявити складність такого завдання? Тим не менш, боти не відвідують абсолютно кожен сайт. Щоб потрапити в список перевіряються, веб-ресурс повинен бути розглянутий, як досить важливий.

Індексація
Індексація — процес збереження отриманої інформації в базі даних у відповідності з різними факторами для подальшого отримання інформації. Ключові слова на сторінці, їх розташування, мета-теги і посилання представляють особливий інтерес для індексації Google.

Для того щоб ефективно зберігати інформацію про мільярди сторінок в базі даних пошукової системи Google використовує великі центри обробки даних в Європі, Азії, Північній і Південній Америці. В цих центрах, як було підраховано, на основі енергоспоживання Google в 2010 році, працює близько 900,000 серверів.

Основна мета процесу індексації: швидко реагувати на пошуковий запит користувача. Саме його ми і будемо обговорювати на наступній стадії.

Обробка
Коли користувач вводить запит, Google виробляє в базі даних пошук, підходить під умови та алгоритмічно визначає актуальність змісту, що виводить до певного рейтингу серед знайдених сайтів. Логічно, що результати, які вважаються більш релевантними для користувача пошукової системи, навмисно отримують більш високий ранг, ніж результати, які мають менше шансів забезпечити адекватну відповідь.



Хоча Google і не випустив офіційних даних про це, компанія підтверджує, що використовує понад 200 факторів для визначення значущості та значущості конкретної сторінки.

Природно, всім веб-розробникам важливо знати, які чинники ранжирування, які впливають на позицію сторінки в пошуковій видачі. Іноді Google дає певні натяки, оголосивши важливі зміни в оновленнях своїх алгоритмів.

Всі вищеописані процеси сканування, індексування і позиціонування можна зобразити за допомогою такої схеми:



Тепер, коли у вас є базове розуміння того, як працює Google, розглянемо основні оновлення алгоритмів пошуку, починаючи з 2011 року.

Оновлення алгоритмів починаючи з 2011

Як ви самі розумієте, Google ніколи не буде публічно розкривати свої алгоритми пошуку та фактори ранжирування результатів. Це було б рівнозначно тому, щоб компанія Coca-Cola викладала рецепти своєї знаменитої газованої води в Інтернет. Тим не менш, Google бажає покращувати рівень досвіду і забезпечувати найкращі результати пошуку. Для того, щоб зменшити впроваджуваний контент в результатах пошуку, компанія хоче поінформувати веб-майстрів про те, коли і як змінилися головні стандарти якості відбору. Тому цілком ймовірно, що перед проведенням великого оновлення алгоритму, піде анонс на Google Webmaster Central Blog.

Отже, давайте розглянемо основні оновлення, які були здійснені, починаючи з 2011 року:

Panda
Оновлення Panda вперше було представлено в кінці лютого 2011 року. Після було випущено чимало його апдейтів, на даний момент поточна версія: 4.2. Оновлення можна розглядати як значне поліпшення алгоритму пошуку, тому що воно націлене на підвищення якості контенту веб-сайтів. Основна ідея полягає в тому, що оригінальні сайти з авторським контентом в пошуковій системі повинні зайняти місце вище, ніж сторінки з низькою якістю, повторюють те, що вже і так відомо або ж є копіями інших сайтів. Оновлення Panda встановило новий базовий рівень стандартів якості:

  • вміст на сторінці повинно мати істотний обсяг. Більший обсяг інформації статистично займає місце вище, ніж містить менше 1500 слів;
  • інформація, представлена на сайті повинна бути оригінальною. Якщо ви просто скопіювати вміст інших веб-ресурсів, Google покарає за це;
  • зміст сайту повинен вносити щось нове до теми. Мало кому буде цікаво в сотий раз перечитувати одне й теж. Для успішного просування контент має бути те, чого немає на інших сайтах;
  • текст сайту повинен бути орфографічно і граматично правильним і ґрунтуватися на перевірених фактах;
  • якщо ви збираєтеся автоматично генерувати контент з бази даних, зміст повинен відповідати описаним стандартам.


Page Layout (Top Heavy)
Оновлення, вперше випущений в січні 2012 року, передбачає покарання сайтів, які використовують занадто багато реклами у верхній частині сторінки або роблять її надмірно агресивною, відволікає від основного змісту. Це спровоковано великою кількістю скарг від користувачів, яким було складно знайти потрібну інформацію і доводилося довго прокручувати сторінку вниз. Цим оновленням Google закликає веб-майстрів розміщувати вміст сайту в центрі уваги. У цьому відношенні велике число реклами заважає зручності засвоєння інформації.

Penguin
Був випущений у квітні 2012 року. Новий алгоритм, спрямований на боротьбу з пошуковим спамом. Сайти, які використовували спам-методи, що були значно знижені в рейтингу або зовсім видалені з нього.

Ще однією особливістю Penguin є здатність аналізувати посилальну масу.

Pirate
З оновленням Pirate, яке було введено в серпні 2012 року, Google знизив рейтинг сайтів, які порушують авторські права та інтелектуальну власність. Для вимірювання цих порушень, Google використовує систему запитів про порушення авторських прав, засновану на Digital Millenium Copyright Act. Правовласники можуть застосовувати інструмент, щоб повідомити видалити вміст сайту плагіаторів з бази даних Google.

Exact Match Domain(EMD)
Випущено в вересні 2012 року і спрямована на боротьбу з доменами, схожими на MFA.
MFA(made-for-adsense) – домен, який створений спеціально для медійної системи Google. Зазвичай такий домен призначений для якогось одного запиту (або сімейства запитів) і на ньому встановлений Google Adsense. Користувач, який потрапив на цей домен, не бачить нічого, крім реклами і в результаті або закриває сайт, або переходить далі по контекстному оголошенню. Після випуску алгоритму EMD, сайти, що містять в доменному імені запит, були вилучені або дуже істотно знижені в рейтингу.

Payday Loan
Випущений в червні 2013 року і спрямований на зменшення сторінок, які містять переспамленние запити. Такі запити часто використовуються веб-майстрами для просування сторінок певної тематики.

Оновлення було запущено у зв'язку з численними скаргами, в яких говорилося, що навіть після впровадження Panda і Penguin чистота видачі залишала бажати кращого.

Розглянемо це оновлення на звичайному прикладі. Припустимо, вам потрібно купити двері. Якщо ввести запит, Google видасть фотографії дверей. З них: 2-3 сторінки, де безпосередньо можна купити двері, 3-4 сайту компаній-виробників дверей і 2-3 сайту про те, як вибрати і поміняти двері. Якщо б не було оновлення Payday Loan, ви б побачили 15-20 запитів на одну тематику (наприклад, де купити двері).
Критерії, за якими відбувається відбір таких сайтів Google розкривати не хоче, але цей алгоритм явно спростив життя користувачам пошукової системи.

Hummingbird
З вересня 2013 року Google реалізував заміну алгоритму пошуку, яка була названа Hummingbird. Основні оновлення, як Panda і Penguin, були інтегровані з цим новим алгоритмом. Ім'я Hummingbird вибрали в якості синоніма для опису гнучкості, точності і швидкості нового оновлення.

Замість того, щоб повертати точні відповіді на запити, використовуючи введені користувачем ключові слова (як це було раніше), Google інтерпретує наміри і контекст пошуку. Мета полягає в тому, щоб зрозуміти сенс пошукового запиту користувача і повертати відповідні результати. Це означає, що точні збіги ключових слів стають менш важливими на користь пошуку наміри. Як приклад: якщо ви вводите запит «погода», то навряд чи очікуєте отримати повне пояснення самого терміна. Скоріше в даному випадку маються на увазі погодні умови. Щось на зразок:



Pigeon
Оновлення Pigeon вперше випущено в липні 2014 року. Основна увага в ньому приділяється результатам геозависимого пошуку. Відстань і розташування користувача є ключовими параметрами ранжирування, щоб забезпечити точність результату. Це оновлення тісно пов'язане з Google Maps. Наприклад:



Mobilegeddon
Було випущено у квітні 2015 року. Це оновлення впливає тільки на мобільний пошук, воно дає перевагу сторінок, дружнім до мобільних пристроїв.

В поточному стані, оновлення не впливає на результати пошуку зі стаціонарних комп'ютерів або планшетів. На відміну від Panda або Penguin, алгоритм працює в режимі реального часу.

Існує спеціальний тест, за допомогою якого веб-майстри можуть перевірити сумісність свого сайту з мобільними пристроями. Також можна використовувати звіти про мобільному юзабіліті в Google Webmaster Tools, тільки вони можуть працювати з затримкою.

Як йти в ногу зі змінами алгоритмів?
Обговорення основних оновлень алгоритмів за останні роки, ймовірно ставить перед вами питання, як не відставати від цих змін? Основне завдання Google — постійно рухатися в напрямку забезпечення найвищої якості та надійності відповідей на запити. У той час як технічні особливості можуть модифікуватися, широка стратегія навряд чи зміниться.

Оскільки поведінка людини постійно змінюється, завдання Google також адаптувати свої алгоритми згідно змінам. Приміром, «Mobilegeddon» було введено в якості реакції на зростаючу тенденцію пошуків з мобільних пристроїв.

Головне — це розуміння того, хто ваші клієнти. Зосередженість на реальних потребах цих клієнтів має фундаментальне значення для того, щоб іти в ногу зі змінами.

Отже, якщо ви — веб-програміст, вам особливо важливо бути в курсі змін алгоритмів пошуку Google. Ось підбірка декількох корисних ресурсів, які можуть допомогти вам залишатися в курсі подій:

Google Webmaster Central Blog — ваш головний джерело для офіційних новин і оновлень, на ньому досить часто вперше оголошували про алгоритмічних зміни.

Moz Google Algorithm Change History — у цій базі даних Moz опублікував кожне з помітних змін алгоритму і оновлень починаючи з 2000 року.

Search Engine Land – один з найбільш важливих онлайн журналів для SEO і SEM. В ньому є цілий розділ про оновлення алгоритмів Google з відповідними статтями.

Search Engine Roundtable – також включає в себе цікавий розділ про оновлення алгоритмів.

Mozcast — це візуальне уявлення про зміни алгоритмів у вигляді зведення погоди.

Algoroo — інструмент, який відстежує результати пошуку коливання навколо 17000 ключових слів у зв'язку зі зміною алгоритму. Дуже корисний сайт для виявлення негайних оновлень.

Зберігаючи традицію. Ось тут можна знайти джерело.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.