Історія розвитку пошукових систем. Пошукові системи в Росії та закордонні пошукові системи (Google, Yahoo, AltaVista та ін): подібності, відмінності, особливості просування Кількісні дані пошукової системи Google

Історія розвитку пошукових систем. Пошукові системи в Росії та закордонні пошукові системи (Google, Yahoo, AltaVista та ін): подібності, відмінності, особливості просування Кількісні дані пошукової системи Google

У перші роки розвитку інтернет спільноти активні інтернет користувачі були меншістю, а обсяг інформації на інтернет ресурсах порівняно невеликим. Доступ до світової інформаційної мережі мали здебільшого лише працівники наукових лабораторій та великих навчальних закладів. У цілому нині використання мережного ресурсу був настільки актуально, проти сьогоднішнім днем.

Історія розвитку пошукових систем

Великим кроком у бік поширення інтернету у маси стала поява у 1990 році сайту info.centr.ch. Цей сайт був першим загальнодоступним каталогом інтернет сайтів. Творцем є вчений із Британії Тім Бернерс-Лі, який також вважається творцем URI, HTTP, World Wide Web та URL. З того моменту інтернет-сайти стали актуальними не лише у спеціалізованих колах користувачів, але й серед звичайних власників домашніх комп'ютерів. У цьому каталозі, для зручності, ресурси з інформацією були скомпоновані на основі груп за схожою тематикою, що помітно полегшувало пошук інформації.

Але прогрес на цьому не зупинився і в 1994 на світ з'являється розроблена університетом Карнегі технологія пошуку, відома як Lucos. Цей каталог, відповідальним за створення якого був Майкл Малдін, стартував із ресурсом понад 50 000 документів. У Lucos, в запитах враховували наближені збіги запиту, а результат пошуку ранжувався в залежності від збігу інформації, що вводиться і виводиться. А також йшло постійне поповнення ресурсу новими інтернет сторінками. У листопаді Lucos налічував більше 55 мільйонів сторінок і документів, набагато більше ніж у будь-якого каталогу документів того часу.

Наприкінці 1994 року з'явився ресурс Infosek. Він мав низку переваг щодо інших ресурсів. Наприклад, додавання сайтів користувачем до бази каталогу в режимі реального часу.

Новим монстром у сфері пошукових систем у 1995 році стала AltaVista. Вона швидко заслужила популярність серед інтернет користувачів та зайняла передові позиції у своїй сфері. Головною її особливістю стала можливість формулювати запити природною, розмовною мовою, а також користувачам було дозволено додавати власні URL адреси. Але все ж основною заслугою AltaVista була підтримка множинних мовних пакетів, таких як корейська, японська, і китайська, а також російська.

Величезним кроком у пошукових технологіях стала поява на просторах інтернету нової пошукової системи, назва якої на сьогоднішній день на слуху кожного користувача, а саме Google. У 1997 році Л. Пейдж і С. Брін зі Стенфордського університету впровадили в пошукові алгоритми свого дітища нові можливості. У пошуку використовувалися системи релевантності результатів пошуку, що видаються системою, а при запиті в облік ставилися морфологія і можливі орфографічні помилки.

У наш час на ринку пошукових систем чітко виділяються три основні лідери - Bing, Google та Yahoo. У їхньому розпорядженні є пошукові алгоритми та бази власного виробництва. Багато пошукових систем, яких існує безліч, використовують напрацювання саме цих трьох титанів серед пошукових систем.

Завдяки пошуковим системам простій людині стало легше відкривати для себе неосяжні простори інформаційного поля. Без розвитку неможливо удосконалення способів обміну інформацією для людей.

На початковій стадії розвитку Інтернету користувачі були привілейованою меншістю та обсягом доступної інформації відносно невеликим. У той період доступ до неї мали, в основному, працівники різних великих навчальних закладів та лабораторій, і отримані дані використовувалися з науковою метою. На той час використання Мережі не мало такої актуальності, як зараз.

1990 рокубританський вчений Тім Бернерс-Лі (який також є винахідником URI, URL, HTTP, World Wide Web) створив сайт info.cern.ch, що є першим у світі доступним каталогом інтернет-сайтів. З цього моменту Інтернет почав набирати популярності не лише серед наукових кіл, а й серед простих власників персональних комп'ютерів.

Таким чином першим способом полегшення доступу до інформаційних ресурсів в Інтернеті стало формування каталогів сайтів. Посилання на ресурси в них було згруповано за тематикою.

Першим проектом такого роду прийнято вважати Yahoo, відкритий у квітні 1994 року. У зв'язку зі стрімким зростанням кількості сайтів у ньому незабаром з'явилася можливість пошуку необхідної інформації на запит. Звичайно, це ще не було повноцінною пошуковою системою. Пошук був обмежений лише даними, що знаходились у каталозі.

На ранніх етапах розвитку Інтернету каталоги посилань використовувалися дуже активно, але поступово втрачали свою популярність. Причина проста: навіть за наявності безлічі ресурсів у сучасних каталогах, вони все одно показують лише малу частину інформації, що є в мережі Інтернет. Наприклад, найбільшим каталогом мережі є DMOZ(Open Directory Project). Він містить інформацію про трохи більше п'яти мільйонів ресурсів, що незрівнянно з пошуковою базою Google, що містить понад вісім мільярдів документів.

Найбільшим російськомовним каталогом є Яндекс-каталог. Він містить інформацію про трохи більше ста чотирьох тисяч ресурсів.

Хронологія розвитку пошукових систем

1945 рік– американський інженер Ванневар Буш опублікував записи ідеї, що призвела надалі до винаходу гіпертексту, та міркування про необхідність розробки системи швидкого вилучення даних із таким чином збереженої інформації (еквівалент сьогоднішніх пошукових систем). Введене ним поняття пристрою-розширювача пам'яті містило оригінальні ідеї, які врешті-решт втілилися в Інтернеті.

1960-ті— Джерард Селтон та його група у Корнельському університеті розробили «Дотепну систему вилучення інформації» (SMART information retrieval system). SMART – абревіатура від Salton's Magic Automatic Retriever of Text, тобто «Чарівний автоматичний витягувач тексту Селтона». Джерард Селтон вважається батьком найсучаснішої пошукової технології.

1987-1989 – розроблено Archie- Пошукова система для індексації FTP архівів. Archie являв собою сценарій, що автоматизує впровадження в лістинги на ftp-серверах, які потім переносилися в локальні файли, а вже потім у локальних файлах здійснювався швидкий пошук необхідної інформації. Пошук ґрунтувався на стандартній grep-команді Unix, а доступ користувача до даних здійснювався на основі telnet.

У наступній версії дані було розбито на окремі бази, одна з яких містила лише текстові назви файлів; а інша – записи з посиланнями на ієрархічні директорії тисячі хостів; і ще одна, що з'єднує перші дві. Ця версія Archie була ефективнішою за попередню, тому що пошук проводився тільки за іменами файлів, виключаючи безліч існуючих раніше повторів.

Пошукова система ставала все популярнішими, і розробники замислилися, як прискорити її роботу. Згадана вище база даних була замінена іншою, засновану на теорії стисненого дерева. Нова версія, по суті, створила повнотекстну базу даних замість списку імен файлів і була значно швидшою, ніж раніше. На додаток, другорядні зміни дозволили системі Archie індексувати веб-сторінки. На жаль, з різних причин робота над Archie незабаром припинилася.

1993 рокубула створена перша у світі пошукова система для Всесвітньої мережі Wandex. У її основу було закладено World Wide Web Wanderer бот, розроблений Метью Греєм з Массачусетського технологічного інституту.

1993 рік– Мартін Костер створює Aliweb- Одну з перших пошукових систем по World Wide Web. Власники сайтів мали самі їх додавати в індекс Aliweb, щоб вони з'являлися в пошуку. Оскільки занадто мало вебмайстрів це робили, Aliweb не став популярним

20 квітня 1994 р.- Браян Пінкертон з університету Вашингтон випустив WebCrawler- Першого бота, який індексував сторінки повністю. Основною відмінністю пошукової системи від своїх попередників є надання можливості користувачам здійснювати пошук за будь-якими ключовими словами на будь-якій веб-сторінці. Сьогодні ця технологія є стандартом для пошуку будь-якої пошукової системи. Пошукова система WebCrawler стала першою системою, про яку було відомо широкому колу користувачів. На жаль, пропускна здатність була невисокою і в денний час система часто була недоступною.

20 липня 1994 р.– відкрився Lycos— серйозна розробка технології пошуку, створена в університеті Карнегі Мелон. Майкл Малдін був відповідальний за цю пошукову систему і досі залишається провідним спеціалістом у Lycos Inc. Lycos відкрився з каталогом у 54,000 документів. І на додаток до цього результати, які він надавав, були ранжованими, крім того, він враховував приставки та приблизний збіг. Але головною відмінністю Lycos був каталог, що постійно поповнюється: до листопада 1996 було проіндексовано 60 мільйонів документів — більше, ніж у будь-якої іншої пошукової системи того часу.

Січень 1994 р.- був заснований Infoseek. Він не був по-справжньому інноваційним, але мав низку корисних доповнень. Одним із таких популярних доповнень була можливість додавання своєї сторінки у реальному часі.

1995 рік- Запустилася AltaVista. З'явившись, пошукова система AltaVista швидко здобула визнання користувачів і стала лідером серед собі подібних. У системи була практично необмежена на той час пропускна здатність, вона була першою пошуковою системою, в якій було можливо формулювати запити природною мовою, а також формулювати складні запити. Користувачам було дозволено додавати або видаляти власні URL протягом 24 годин. Також AltaVista пропонувала багато порад та рекомендацій щодо пошуку. Основною заслугою системи AltaVista вважається забезпечення підтримки багатьох мов, у тому числі китайської, японської та корейської. Справді, 1997 року жодна пошукова машина в Мережі не працювала з кількома мовами, тим паче рідкісними.

1996 рік- Пошукова машина AltaVista запустила морфологічне розширення для російської мови. Цього ж року були запущені перші вітчизняні пошукові системи – Rambler.ru та Aport.ru. Поява перших вітчизняних пошукових систем ознаменувала новий етап розвитку Рунету, дозволяючи російськомовним користувачам здійснювати запит рідною мовою, а також оперативно реагувати на зміни, що відбуваються всередині Мережі.

20 травня 1996 р.- з'явилася корпорація Inktomi разом зі своїм пошукачем Hotbot. Його творцями були дві команди з Каліфорнійського університету. Коли сайт з'явився, він швидко став популярним. У жовтні 2001 Денні Салліван написав статтю під назвою «База даних спам сайтів Inktomi відкрита для публічного користування», в якій розповідалося про те, як Inktomi випадково зробив свою базу даних спам сайтів, яка на той час налічувала вже близько 1 мільйона URL, доступною для загального використання.

1997 рік– у західних країнах настає переломний момент у розвитку пошукових систем, коли С. Брін та Л. Пейдж із Стендфордського університету заснували Google(Початкова назва проекту BackRub). Вони розробили власну пошукову машину, яка дала користувачам можливість здійснювати якісний пошук з урахуванням морфології, помилок під час написання слів, а також підвищити релевантність у результатах видачі запитів.

23 вересня 1997 року– анонсовано Yandex, Який швидко став найпопулярнішою у російськомовних користувачів Інтернету системою пошуку. Із запуском у пошуковій системі Яндекс вітчизняні пошукові машини почали конкурувати між собою, покращуючи систему пошуку та індексації сайтів, видачі результатів, а також пропонуючи нові сервіси та послуги.

Отже, розвиток пошукових систем та його становлення можна охарактеризувати переліченими вище етапами.

На сьогоднішній день на світовому ринку влаштувалися три лідери - Google, Yahoo і Bing. Вони мають власні бази, і свої алгоритми пошуку. Багато інших пошукових систем використовують результати цих трьох основних пошукових систем. Наприклад, AOL використовує базу даних Google у той час як AltaVista, Lycos і AllTheWeb використовують базу даних Yahoo Всі інші пошукові системи в різних комбінаціях використовують результати (видачу) перерахованих систем.

Якщо ж провести аналогічний аналіз пошукових систем, популярних у країнах СНД, ми побачимо, що mail.ru транслює пошук Google, при цьому накладаючи свої нові напрацювання, Rambler, у свою чергу, транслює Яндекс. Тому весь ринок рунета можна поділити між цими двома гігантами.

Саме тому, в країнах СНД просування сайту, як правило, здійснюється лише у цих двох ПС.

Очікувано Google посів перше місце у світовому рейтингу. На його частку припадає більше 70% пошукових запитіввід жителів із усіх куточків Землі. Причому третина всього трафіку google.com посідає громадян США. Крім того, Google є найбільш відвідуваним сайтом у світі. Середня щоденна тривалість використання пошукової системи Google складає 9 хвилин.

Перевагою пошуковика Google є відсутність зайвих елементів на сторінці. Лише рядок пошуку та логотип компанії. Фішкоює анімовані картинки та браузерні ігри, приурочені до популярних та локальних свят.

2. Bing

Бінг пошукова система від Microsoft, що веде свою історію з 2009 року. З цього моменту вона стала обов'язковим атрибутом смартфонів на Windows. Bing також відрізняє мінімалізм - крім шапки з переліком всіх продуктів Microsoft, на сторінці розташований лише пошуковий рядок та назва системи. Найбільш популярний Бінг у США (31%), Китаї (18%) та Німеччині (6%).

3. Yahoo!

Третє місце закріпилося за одним із найстаріших пошуковиків - Яху. Переважна більшість користувачів також проживає у США (24%). Складається враження, що решта світу свідомо уникає допомоги пошукових роботів…Також пошуковик популярний в Індії, Індонезії, Тайвані та у Великій Британії. Крім рядка пошуку, на сторінці Yahoo! пропонується прогноз погоди у вашому регіоні та світові тренди у вигляді стрічки новин.

4. Baidu

Китайська пошукова система, яка в Росії здобула погану славу. Через агресивну політику та відсутність перекладу на російську або англійську мови, розширення цієї пошукової системи сприймаються як віруси. Їх дуже складно видалити до кінця і позбутися спливаючих вікон з ієрогліфами. Тим не менш, цей сайт є четвертим у світіза відвідуваністю. 92% його аудиторії становлять громадяни Китаю.

5. AOL

AOL - американська пошукова система, чия назва розшифровується як America Online. Її популярність значно нижча, ніж у попередніх систем. Її світанок припадав на 90-ті та 00-ті роки. Майже 70% аудиторії АТЛ є мешканцями Сполучених Штатів.

6. Ask.com

Ця пошукова система, що веде свою історію з 1995, досить незвичайний інтерфейс. Всі запити вона сприймає як запитання та пропонує варіанти відповідей відповідно до пошукової видачі. Це чимось нагадує сервіс відповіді. Мейл. Однак у видачу потрапляють не відповіді любителів, а повноцінні статті. За останній рік сайт втратив близько 50 позицій у світовому рейтингу найпопулярніших інтернет-ресурсів і на сьогоднішній день посідає лише 104 місце.

7. Excite

Ця пошукова система нічим не примітна, і схожа на масу інших сайтів. Він пропонує користувачам масу сервісів (таких, як Новини, Пошта, Погода, Подорожі і т.д.) Інтерфейс сайту також викликає спогади про веб 90-х рр. і, можна припустити, мало змінився з того часу.

8. DuckDuckGo

Розробники відразу попереджають, що ця пошукова система не відстежує ваші діїв мережі. У наші дні це є вагомим аргументом під час виборів пошуковика. Дизайн сайту виконаний у сучасній манері, використовує яскраві фарби та забавні картинки. На відміну від інших пошукових машин, «качину пошукову систему» ​​перекладено російською мовою. За останній рік сайт відіграв близько 400 позицій та у березні 2017р. знаходиться на 504 рядку рейтингу популярності Alexa.

9. WolframAlpha

Відмінністю цього пошуку є різноманіття допоміжних сервісів, розрахованих на запити, пов'язані з тими чи іншими знаннями. Тобто у видачі ви не побачите посилань на пости у соцмережах чи статті жовтої преси. Вам запропонують конкретні цифри та перевірені факти у формі єдиного документа. Цей браузер ідеально підходить школярам та студентам.

10. Yandex

Пошуковик, найбільш популярний у Росії та країнах СНД. Крім того, близько 3% аудиторії сайту є мешканцями Німеччини. Сайт примітний великою кількістю сервісів на всі випадки життя (музика, радіо, розклад громадського транспорту, нерухомість, перекладач та ін.). Також ресурс пропонує великий вибір індивідуального оформлення сайту, а також налаштування віджетів «під себе». Яндекс посідає 31 місце у світі за популярністю, втративши 11 позицій за останній рік.

Прийнято вважати, що історія перших пошукових систем російського сегменту інтернету починає свій відлік з 1995 року. Саме цього року користувачам Рунету стало доступне морфологічне розширення до пошукової системи Altavista. Практично слідом за розширенням з'явилися оригінальні пошукові системи Апорт і Рамблер, які вважаються першими російськими пошуковими машинами.

AltaVista з'явилася в грудні 1995 р. і була підтримана найпотужнішим доступним на той час обчислювальним сервером DEC Alpha. Це була найшвидша пошукова система, яка могла обробляти мільйони пошукових запитів на день.

Апорт

Пошукова система Апорт була продемонстрована широкому загалу на кілька місяців раніше Рамблера в лютому 1996 року. На момент свого запуску машина здійснювала пошук лише на сайті russia.agama.com. Надалі розробники Апорта продемонстрували крайню неквапливість у розвитку свого проекту, дуже довго налагоджуючи пошук, спочатку по 4 серверах, потім по 6. Індексувати весь Рунет Апорт навчився лише до листопада 1997 року, тоді ж і пройшла його офіційна . До цього моменту в російськомовному сегменті вже успішно працювала інша пошукова система під назвою Рамблер.

Незважаючи на всі ці обставини, Апорту до початку 2000-х років. вдавалося успішно конкурувати з основними гравцями ринку Рамблером та Яндексом, та входити до списку лідерів пошуку в Рунеті. Згодом, компанія, що створила цю пошукову систему, була викуплена телекомунікаційним холдингом, всі розробки були припинені, і Апорт швидко здав свої позиції, поступившись своїм основним конкурентам.

На даний момент Апорт є електронним торговим майданчиком, з великою базою фірм і компаній, що пропонують більше 8 мільйонів найменувань товарів, в 1400 категоріях.

Рамблер

Створити оригінальну російську пошукову машину команда телекомунікаційної компанії Стек вирішила ще 1994 року. На той час Стек вже мав певний досвід у роботі з мережею інтернет, серверами та веб-сайтами. Працюючи з російським сегментом інтернету, фахівці компанії визначили, що закордонні пошукові машини практично не сприймають кирилицю та сторінки з кількома кодуваннями, і дуже погано індексують сайти Рунету.

Rambler» у перекладі з англійської мови - «мандрівник», «бродяга», «людина, що святкується».

Ядро нового пошуковика буквально за кілька місяців написав програміст Дмитро Крюков. Робота над новою машиною фінансувалася компанією Стек, творець якої Сергій Лисаков активно допомагав Крюкову у його непростій роботі. Назва Рамблер і логотип майбутньої пошукової системи також Дмитро. Домен rambler.ru був зареєстрований 26 вересня 1996 року, а 8 жовтня пошукова машина, що носить назву Rambler, була викладена її творцем у мережу. На той момент новою пошуковою системою було проіндексовано 100 тисяч документів, що було продуманим і стратегічно важливим кроком, що дозволило Рамблеру на кілька років стати беззаперечним лідером пошуку в Рунеті.

До архітектури пошукової системи зазвичай входять:

Енциклопедичний YouTube

    1 / 5

    ✪ Урок 3: Як працює пошукова система. Введення у SEO

    ✪ Пошукова система зсередини

    ✪ Shodan - чорний Google

    ✪ Пошукова система ЧЕБУРАШКА замінить Google та Яндекс у Росії

    ✪ Урок 1 - Як влаштовано пошукову систему

    Субтитри

Історія

Хронологія
Рік Система Подія
1993 W3Catalog?! Запуск
Aliweb Запуск
JumpStation Запуск
1994 WebCrawler Запуск
Infoseek Запуск
Lycos Запуск
1995 AltaVista Запуск
Daum Заснування
Open Text Web Index Запуск
Magellan Запуск
Excite Запуск
SAPO Запуск
Yahoo! Запуск
1996 Dogpile Запуск
Inktomi Заснування
Рамблер Заснування
HotBot Заснування
Ask Jeeves Заснування
1997 Northern Light Запуск
Яндекс Запуск
1998 Google Запуск
1999 AlltheWeb Запуск
GenieKnows Заснування
Naver Запуск
Teoma Заснування
Vivisimo Заснування
2000 Baidu Заснування
Exalead Заснування
2003 Info.com Запуск
2004 Yahoo! Search Остаточний запуск
A9.com Запуск
Sogou Запуск
2005 MSN Search Остаточний запуск
Ask.com Запуск
Нігма Запуск
GoodSearch Запуск
SearchMe Заснування
2006 wikiseek Заснування
Quaero Заснування
Live Search Запуск
ChaCha Запуск (бета)
Guruji.com Запуск (бета)
2007 wikiseek Запуск
Sproose Запуск
Wikia Search Запуск
Blackle.com Запуск
2008 DuckDuckGo Запуск
Tooby Запуск
Picollator Запуск
Viewzi Запуск
Cuil Запуск
Boogami Запуск
LeapFish Запуск (бета)
Forestle Запуск
VADLO Запуск
Powerset Запуск
2009 Bing Запуск
KAZ.KZ Запуск
Yebol Запуск (бета)
Mugurdy Закриття
Scout Запуск
2010 Cuil Закриття
Blekko Запуск (бета)
Viewzi Закриття
2012 WAZZUB Запуск
2014 Супутник Запуск (бета)

На ранньому етапі розвитку мережі Інтернет Тім Бернерс-Лі підтримував список веб-серверів, розміщений на сайті ЦЕРН . Сайтів ставало дедалі більше, і підтримувати вручну такий перелік ставало дедалі складніше. На сайті NCSA був спеціальний розділ «Що нового!» (англ. What"s New!), де публікували посилання на нові сайти.

Першою комп'ютерною програмою для пошуку в Інтернеті була програма Арчі(англ. archie – архів без літери «в»). Вона була створена в 1990 році Аланом Емтеджем (Alan Emtage), Біллом Хіланом (Bill Heelan) і Дж. Пітером Дойчем (J. Peter Deutsch), студентами, які вивчають інформатику в університеті Макгілла в Монреалі. Програма завантажувала списки всіх файлів з усіх доступних анонімних FTP-серверів і будувала базу даних, в якій можна було шукати імена файлів. Проте, програма Арчі не індексувала вміст цих файлів, оскільки обсяг даних був настільки малий, що можна було легко знайти вручну.

Розвиток та розповсюдження мережевого протоколу Gopher, придуманого в 1991 році Марком Маккехілом (Mark McCahill) в університеті Міннесоти, привело до створення двох нових пошукових програм, Veronicaта Jughead. Як і Арчі, вони шукали імена файлів та заголовки, збережені в індексних системах Gopher. Veronica (англ. Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) дозволяла виконувати пошук за ключовими словами більшості заголовків меню Gopher у всіх списках Gopher. Програма Jughead (англ. Jonzy"s Universal Gopher Hierarchy Excavation And Display) витягувала інформацію про меню від певних Gopher-серверів. Хоча назва пошуковика Арчі не мала відношення до циклу коміксів. «Арчі»Проте Veronica і Jughead - персонажі цих коміксів.

До літа 1993 ще не було жодної системи для пошуку в інтернеті, хоча вручну підтримувалися численні спеціалізовані каталоги. Оскар Нірштрасс (Oscar Nierstrasz) в Женевському університеті написав ряд сценаріїв на Perl, які періодично копіювали ці сторінки і переписували їх у стандартний формат. Це стало основою для W3Catalog?!, перша примітивна пошукова система мережі, запущена 2 вересня 1993 року .

Ймовірно, першим пошуковим роботом, написаним мовою Perl, був «World Wide Web Wanderer» - бот Метью Грея (Matthew Gray) з у червні 1993 року. Цей робот створював пошуковий індекс "Wandex". Мета робота Wanderer полягала в тому, щоб виміряти розмір всесвітньої павутини та знайти всі веб-сторінки, що містять слова із запиту. У 1993 році з'явилася і друга пошукова система Aliweb. Aliweb не використовувала пошукового робота, але натомість чекала повідомлень від адміністраторів веб-сайтів про наявність на їх сайтах індексного файлу в певному форматі.

JumpStation, створений у грудні 1993 року Джонатаном Флетчером, шукав веб-сторінки і будував їх індекси за допомогою пошукового робота, і використовував веб-форму як інтерфейс для формулювання пошукових запитів. Це був перший інструмент пошуку в Інтернеті, який поєднував три найважливіші функції пошукової системи (перевірка, індексація та власне пошук). Через обмеженість ресурсів комп'ютерів того часу індексація і, отже, пошук були обмежені лише назвами та заголовками веб-сторінок, знайдених пошуковим роботом.

Пошукові системи брали участь у «Бульбашці-доткомів» кінця 1990-х. Декілька компаній ефектно вийшли на ринок, отримавши рекордний прибуток під час їх первинної, публічної пропозиції. Деякі відмовилися від ринку загальнодоступних пошукових движків і почали працювати тільки з корпоративним сектором, наприклад, Northern Light.

Google взяв на озброєння ідею продажу ключових слів у 1998 році, тоді це була маленька компанія, яка забезпечувала пошукову систему за адресою goto.com. Цей крок ознаменував для пошукових систем перехід від змагань один до одного з найвигідніших комерційних підприємств в Інтернеті. Пошукові системи стали продавати, перші місця, в результатах пошуку окремим компаніям.

Пошукова система Google займає чільне становище з початку 2000-х. Компанія досягла високого становища завдяки хорошим результатам пошуку за допомогою алгоритму PageRank. Алгоритм був представлений громадськості у статті The Anatomy of Search Engine, написаній Сергієм Бріном і Ларрі Пейджем, засновниками Google. Цей ітеративний алгоритм ранжує веб-сторінки, ґрунтуючись на оцінці кількості гіперпосилань на веб-сторінку в припущенні, що на «хороші» і «важливі» сторінки посилаються більше, ніж на інші. Інтерфейс Google витриманий у спартанському стилі, де немає нічого зайвого, на відміну від багатьох своїх конкурентів, які вбудовували пошукову систему у веб-портал. Пошукова система Google стала настільки популярною, що з'явилися наслідуючі її системи, наприклад, Mystery Seeker(таємний пошуковик).

Пошук інформації російською мовою

У 1996 році було реалізовано пошук з урахуванням російської морфології на пошуковій машині Altavista і запущено оригінальні російські пошукові машини Рамблер і Апорт. 23 вересня 1997 року було відкрито пошукову машину Яндекс. 22 травня 2014 року компанією Ростелеком було відкрито національну пошукову машину «Супутник», яка на момент 2015 року знаходиться в стадії бета-тестування. 22 квітня 2015 року було відкрито новий сервіс Супутник. Діти спеціально для дітей із підвищеною безпекою.

Велику популярність здобули методи кластерного аналізу та пошуку за метаданими. З міжнародних машин такого плану найбільшої популярності набула "Clusty"компанії Vivisimo. У 2005 році в Росії за підтримки МДУ запущено пошуковик "Нігма", що підтримує автоматичну кластеризацію. У 2006 році відкрилася російська метамашина Quintura, що пропонує візуальну кластеризацію у вигляді хмар і тегів. "Нігма" теж експериментувала з візуальною кластеризацією.

Як працює пошукова система

Основні складові пошукової системи: пошуковий робот, індексатор, пошуковик.

Зазвичай, системи працюють поетапно. Спочатку пошуковий робот отримує контент, потім індексатор генерує доступний для пошуку індекс, і нарешті пошуковик забезпечує функціональність для пошуку індексованих даних. Щоб оновити пошукову систему, цей цикл індексації виконується повторно.

Пошукові системи працюють, зберігаючи інформацію про багато веб-сторінок, які вони одержують з HTML сторінок. Пошуковий робот або «краулер» (англ. Crawler) - програма, яка автоматично проходить за всіма посиланнями, знайденими на сторінці, та виділяє їх. Краулер, ґрунтуючись на посиланнях або виходячи із заздалегідь заданого списку адрес, здійснює пошук нових документів, які ще не відомі пошуковій системі. Власник сайту може виключити певні сторінки за допомогою robots.txt , за допомогою якого можна заборонити індексацію файлів, сторінок або каталогів сайту.

Пошукова система аналізує зміст кожної сторінки для подальшого індексування. Слова можуть бути вилучені із заголовків, тексту сторінки або спеціальних полів – метатегів. Індексатор - це модуль, який аналізує сторінку, попередньо розбивши її частини, застосовуючи власні лексичні і морфологічні алгоритми. Усі елементи веб-сторінки виділяються та аналізуються окремо. Дані про веб-сторінки зберігаються в індексній базі даних для використання у наступних запитах. Індекс дозволяє швидко знаходити інформацію на запит користувача . Ряд пошукових систем, подібних до Google, зберігають вихідну сторінку цілком або її частину, так званий кеш, а також різну інформацію про веб-сторінку. Інші системи, подібні до системи AltaVista, зберігають кожне слово кожної знайденої сторінки. Використання кешу допомагає прискорити вилучення інформації з вже відвіданих сторінок. Кешовані сторінки завжди містять текст, який користувач задав у пошуковому запиті. Це може бути корисним у тому випадку, коли веб-сторінка оновилася, тобто вже не містить текст запиту користувача, а сторінка в кеші ще стара. Ця ситуація пов'язана із втратою посилань (англ. linkrot) та дружнім по відношенню до користувача (юзабіліті) підходом Google. Це передбачає видачу з кешу коротких фрагментів тексту, які містять текст запиту. Діє принцип найменшого подиву, користувач зазвичай очікує побачити шукані слова в текстах отриманих сторінок ( User expectations). Крім того, що використання кешованих сторінок прискорює пошук, сторінки в кеші можуть містити інформацію, яка вже ніде більше не доступна.

Пошуковик працює з вихідними файлами, отриманими від індексатора. Пошуковик приймає запити користувача, обробляє їх за допомогою індексу і повертає результати пошуку .

Коли користувач вводить запит у пошукову систему (зазвичай за допомогою ключових слів), система перевіряє свій індекс і видає список найбільш підходящих веб-сторінок (відсортований за будь-яким критерієм), зазвичай з короткою анотацією, що містить заголовок документа і іноді частини тексту. Пошуковий індекс будується за спеціальною методикою на основі інформації, витягнутої з веб-сторінок . З 2007 року пошуковик Google дозволяє шукати з урахуванням часу, створення шуканих документів (виклик меню «Інструменти пошуку» та вказівка ​​часового діапазону). Більшість пошукових систем підтримує використання в запитах булевих операторів І, АБО, НЕ, що дозволяє уточнити або розширити список шуканих ключових слів. При цьому система шукатиме слова чи фрази точно так, як було запроваджено. У деяких пошукових системах є можливість наближеного пошуку, у цьому випадку користувачі розширюють область пошуку, вказуючи відстань до ключових слів . Є також концептуальний пошук, при якому використовується статистичний аналіз вживання шуканих слів та фраз у текстах веб-сторінок. Ці системи дозволяють складати запити природною мовою. Прикладом такої пошукової системи є сайт ask com.

Корисність пошукової системи залежить від релевантності знайдених сторінок. Хоч мільйони веб-сторінок і можуть включати слово або фразу, але одні з них можуть бути більш релевантні, популярні або авторитетні, ніж інші. Більшість пошукових систем використовує методи ранжирування, щоб вивести на початок списку "найкращі" результати. Пошукові системи вирішують, які сторінки більш релевантні, і в якому порядку мають бути показані результати по-різному. Методи пошуку, як і сам Інтернет, згодом змінюються. Так з'явилися два основні типи пошукових систем: системи визначених та ієрархічно впорядкованих ключових слів та системи, в яких генерується інвертований індекс на основі аналізу тексту.

Більшість пошукових систем є комерційними підприємствами, які отримують прибуток за рахунок реклами, в деяких пошукових системах можна купити за окрему плату перші місця у видачі для заданих ключових слів. Ті пошукові системи, які не беруть грошей за порядок видачі результатів, заробляють на контекстній рекламі, рекламні повідомлення відповідають запиту користувача. Така реклама виводиться на сторінці зі списком результатів пошуку, і пошукові системи заробляють при кожному натисканні користувача на рекламні повідомлення.

Типи пошукових систем

Існує чотири типи пошукових систем: з пошуковими роботами, керовані людиною, гібридні та мета-системи.

  • системи, що використовують пошукові роботи
Складаються із трьох частин: краулер («бот», «робот» або «павук»), індекс та програмне забезпечення пошукової системи. Краулер потрібен для обходу мережі та створення списків веб-сторінок. Індекс – великий архів копій веб-сторінок. Мета програмного забезпечення – оцінювати результати пошуку. Завдяки тому, що пошуковий робот у цьому механізмі постійно досліджує мережу, інформація більшою мірою є актуальною. Більшість сучасних пошукових систем є системами такого типу.
  • системи, керовані людиною (каталоги ресурсів)
Ці пошукові системи одержують списки веб-сторінок. Каталог містить адресу, заголовок та короткий опис сайту. Каталог ресурсів шукає результати лише з описів сторінки, представлених йому веб-майстрами. Достоїнство каталогів у тому, що всі ресурси перевіряються вручну, отже, і якість контенту буде кращою, ніж результати, отримані системою першого типу автоматично. Але є й недолік - оновлення даних каталогів виконується вручну і може суттєво відставати від реального стану справ. Ранжування сторінок не може миттєво змінюватись. Як приклади таких систем можна навести каталог Yahoo, dmoz та Galaxy.
  • гібридні системи
Такі пошукові системи, як Yahoo, Google, MSN, поєднують у собі функції систем, що використовують пошукових роботів, та систем, керованих людиною.
  • мета-системи
Метапошукові системи об'єднують і ранжують результати відразу кількох пошукових систем. Ці пошукові системи були корисні, коли кожна пошукова система мала унікальний індекс, і пошукові системи були менш «розумними». Оскільки зараз пошук значно покращився, потреба у них зменшилася. Приклади: MetaCrawlerта MSN Search.

Ринок пошукових систем

Google - найпопулярніша пошукова система у світі з часткою на ринку 68,69%. Bing займає другу позицію, його частка 12,26%.

Найпопулярніші пошукові системи у світі:

Пошукова система Частка ринку у липні 2014 Частка ринку у жовтні 2014 Частка ринку у вересні 2015 року
Google 68,69 % 58,01 % 69,24%
Baidu 17,17 % 29,06 % 6,48%
Bing 6,22 % 8,01 % 12,26%
Yahoo! 6,74 % 4,01 % 9,19%
AOL 0,13 % 0,21 % 1,11%
Excite 0,22 % 0,00 % 0,00 %
Ask 0,13 % 0,10 % 0,24%

Азія

У східноазіатських країнах та в Росії Google – не найпопулярніша пошукова система. У Китаї, наприклад, популярніша пошукова система Soso?!.

У Південній Кореї пошуковим порталом власної розробки Naver користується близько 70% жителів Yahoo! Japan та Yahoo! Taiwan - найпопулярніші системи для пошуку в Японії та Тайвані відповідно.

Росія та російськомовні пошукові системи

Згідно з даними LiveInternet у червні 2015 року про охоплення російськомовних пошукових запитів:

  • Всемовні:
    • Yahoo! (0,1 %) та пошукові машини, що належать цій компанії: Inktomi, AltaVista , Alltheweb
  • Англомовні та міжнародні:
    • AskJeeves(механізм Teoma)
  • Російськомовні – більшість «російськомовних» пошукових систем індексують та шукають тексти багатьма мовами – українською, білоруською, англійською, татарською та іншими. Відрізняються вони від «всемовних» систем, які індексують всі документи поспіль, тим, що, в основному, індексують ресурси, розташовані в доменних зонах, де домінує російська мова, або іншими способами обмежують своїх роботів російськомовними сайтами.

Деякі пошукові системи використовують зовнішні алгоритми пошуку.

Кількісні дані пошукової системи Google

Число користувачів Інтернету та пошукових систем та вимог користувачів до цих систем постійно зростає. Для збільшення швидкості пошуку потрібної інформації великі пошукові системи містять велику кількість серверів. Сервера зазвичай групують серверні центри (дата-центри). У популярних пошукових систем серверні центри розкидані по всьому світу.

У жовтні 2012 року Google запустила проект «Де живе Інтернет», де користувачам надається можливість познайомитись із центрами обробки даних цієї компанії.

Про роботу дата-центрів пошукової системи Google відомо наступне:

  • Сумарна потужність усіх дата-центрів Google станом на 2011 рік оцінювалася в 220 МВт.
  • Коли в 2008 році Google планувала відкрити в Орегоні новий комплекс, що складається з трьох будівель загальною площею 6,5 млн м², в журналі Harper's Magazine підрахували, що такий великий комплекс споживає понад 100 МВт електроенергії, що порівняно із споживанням енергії міста з населенням 300 людина.
  • Орієнтовна кількість серверів Google у 2012 році – 1 000 000.
  • Витрати Google на дата-центри склали 2006 року - $1,9 млрд, а 2007 року - $2,4 млрд.

Розмір всесвітньої мережі, проіндексованої Google на грудень 2014 року, становить приблизно 4,36 мільярда сторінок.

Пошукові системи, які враховують релігійні заборони

Глобальне поширення Інтернету та збільшення популярності електронних пристроїв в арабському та мусульманському світі, зокрема, в країнах Близького, Сходу та Індійського субконтиненту, сприяло розвитку локальних пошукових систем, що враховують ісламські традиції. Такі пошукові системи містять спеціальні фільтри, які допомагають користувачам не потрапляти на заборонені сайти, наприклад сайти з порнографією, і дозволяють їм користуватися лише тими сайтами, вміст яких не суперечить ісламській вірі. Незадовго до мусульманського місяця Рамадан, у липні 2013 року, був представлений світові Halalgoogling- система, що видає користувачам лише халяльні «правильні» посилання, фільтруючи результати пошуку, отримані з інших пошукових систем, як-от Google і Bing. Двома роками раніше, у вересні 2011 року, було запущено пошуковий двигун I'mHalal, призначений для обслуговування користувачів Близького Сходу. Однак цей пошуковий сервіс довелося незабаром закрити, за повідомленням власника, через відсутність фінансування.

Відсутність інвестицій та повільний темп поширення технологій у мусульманському світі перешкоджали прогресу та заважали успіху серйозної ісламської пошукової системи. Очевидним є провал величезних інвестицій у веб-проекти мусульманського способу життя, одним з яких був Muxlim. Він отримав мільйони доларів від інвесторів, таких як Rite Internet Ventures, і тепер - відповідно до останнього повідомлення від I'mHalal перед його закриттям - виступає із сумнівною ідеєю про те, що «наступний Facebook або Google можуть з'явитися тільки в країнах Близького сходу, якщо ви підтримаєте нашу блискучу молодь» . Проте ісламські експерти в галузі Інтернету протягом багатьох років займаються визначенням того, що відповідає або не відповідає шаріату, і класифікують веб-сайти як халяль або харам. Всі колишні і справжні ісламські пошукові системи є просто спеціальним чином проіндексованим набором даних або це головними пошуковими системами, такими як Google, Yahoo і Bing, з певною системою фільтрації, що використовується для того, щоб користувачі не могли отримати доступ до харам-сайтів, таких як сайти про наготу, ЛГБТ, азартні ігри та будь-яким іншим, тематика яких вважається антиісламською.

Серед інших релігійно-орієнтованих пошукових систем поширеними є Jewogle - єврейська версія Google і SeekFind.org - християнський сайт, що включає фільтри, що оберігають користувачів від контенту, який може підірвати або послабити їх віру.

Персональні результати та бульбашки фільтрів

Багато пошукових систем, такі як Google і Bing, використовують алгоритми вибіркового вгадування того, яку інформацію користувач хотів би побачити, ґрунтуючись на його минулих діях у системі. В результаті веб-сайти показують лише ту інформацію, яка узгоджується з минулими інтересами користувача. Цей ефект отримав назву «міхур фільтрів».

Все це веде до того, що користувачі отримують набагато менше інформації, що суперечить своїй точці зору, і стають інтелектуально ізольованими у своєму власному «інформаційному міхурі». Таким чином, «ефект міхура» може мати негативні наслідки для формування громадянської думки.

Упередженість пошукових систем

Незважаючи на те, що пошукові системи запрограмовані, щоб оцінювати веб-сайти на основі деякої комбінації їх популярності та релевантності, насправді експериментальні дослідження вказують на те, що різні політичні, економічні та соціальні фактори впливають на пошукову видачу.

Така упередженість може бути прямим результатом економічних та комерційних процесів: компанії, які рекламуються в пошуковій системі, можуть стати популярнішими в результатах звичайного пошуку в ній. Вилучення результатів пошуку, які не відповідають місцевим законам, є прикладом впливу політичних процесів. Наприклад, Google не відображатиме деякі неонацистські веб-сайти у Франції та Німеччині, де заперечення Голокосту є незаконним.

Упередженість може бути наслідком соціальних процесів, оскільки алгоритми пошукових систем часто розробляються, щоб виключити неформатні погляду на користь «популярніших» результатів . Алгоритми індексації головних пошукових систем віддають пріоритет американським сайтам.

Пошукова - бомба - один з прикладів спроби управління результатами пошуку з політичних, соціальних або комерційних причин.

Див. також

  • Qwika
  • Електронна бібліотека#Списки бібліотек і пошукові системи
  • Панель інструментів веб-розробника

Примітки

Література

  • Ашманов І. С., Іванов А. А.Просування сайту у пошукових системах. - М.: Вільямс, 2007. - 304 с. - ISBN 978-5-8459-1155-1.
  • Байков В.Д.Інтернет. Пошук інформації. Просування сайтів. - СПб. : БХВ-Петербург, 2000. – 288 с. - ISBN 5-8206-0095-9.
  • Колісніченко Д. М.Пошукові системи та просування сайтів в Інтернеті. – М.: Діалектика, 2007. – 272 с. - ISBN 978-5-8459-1269-5.
  • Ланде Д. В.Пошук знань у Internet. – М.: Діалектика, 2005. – 272 с. - ISBN 5-8459-0764-0.
  • Ланде Д. В., Снарський А. А., Безсуднов І. В.Інтернетика: "Навігація" у "складних" мережах: "моделі" і "алгоритми" – M.: Ліброком (Editorial URSS), 2009. – 264 с. - ISBN 978-5-397-00497-8.
  • Chu H., Rosenthal M.

 

 

Це цікаво: