Основні міжнародні пошукові системи та каталоги. Міжнародні пошукові системи

Основні міжнародні пошукові системи та каталоги. Міжнародні пошукові системи

Тест-залік з інформатики
«Інформаційно-комунікаційні технології роботи
в комп'ютерної мережі»

11 клас

Залік

    Комп'ютерна мережа – це …

    1. сукупність комп'ютерів та різних пристроїв, що забезпечують інформаційний обмін між комп'ютерами у мережі без використання будь-яких проміжних носіїв інформації

      об'єднання комп'ютерів, що розташовані на великій відстані, для загального використання світових інформаційних ресурсів

      об'єднання комп'ютерів, розташованих на невеликій відстані один від одного

    Протоколи – це …

    1. спеціалізовані засоби, що дозволяють у реальному часі організувати спілкування користувачів каналами комп'ютерного зв'язку

      сукупністю правил, що регулюють порядок обміну даними у мережі

      система передачі електронної інформації, що дозволяє кожному користувачеві мережі отримати доступ до програм та документів, що зберігаються на віддаленому комп'ютері

    Встановіть відповідність

1. Сервер

а) узгоджений набір стандартних протоколів, що реалізують їх програмно-апаратних засобів, достатній для побудови комп'ютерної мережі та обслуговування її користувачів

2. Робоча станція

b) спеціальний комп'ютер, який призначений для віддаленого запуску додатків, обробки запитів на отримання інформації з баз даних та забезпечення зв'язку із загальними зовнішніми пристроями

3. Мережева технологія

c) це інформаційна технологіяроботи в мережі, що дозволяє людям спілкуватися, оперативно отримувати інформацію та обмінюватися нею

4. Інформаційно-комунікаційна технологія

d) це персональний комп'ютер, що дозволяє користуватися послугами, що надаються серверами

    У якому році Росія була підключена до Інтернету?

    1. 1992

      1990

      1991

    Браузер – це …

    1. інформаційна система, основними компонентами якої є гіпертекстові документи

      програма для перегляду Web-сторінок

      сервіс Інтернету, що дозволяє обмінюватися між комп'ютерами через мережу електронними повідомленнями

    Всесвітня павутина – це система у глобальній мережі носить назву:

    1. WWW

      FTP

      BBS

      E-mail

    Встановіть відповідність

1. Локальна мережа

a) об'єднання комп'ютерів, що розташовані на великій відстані один від одного

2. Регіональна мережа

b) об'єднання локальних мережу межах однієї корпорації для вирішення спільних завдань

3. Корпоративна мережа

c) об'єднання комп'ютерів у межах одного міста, області, країни

4. Глобальна мережа

d) об'єднання комп'ютерів, розташованих на невеликій відстані один від одного

    Адреса електронної пошти записується за певними правилами. Заберіть зайве

    1. petrov_yandex.ru

      [email protected]

      [email protected]

      http://www.edu.ru

    Встановіть відповідність

1. Всесвітнє павутиння WWW

a) спеціалізовані засоби, що дозволяють у реальному часі організувати спілкування користувачів каналами комп'ютерного зв'язку

2. Електронна пошта e-mail

b) інформаційна система, основними компонентами якої є гіпертекстові документи

3. Передача файлів FTP

c) система пересилання кореспонденції між користувачами у мережі

4. Телеконференція UseNet

d) система передачі електронної інформації, що дозволяє кожному користувачеві мережі отримати доступ до програм та документів, що зберігаються на віддаленому комп'ютері

5. Системи спілкування "on line" chat, ICQ

e) система обміну інформацією між безліччю користувачів

    Які пошукові системиє міжнародними? Виберіть правильну відповідь

    1. http://www.yandex.ru

      http://www.rambler.ru

      http://www.aport.ru

      http://www.google.ru

Відповіді:

1

2

3

4

5

6

7

8

9

10

a

b

1-b
2-d
3-а
4-c

c

b

a

1-d
2-c
3-b
4-а

a, d

1-b
2-c
3-d
4-е
5-a

Список найбільш значимих пошукових систем та каталогів

Основні міжнародні пошукові системи та каталоги

Пошукові системи

    AltaVista відкрита у грудні 1995, потім куплена компанією Compaq Computer Corporation (до цього була у віданні DEC), а після цього виділилася в самостійну компанію, яка зараз контролюється CMGI. Alta Vista по праву вважається найбільшою та авторитетною пошуковою системою. Для Росії представляє особливий інтерес, тому що дозволяє вести пошук не тільки англійською, а й російською, та багатьох інших мов.

    Одна з найбільших пошукових систем у світі. Перебуває у партнерстві з Netscape. Запущена в 1995 році система швидко розвивалася, і в 1996 році Excite купив двох своїх конкурентів: Magellan і WebCrawler. Незважаючи на зміну власника, ці два пошукових серверапродовжують працювати як незалежні системи.

    Система запущена у травні 1996 року. Є дітищем культового журналу Wired. У жовтні 1998 Lycos купив Wired Digital, але продовжував підтримувати HotBot як самостійний проект. У більшості випадків джерело першої сторінки результатів пошуку HotBot – Direct Hit, а подальших – Inktomi. Інформація для каталогу береться із проекту Open Directory. HotВot знаходиться у постійній конкурентній боротьбі з AltaVista. Потужна пошукова система, одна з тих, що видають хороші результати пошуку

    Портал, запущений InfoSeek та Disney. Пропонує як безкоштовну пошту, так і можливості пошукових машин, запозичені від InfoSeek (відкрита на початку 1995 року, ця система мала дуже солідну репутацію). Здійснює якісний пошук завдяки алгоритму пошуку ESP, що використовується. Також містить вражаючий каталог веб-сайтів, зібраний командою спеціалістів. Офіційно Go (не плутати з GoTo) почав свою роботу у 1999 році.

    Система почала працювати з серпня 1997 року і зараз стрімкими темпами індексує Мережу, що ставить її нарівні з провідними пошуковими системами. Northern Light має набір документів "спеціальної колекції", які зазвичай не доступні для спайдерів пошукових машин. Це документи із тисяч джерел, включаючи газети, журнали, різні бази даних. Пошук таких документів здійснюється безкоштовно, проте за їх перегляд необхідно заплатити до 4 доларів. Система, крім володіння величезними ресурсами, має можливість класифікувати документи на теми, що є ще одним позитивним моментом.

    Існує з квітня 1994 року. Власник - відома AOL, і всім користувачам цього сервіс-провайдера була рекомендована саме ця пошукова система. У листопаді 1996 року WebCrawler був куплений своїм конкурентом - Excite, хоча і продовжує працювати як незалежна пошукова система. Має власну директорію рецензованих сторінок.

    Ask Jeeves використовує серію питань для того, щоб звузити поле пошуку, потім видає відповідь на основі матеріалу, підготовленого групою редакторів. Це пошукова система, яка направляє користувача на ту сторінку, що відповідає на поставлене їм запитання. Якщо системі не вдається знайти необхідне посилання у своїй базі даних, вона звертається до іншим пошуковим машинам. Почала працювати у червні 1997 року.

    Direct Hit – компанія, яка працює з іншими пошуковими машинами для того, щоб покращити їхні результати. Це здійснюється шляхом моніторингу того, на які посилання результатів пошуку реагують користувачі. Сайти, посилання на які натискаються частіше, ніж інші, піднімаються вище в рейтингу Direct Hit. Отже, Direct Hit позиціонується як "двигун популярності". Подібна технологія добре продемонстрована на HotBot.

    Раніше називався All The Web. FAST Search прагне охопити всю павутину. Став першою пошуковою машиною, яка перейшла 200-мільйонний рубіж проіндексованих сторінок. Norwegian company, власник FAST Search, також підтримує пошукову машину Lycos MP3. FAST Search розпочала роботу у травні 1999 року.

    На відміну від інших пошукових машин, GoTo продає свої списки. Компанії можуть заплатити, щоб мати можливість бути розміщеним на початку результатів пошуку. Неоплачені результати видає Inktomi. GoTo розпочала роботу у 1997 році.

    Google - пошукова машина, яка користується популярністю посилань як основний критерій ранжування веб-сайтів. Саме тому особливо добре в ній представлені ресурси з тем "автомобілі" та "подорожі".

    Спочатку була пошуковою машиною Inktomi в UC Berkeley. Потім засновники сформували власну компанію під тим самим ім'ям. Наразі механізм Inktomi використовують різні компанії.

Каталоги

    Існуючий з кінця 1994 року, Yahoo! - найпопулярніший та найстаріший з основних каталогів Інтернету. Секрет популярності Yahoo! - Люди. Це один із найбільших путівників по веб, створених вручну близько 150 авторами у спробі впорядкувати мережу. Yahoo! використовує результати пошукової машини Inktomi. Під час введення запиту Yahoo! здійснює пошук за своїм каталогом. Якщо результати незадовільні, запит автоматично перенаправляється до Inktomi. Містить понад мільйон веб-сторінок. На голову вище конкурентів за якістю результатів пошуку – кожен сайт каталогу пройшов фільтрацію працівниками системи.

    Існуюча з кінця 1994 року пошукова система Lycos була найстарішою серед основних пошукових систем. Проте вона загубилася у потоці заявок, коли спробувала стати сайтом для широкого загалу. Тому в квітні 1999 року вона перетворилася на каталог, що діє подібно до Yahoo!. Основне джерело ресурсів - Open Directory project, Lycos також користується послугами Direct Hit або власним глобальним пошуком. У жовтні 1998 року Lycos було придбано конкуруючою пошуковою машиною HotBot.

    Це каталог веб-сайтів, створений вручну. Як самостійний каталог, Look Smart надає ресурси для MSN Search, Excite та багатьох інших своїх партнерів. AltaVista видає LookSmart додаткові результати пошуку. LookSmart почав незалежне існування в жовтні 1996 року, потім на рік був куплений Reader's Digest. LookSmart стає одним з основних конкурентів Yahoo! в категорії сайтів. Містить близько чверті мільйона сайтів, розділених на категорії.

    Каталог веб-сайтів створений майстрами CNET. Підтримується механізмом пошуку Inktomi. Як і LookSmart, намагається конкурувати з Yahoo! упорядкуванні Web. Snap був запущений наприкінці 1997 року і підтримується CNET і NBC. Містить огляди сайтів, посилання на партнерів, інші сайти CNET.

    Відомий раніше як NewHoo, каталог розпочав роботу у червні 1998. У листопаді 1998 року був куплений Netscape, при цьому компанія заявила, що кожен зможе користуватися інформацією каталогу за відкритою угодою. Метою проекту Open Directory є створення каталогу Web із залученням широкого кола добровільних авторів. Це пов'язано з тим, що автоматизовані пошукові машини та каталоги не справляються з зростаючою кількістю ресурсів. Кожен користувач може зробити свій внесок у впорядкування ресурсів Мережі. Містить 1739097 сайтів, 262356 категорій, 24598 авторів. Lycos та AOL Search активно використовують дані Open Directory, у той час як AltaVista та HotBot включають ресурси Open Directory у свої результати пошуку.

    iWon, що підтримується американською телевізійною мережею CBS, містить каталог веб-сайтів, що генерується автоматично Inktomi. iWon роздає щоденні, щотижневі та щомісячні призи з маркетингового моделювання. Почав працювати восени 1999 року.

    MSN Search компанії Microsoft- каталог веб-сайтів, що спирається на LookSmart та AltaVista. Також доступні дані RealNames та Direct Hit. Користувачам Internet Explorer 5 MSN Search пропонує унікальну можливість зберігати результати попередніх пошуків.

    Результати Netscape Search"s базуються на Open Directory власної бази даних Netscape ("Smart Browsing"), в якій добре представлені офіційні веб-сайти. Також використовує Google. На порталі Netscape Netcenter представлені інші пошукові машини.

Як уже зазначалося вище, деякі пошукові системи мають при собі ще й каталог:

  • Excite NetDirectory - http://www.excite.com
  • Go (InfoSeek) - http://www.go.com
  • WebCrawler - http://www.webcrawler.com

Нижче в таблиці представлені статистичні дані за квітень 2000 року за деякими каталогами та пошуковими машинами. Дані взяті із сайту Search Engine Watch(www.searchenginewatch.com).

Служба

Кількість Web-сторінок, млн. прим.

Охоплено від усіх сторінок у web

Кількість користувачів на день, млн. чол.

AltaVista

250

25%

55

Excite

214

21%

Go (Infoseek)

50

5%

Nothern Light

240

24%

Ask Jeeves

Google

200

20%

12

Lycos

50

5%

FAST D

30-50

64,000

600,000


Служба

AltaVista

Excite

HotBot

Go (Infoseek)

Nothern Light

0:09

0:30

0:05

0:20

0:07


Служба

Web Crawler

AskJeeves

Direct Hit

Кількість сторінок, переглянутих одним користувачем

Середній час відвідування (година: хв)

0:06

0:10

0:02

0:03

0:08


Служба

Yahoo

Lycos

LookSmart

Snap

Кількість сторінок, переглянутих одним користувачем

Середній час відвідування (година: хв)

1:04

0:08

0:06

0:11



Служба

Snap

MSN

Netscape

iWon

Охоплення аудиторії

15,5%

51,4%

31,9%

9,2%

Ця стаття є спробою узагальнити дані отримані з форумів та інформацію від самих пошукових систем та каталогів.

Останнім часом у великих міжнародних пошукових системахспостерігається зміна основних критеріїв пошуку документів.

Помітна тенденція об'єднання пошукових системміж собою. Тепер мало мати хороший, релевантний документ, щоб бути в перших рядках. Необхідно також працювати над його просуванням у всіх великих пошукових системах. Не можна просто створювати доорвеї (doorway, gateway pages) для кожної пошукової системи, треба бути у всіх пошукових базах. Таку тенденцію поєднання пошукових систем можна пояснити кількома фактами. Одним із них є поява в інтернеті великої кількості ресурсів, що пропонують мета-пошукові технології, що відбирають частину користувачів у "класичних" пошукових систем.

У мета-пошуковій технології як критерії релевантності документа використовуються його позиції (по тому самому пошуковому словосполучення) у відомих пошукових системах. Переваги такого підходу очевидні - немає необхідності збирати та обробляти величезну базу даних, не потрібно розробляти складні пошукові алгоритмиі боротися зі спамерами - все це роблять великі пошукові системи, це їхній головний біль. Потрібно лише написати достатньо просту програму, що посилає дані, що вводяться на кілька відомих пошукових систем і обробляє відповіді від них. У цьому якість пошуку виходить високою, т.к. за такого підходу випадкові результати виключаються (хоча зникає і частина якісних результатів).

Очевидно, " Класичні " пошукові системи, певне, теж почали використовувати цю технологію, але у зміненому вигляді - оцінка популярності ресурсу за кількістю і якістю посилань нею, у своїй посиланнями є результати пошуку інших пошукових системах.

Приклад: AltaVistaНещодавно почала враховувати кількість посилань на кожен ресурс відповідний за словосполученням. При цьому посилання шукалися в тій же базі даних, що й самі ресурси (тобто у власній базі AV), а також у відомих каталогах таких посилань як Yahoo!, Looksmart. Посилання зі звичайних сторінок було прийнято вважати посиланнями низької якості, посилання відомих каталогів - посиланнями високої якості. Поділ на посилання високої та низької якості (за чутками, він організований у вигляді балів від 1 для посилання зі звичайної сторінки і до 200 для посилання з Yahoo!) зроблено для захисту від "накручування" цього параметра посиланнями з багатьох сайтів, зроблених тільки заради посилання на основний сайт. В даний час AltaVistaвикористовує також результати роботи інших пошукових систем - вона посилає введене пошукове слово або словосполучення на Google та результати Googleвикористовує як посилання високої якості (з того ж неперевіреного джерела – до 1000 балів за перше місце у результатах Google).

Опис взаємодії між великими пошуковими системами

  1. AltaVistaє одним із найпопулярніших міжнародних пошукових сервісів. Від самого початку AltaVistaбула просто пошуковою системою з власним павуком (scooter), що автоматично збирає інформацію, обминаючи сайти за посиланнями. В даний час до неї включений ще й каталог ресурсів від Looksmart. Потрапляючи на головну сторінку AV, користувач може провести пошук за базою пошукової системи (Web Page Search) або за базою каталогу ресурсів ( AltaVista Directory). Каталог ресурсів надається AltaVisteодним з найбільших представників цієї галузі – Looksmart. Бази, певне, зберігаються у різних місцях і періодично синхронізуються. Прописатись у цьому каталозі можна як зі сторінки на AV, так і зі сторінки на LookSmart, причому на однакових умовах (за гроші)
    Є інформація, що у релевантність документа з погляду AV впливають такі факторы:
    1. поля html-документа keywords, title, description, body text тощо;
    2. популярність URL документа та/або його батьківського сайту (мається на увазі кількість посилань на сам документ, наприклад http://www.domain.ru/ukr/index./html та кількість посилань на http://www.domain.ru) , тобто. скільки посилань є на цей документ чи сайт із інших сайтів. Причому посилання з різних сайтів мають різна вага. За неперевіреними даними, має місце таке співвідношення:
    3. перше місце в результатах пошуку за тим же пошуковим запитом Google 1000 балів, наступні місця мають меншу вагу;
    4. посилання з Yahoo!(тобто сайт присутній у базі даних Yahoo!) 200 балів;
    5. посилання з Open Directory Project 100 балів;
    6. посилання з About.com, Go.com, Looksmart(тобто з "власного" каталогу AltaVista) 25 балів;
    7. просто посилання з будь-якого іншого сайту 1 бал.
Цілком зрозуміло, що найдорожчі посилання з Google. Вони одними з перших (якщо не першими) почали використовувати алгоритм пошуку документів з сильною ставкою на популярність посилань і досягли високої швидкості пошуку при обсязі бази, порівнянної з AV. Залишається загадкою, чому прямий конкурент, Yahoo!цінується більше ніж "власний" каталог ресурсів, що надається LookSmart.
Така схема дозволяє боротися зі спамерами та простим копіюванням html документів(тепер недостатньо скопіювати документ #1 за словосполученням "porno sex" і замінивши всі "porno" на "червоні", а "sex" на "троянди", щоб стати #1 у менш популярній області при пошуку за словосполученням "червоні троянди") ; боротьба зі знищеними документами (база велика - неоновлювані та мертві документи шукати складно, а тут нова база Googleі ще модеровані каталоги).
  • Google- Порівняно нова пошукова система, розрахована спочатку на пошук документів з урахуванням їх популярності на інших ресурсах.
    Зараз в Googleвключений каталог ресурсів, заснований на Open Directory Project. Тобто. при попаданні в Open Directory Project, сайт потрапляє і до каталогу ресурсів Google, але не відразу. Крім того, у каталозі Googleє ресурси, яких немає в ODP (можливо, що через затримку в оновленні інформації - тобто ці сайти з ODP прибрали, а на Googleвони ще залишились).
    Googleє постачальником пошукових результатів для каталогу ресурсів Yahoo!(Посилання при пошуку Web Pages search).
    Якщо під час пошуку документ має вигідну позицію на Google, то при пошуку на AltaVistaза тим же пошуковим запитом, його релевантність у AltaVistaзростає (див. п.1 AltaVista).
    Мабуть, найбільш вагомими посиланнями для Googleє посилання з ODPі Yahoo!(а може бути і з AltaVista- Партнерство все-таки).
  • Yahoo!- один із найвідоміших каталогів ресурсів. Додає ресурси безкоштовно (якщо відповідає розділу та правилам і коли дійдуть руки у редакторів) або за 299$ (знову ж таки, якщо відповідає розділу та правилам, але протягом 7 робочих днів сайт буде переглянутий, але немає гарантії його включення до каталогу).
    Додавання до Yahoo!дає велику перевагу на AltaVistaі Google, Логічно припустити, що і на інших системах теж.
    У Yahoo!з'явився і web-search - результати беруться із пошукової системи Google(при пошуку за каталогом треба натиснути Web Pages вгорі або внизу сторінки).
  • HotBot- Відомий пошуковий сервіс. Спочатку був пошуковою системою з павуком, зараз має в своєму розпорядженні ще й каталог ресурсів, а також сервіс релевантності за кількістю заходів (від DirectHit).
    При стандартному пошуку в HotBot(web-search) видаються результати спочатку (перші 9) отримані від DirectHitза тим же пошуковим запитом, потім (10-й на першій сторінці, і починаючи з 11-го по десять на наступних) пошукові результати з бази Inktomi, оброблені за допомогою власного алгоритму пошуку. Якщо за пошуковим запитом (наприклад, "large electronic sign") DirectHitне було знайдено жодної відповідності, то результати починаючи з першого беруться з бази Inktomi; правда в самому DirectHitз таких запитів, мабуть, виключається непопулярне слово (відповідь такий самий як і "electronic sign").
  • Open Directory Project- Досить новий каталог ресурсів. Заснований на редакторах-добровольцях. Утворений трьома компаніями - Lycos, Mozilla.orgі HotBot.
    Постачає свою базу даних (не результати) іншим пошуковим сервісам - HotBot, Lycos,AOL, Google, AskJeeves(Див. також DirectHitі AskJeeves).
    Присутність посилання на сайт збільшує релевантність AltaVista.
  • DirectHit- пошукова система, алгоритм якої ґрунтується на обліку кількості натискань на посилання ресурсу з його описом. Тобто. за деякими критеріями знаходяться документи, і людина, натискаючи на посилання у списку результатів пошуку, переходить на сайт, одночасно голосуючи за нього. Тобто. реально оцінюється не популярність документа, а правильність його назви та описи. Це мабуть дає деякий відсів спамерів. Пояснимо на прикладі. Людина посилає пошуковий запит пошуковій системі, вона у відповідь видає перелік результатів. Припустимо, що на першій сторінці є звичайні результати пошуку (є нормальна назва та опис, що вселяє довіру) і спам (у назві та описі часто використовуються ключові слова на шкоду інформативності цих полів). Звичайно, людина швидше за все натисне на "правильне" посилання. Якщо більшість людей робить також, то з часом "неправильне" посилання опускається все нижче і нижче і йде з поля зору.
    Результати пошуку DirectHitвикористовуються досить часто іншими пошуковими сервісами. Так, HotBotпоказує у своїх результатах спочатку перші 9 найпопулярніших (за тим самим пошуковим запитом, з погляду DirectHit) сайтів, в MSNстоїть посилання "Top 10 Most Popular Popular Sites for рядок запиту", в Lycos перші 4 результати на першій сторінці "4 Web Sites selected based on user selection traffic".
  • AskJeevesОригінальний пошуковий сервіс, призначений для пошуку прямих питань користувачів. Якщо тема популярна, пропонує вибрати найбільш конкретне питання зі списку. Мабуть, список відстежується у співпраці з DirectHit.
    Перша сторінка зазвичай збігається з результатами пошуку на DirecHitза тим самим пошуковим запитом. Є неперевірена інформація, що використовуються дані з Looksmart та Googleдля пошуку документів.
  • Looksmartодин із найбільших каталогів ресурсів в Інтернеті. Цінний тим, що надає свій каталог для таких систем як AV, MSN, Excite,iWon, CNN, WebCrawler, TimeWarner, Netscape NetCente r, Sony, US West, NetZeroта ін. AltaVistaі CNNвикористовують безпосередньо результати пошуку, інші лише базу каталогу зі своїми алгоритмами.
    Для того, щоб зареєструвати сайт у Looksmartнеобхідно сплатити перегляд сайту редактором каталогу. За перегляд протягом 8 тижнів - 149 $, протягом 2 ділових днів (business days) - 299 $. Безкоштовно ресурси більше не реєструються (понад два роки).
  • AOL(America On Line) пошуковий сервіс. Його головна перевага - це те, що він знаходиться на дуже популярному сервері AOL, що має досить багато клієнтів.
    Видає результати пошуку, виходячи з бази ODPале сортуючи їх своїм алгоритмом. Після результатів із бази ODPвидає результати пошуку за базою Inktomi, теж опрацьовані своїм алгоритмом.
  • MSN(Microsoft Search Network) пошуковий сервіс також найбільш цінний тим, що знаходиться на популярному ресурсі - даному випадкуна сайті Microsoft. Ідеологія така сама як і на AOL Search- Спершу видаються результати з бази ODP, потім із бази Inktomiалгоритми в обох випадках свої.
  • Inktomi- не має власного пошукового сервісуАле займається індексацією ресурсів інтернету для надання бази іншим компаніям. Базу Inktomiвикористовують: AOL, MSN, HotBot, iWon, Canada, Nbci (Snap), GoTo, Anzwers.
  • Цей огляд не є повним і закінченим, можливі, наприклад, зворотні взаємодії розглянутих систем – підтвердити чи спростувати це поки що не вдалося.

    Для наочності необхідно скласти схему взаємодії найбільших міжнародних пошукових систем (див. прикладену схему).

    Висновок про практичне застосування.

    Таким чином, аналізуючи все вищесказане за схемою взаємодії міжнародних пошукових систем, можна визначити основні стратегічні пошукові бази, поява в яких сильно збільшує ймовірність високих позицій більшості великих міжнародних пошукових систем (на схемі обведені червоним).

    Позначення:


    Такими "стратегічними центрами" є:

  • Каталог Looksmart(каталоги Looksmart, AltaVista, Microsoft Search Network, Excite, iWon, WebCrawler, TimeWarner, CNN, Netscape NetCenter, Sony, US West, NetZeroпокращення в пошуку AltaVista);
  • База Inktomi(база даних для пошуку в HotBot, AOL, MSN, iWon, Canada, Nbci (Snap), GoTo, Anzwers);
  • Каталог Open Directory Project(каталоги HotBot, Google, AOL, AskJeevesпокращення в пошуку AltaVista);
  • Каталог Yahoo!(Покращення у пошуку AltaVista, інших даних немає, але це найпопулярніший каталог ресурсів інтернету (не рахуючи всіх партнерів Looksmartяк один каталог)).
  • Для "захоплення" цих "стратегічних центрів" потрібно
  • каталог Looksmart- відповідний тематиці розділу контент, доступність сайту, англомовність, "призначеність для американської аудиторії", не дуже мало сторінок, швидко вантажиться, а також 149 $ (редактор перегляне сайт за 8 тижнів) або 299 $ (за два дні), всі оплати по кредитної картки;
  • База Inktomi- не спаммінгувати (не використовувати заборонені прийоми для підвищення релевантності), безкоштовно;
  • Каталог Open Directory Project(Dmoz) відповідність категорії, агломовність (або окрему категорію), безкоштовно;
  • Каталог Yahoo!відповідність категорії, англомовність (або в окрему категорію), перегляд сайту протягом 7 днів - 299$ (перед цим треба стати зареєстрованим членом клубу Yahoo!).
  • Ця стаття не претендує на абсолютну істинність, але сподіваюся, зможе допомогти комусь у виборі стратегії захоплення ключових позицій у найбільш значущих пошукових системах.

    Вже давно стали невід'ємною частиною українського Інтернету. Пошукові системи зараз - це величезні і складні механізми, що є не тільки інструментом пошуку інформації, але й привабливими сферами для бізнесу.

    Більшість користувачів пошукових систем ніколи не замислювалися (або замислювалися, але не знайшли відповіді) про принцип роботи пошукових систем, про схему обробки запитів користувачів, про те, з чого ці системи складаються і як функціонують.

    Цей майстер-клас покликаний дати відповідь на питання про те, як працюють пошукові системи. Однак, Ви не знайдете тут факторів, що впливають на ранжування документів. І, тим більше, не варто розраховувати на докладне пояснення алгоритму роботи Яндекса. Його, за словами Іллі Сегаловича, - директора з технологій та розробки пошукової машини «Яндекс», можна дізнатися лише «під тортурами» самого Іллі Сегаловича…

    2. Поняття та функції пошукової системи

    Пошукова система - це програмно-апаратний комплекс, призначений для пошуку в мережі Інтернет і реагує на запит користувача, що задається у вигляді текстової фрази ( пошукового запиту), видачею списку посилань на джерела інформації, у порядку релевантності (відповідно до запиту). Найбільші міжнародні пошукові системи: "Google", "Yahoo", "MSN". У російському Інтернеті це - "Яндекс", "Рамблер", "Апорт".

    Розглянемо докладніше поняття пошукового запиту з прикладу пошукової системи «Яндекс». Пошуковий запит повинен бути сформульований користувачем відповідно до того, що він хоче знайти максимально коротко і просто. Допустимо, ми хочемо знайти інформацію в «Яндексі» про те, як вибрати автомобіль. Для цього відкриваємо головну сторінку «Яндекса» і вводимо текст пошукового запиту «як вибрати автомобіль». Далі, наше завдання зводиться до того, щоб відкрити надані на наш запит посилання на джерела інформації в Інтернет. Проте цілком можна і не знайти потрібну нам інформацію. Якщо таке сталося, то або потрібно перефразувати свій запит, або в базі пошукової системи дійсно немає жодної актуальної інформації по нашому запиту (таке може бути при заданні дуже «вузьких» запитів, як, наприклад, «як вибрати автомобіль в Архангельську»)

    Першочергове завдання будь-якої пошукової системи – доставляти людям саме ту інформацію, яку вони шукають. Навчити користувачів робити «правильні» запити до системи, тобто. запити, які відповідають принципам роботи пошукових систем, неможливі. Тому розробники створюють такі алгоритми та принципи роботи пошукових систем, які б дозволяли знаходити користувачам інформацію, яку вони шукають.

    Це означає, що пошукова система повинна "думати" так само, як думає користувач при пошуку інформації. Коли користувач звертається із запитом до пошукової машини, він хоче знайти те, що йому потрібно максимально швидко і просто. Отримуючи результат, він оцінює роботу системи, керуючись кількома основними параметрами. Чи знайшов він те, що шукав? Якщо не знайшов, то скільки разів йому довелося перефразувати запит, щоб знайти потрібне? Наскільки актуальну інформаціювін зміг знайти? Наскільки швидко опрацьовувала запит пошукова машина? Наскільки зручно було представлено результати пошуку? Чи був шуканий результат першим чи сотим? Як багато непотрібного сміття було знайдено нарівні із корисною інформацією? Чи знайдеться потрібна інформація при зверненні до пошукової системи, скажімо, через тиждень, або через місяць?

    Для того, щоб задовольнити відповіді на всі ці питання, розробники пошукових машин постійно вдосконалюють алгоритми та принципи пошуку, додають нові функції та можливості, всіляко намагаються прискорити роботу системи.

    3. Основні характеристики пошукової системи

    Опишемо основні характеристики пошукових систем:

    • Повнота

      Повнота - одна з основних характеристик пошукової системи, що є відношенням кількості знайдених за запитом документів до загальної кількості документів у мережі Інтернет, що задовольняють даному запиту. Наприклад, якщо в Інтернеті є 100 сторінок, що містять словосполучення "як вибрати автомобіль", а за відповідним запитом було знайдено всього 60 з них, то повнота пошуку буде 0,6. Очевидно, що чим повніше пошук, тим менша ймовірність того, що користувач не знайде потрібний документ, за умови, що він взагалі існує в Інтернеті.

    • Точність

      Точність - ще одна основна характеристика пошукової машини, яка визначається мірою відповідності знайдених документів запиту користувача. Наприклад, якщо за запитом «як вибрати автомобіль» знаходиться 100 документів, у 50 з них міститься словосполучення «як вибрати автомобіль», а в інших просто ці слова («як правильно вибрати магнітолу і встановити в автомобіль»), то точність пошуку вважається рівною 50/100 (=0,5). Чим точніше пошук, Тим скоріше користувач знайде потрібні йому документи, тим менше різного роду «сміття» серед них буде зустрічатися, тим рідше знайдені документи не відповідатимуть запиту.

    • Актуальність

      Актуальність - не менш важлива складова пошуку, що характеризується часом, що проходить з моменту публікації документів у мережі Інтернет, до занесення їх до індексної бази пошукової системи. Наприклад, наступного дня після появи цікавої новини велика кількість користувачів звернулася до пошукових систем з відповідними запитами. Об'єктивно з моменту публікації новинної інформації на цю тему пройшло менше доби, проте основні документи вже були проіндексовані та доступні для пошуку завдяки існуванню у великих пошукових систем так званої «швидкої бази», яка оновлюється кілька разів на день.

    • Швидкість пошуку

      Швидкість пошуку тісно пов'язана з його стійкістю до навантажень. Наприклад, за даними ТОВ «Рамблер Інтернет Холдинг», на сьогоднішній день у робочі години до пошукової машини Рамблер надходить близько 60 запитів на секунду. Така завантаженість потребує скорочення часу обробки окремого запиту. Тут інтереси користувача та пошукової системи збігаються: відвідувач бажає отримати результати якнайшвидше, а пошукова машина повинна відпрацьовувати запит максимально оперативно, щоб не гальмувати обчислення наступних запитів.

    • Наочність

    4. Коротка історія розвитку пошукових систем

    У початковий період розвитку Інтернет, кількість його користувачів була невелика, а обсяг доступної інформації порівняно невеликий. Здебільшого доступ до мережі Інтернет мали лише співробітники науково-дослідної сфери. У цей час завдання пошуку інформації в Інтернеті не було таким актуальним, як нині.

    Одним із перших способів організації доступу до інформаційним ресурсаммережі стало створення відкритих каталогів сайтів, посилання на ресурси у яких групувалися згідно з тематикою. Першим таким проектом став сайт Yahoo.com, що відкрився навесні 1994 року. Після того, як кількість сайтів у каталозі значно збільшилася, було додано можливість пошуку потрібної інформації з каталогу. У повному розумінні це ще не було пошуковою системою, тому що пошукова область була обмежена лише ресурсами, які є в каталозі, а не всіма Інтернет ресурсами.

    Каталоги посилань широко використовувалися раніше, проте практично втратили свою популярність нині. Так як навіть сучасні, величезні за своїм обсягом каталоги, містять інформацію лише про мізерну частину мережі Інтернет. Найбільший каталог мережі DMOZ (його ще називають Open Directory Project) містить інформацію про 5 мільйонів ресурсів, тоді як база пошукової системи Googleскладається з понад 8 мільярдів документів.

    У 1995 році з'явилися пошукові системи Lycos та AltaVista. Остання довгі роки була лідером у сфері пошуку інформації в мережі Інтернет.

    У 1997 році Сергій Брін та Ларрі Пейдж створили пошукову машину Googleу рамках дослідницького проекту у Стендфордському університеті. Зараз Google – найпопулярніша пошукова система у світі!

    У вересні 1997 року було офіційно анонсовано пошукову систему Yandex, що є найпопулярнішою в російськомовному Інтернеті.

    В даний час існують три основні пошукові системи (міжнародні) - Google, Yahoo і , що мають власні бази та алгоритми пошуку. Більшість інших пошукових систем (яких налічується велика кількість) використовує у тому чи іншому вигляді результати трьох перелічених. Наприклад, пошук AOL (search.aol.com) використовує базу Google, а AltaVista, Lycos та AllTheWeb – базу Yahoo.

    5. Склад та принципи роботи пошукової системи

    У Росії основною пошуковою системою є «Яндекс», далі – Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причому зараз Mail.ru використовує механізм і базу пошуку «Яндекса».

    Практично всі великі пошукові системи мають власну структуру, відмінну від інших. Однак, можна виділити загальні для всіх пошукових машин основні компоненти. Відмінності у структурі може лише у вигляді реалізації механізмів взаємодії цих компонентів.

    Модуль індексування

    Модуль індексування складається з трьох допоміжних програм (роботів):

    Spider (павук) – програма, призначена для завантаження веб-сторінок. "Павук" забезпечує скачування сторінки та витягує всі внутрішні посилання з цієї сторінки. Завантажується HTML-код кожної сторінки. Для завантаження сторінок роботи використовують протоколи HTTP. Працює «павук» в такий спосіб. Робот на сервер передає запит "get/path/document" та деякі інші команди HTTP-запиту. У відповідь робот отримує текстовий потік, Що містить службову інформацію та безпосередньо сам документ.

    • URL сторінки
    • дата, коли сторінку завантажили
    • http-заголовок відповіді сервера
    • тіло сторінки (html-код)

    Crawler («Павук, що подорожує») – програма, яка автоматично проходить по всіх посиланнях, знайдених на сторінці. Виділяє всі посилання на сторінці. Його завдання - визначити, куди далі має йти павук, спираючись на посилання або виходячи із заздалегідь заданого списку адрес. Crawler, слідуючи за знайденими посиланнями, здійснює пошук нових документів, ще невідомих пошуковій системі.

    Indexer (робот-індексатор) - програма, яка аналізує веб-сторінки, завантажені павуками. Індексатор розбирає сторінку на складові та аналізує їх, застосовуючи власні лексичні та морфологічні алгоритми. Аналізують різні елементи сторінки, такі як текст, заголовки, посилання структурні та стильові особливості, спеціальні службові html-теги і т.д.

    Таким чином, модуль індексування дозволяє обходити за посиланнями задану безліч ресурсів, завантажувати сторінки, що зустрічаються, витягувати посилання на нові сторінки з одержуваних документів і проводити повний аналіз цих документів.

    База даних

    База даних, або індекс пошукової системи - це система зберігання даних, інформаційний масив, в якому зберігаються спеціальним чином перетворені параметри всіх завантажених та оброблених модулем індексування документів.

    Пошуковий сервер

    Пошуковий сервер є найважливішим елементом усієї системи, оскільки від алгоритмів, які лежать в основі її функціонування, безпосередньо залежить якість та швидкість пошуку.

    Пошуковий сервер працює наступним чином:

    • Отриманий від користувача запит піддається морфологічному аналізу. Генерується інформаційне оточення кожного документа, що міститься в базі (яке і буде згодом відображено у вигляді , тобто відповідної запиту текстової інформації на сторінці результатів пошуку).
    • Отримані дані передаються як вхідні параметри спеціальному модулю ранжування. Відбувається обробка даних за всіма документами, внаслідок чого для кожного документа розраховується власний рейтинг, що характеризує релевантність запиту, введеного користувачем, та різних складових цього документа, що зберігаються в індексі пошукової системи.
    • Залежно від вибору користувача цей рейтинг може бути скоригований додатковими умовами(Наприклад, так званий «розширений пошук»).
    • Далі генерується сніппет, тобто для кожного знайденого документа з таблиці документів вилучаються заголовок, коротка анотація, найбільш відповідна запиту і посилання на сам документ, причому знайдені слова підсвічуються.
    • Отримані результати пошуку передаються користувачеві як SERP (Search Engine Result Page) – сторінки видачі пошукових результатів.

    Як видно, всі ці компоненти тісно пов'язані один з одним і працюють у взаємодії, утворюючи чіткий досить складний механізм роботи пошукової системи, що вимагає величезних витрат ресурсів.

    6. Висновок

    Тепер підсумуємо все вищесказане.

    • Першочергове завдання будь-якої пошукової системи – доставляти людям саме ту інформацію, яку вони шукають.
    • Основні характеристики пошукових систем:
      1. Повнота
      2. Точність
      3. Актуальність
      4. Швидкість пошуку
      5. Наочність
    • Першою повноцінною пошуковою системою став проект WebCrawler, що вийшов друком у 1994 році.
    • До складу пошукової системи входять компоненти:
      1. Модуль індексування
      2. База даних
      3. Пошуковий сервер

    Сподіваємося, наш майстер-клас дозволить Вам ближче ознайомитися з поняттям ПС, краще дізнатися про основні функції, характеристики та принцип роботи пошукових систем.

    Давайте розглянемо детальніше роботу з деякими пошуковими системами, для початку візьмемо міжнародні ПС:

    AltaVista

    Одна з найповніших, швидкодіючих та оновлюваних ПС. Дозволяє шукати інформацію і WWW, і Usenet будь-якою мовою. Під час завантаження з'являється вікно з рядком для введення запиту та кнопкою Search. (Рис. 1). Формат виразів для пошуку:

      слово малими літерами – інтернет- Виведе всі документи, де зустрічаються слова Інтернет, Інтернет, Інтернеті т.д.;

      слово із великими літерами – Інтернет- виведе всі сторінки, що містять слово Інтернет- Тобто. наявність великих буквзвужує пошук;

      вираз (словосполучення) у лапках – "московський провайдер інтернету"- Покаже сторінки, що містять фразу дослівно;

      знаки “ ” та “+” +інтернет-провайдер- обов'язкова наявність (+) або відсутність (-) зазначених слів;

      частина слова зі знаком “*” – інтер*- Пошук всіх сторінок, що містять цю частину слова - Інтернет, інтернаціонал, ...;

      ключове слово link: –link:home.microsoft.com– виведе список сторінок, що містять посилання на веб-сайт home.microsoft.com;

      ключове слово url:url:ru– сторінки, які мають у своїй інтернет-адресі домен ru.

    Це т.зв. прості запити, що вводяться у рядку виразу для пошуку. Якщо цих конструкцій недостатньо, можна використати можливості розширеного запиту, що викликається під час натискання кнопки “Advanced”. Тут запити будуються за допомогою логічних операторів AND (“І”), OR (“АБО”), NOT (“НЕ”), а також NEAR

    (“біля”). Наприклад, щоб знайти сторінку, що містить програму телеканалів ГРТ або РТР, потрібно використовувати таку конструкцію: програма AND телеканал* AND (ГРТ OR РТР)Після набору запиту потрібно натиснути клавішу Enter або кнопку Submit. Результати пошуку постають у вигляді назв сторінок, посилань на них та початку тексту, що міститься на сторінці, але відображення результатів можна налаштувати для себе. Основною складністю є таке формулювання запиту, щоб відсіяти якнайбільше непотрібних сторінок. За потреби запит можна уточнити для пошуку у результатах першого пошуку.


    Не дивлячись на досить дивну назву (або завдяки саме йому), до сьогодні Yahoo залишається безумовним лідером за популярністю (і фінансовим благополуччям) серед пошукових систем Інтернету (рис.2). Основною перевагою є наявність "найтовстішого" вбудованого багатоступінчастого тематичного каталогу, що опитує найбільшу в Мережі базу даних (рис.2.1). Недарма серед персональних закладок багатьох користувачів можна знайти посилання на підрозділи каталогу Yahoo. Чималу частку популярності Yahoo серед широких мас привнесли можливості безкоштовного відкриття власної скриньки для роботи з електронною поштою та отримання солідного простору під розміщення веб-сторінок. Серед суттєвих недоліків Yahoo можна відзначити ігнорування багатьох неангломовних ресурсів, необхідність часом десятки разів реєструвати той самий ресурс, безліч застарілих посилань і, найчастіше, відсутність будь-яких коментарів до документа.


    Інтерфейс пошукової системи Yahoo постійно модифікується та вдосконалюється, зона пошуку постійно розширюється. Виникають нові версії пошукової машини для людей різного віку. Створено багато національних Yahoo-серверів. Друкується навіть спеціальний журнал як у віртуальній, так і глянсово-паперовій версіях. Однак основні методи пошуку залишаються незмінними: Ви або крок за кроком уточнюєте область пошуку, дотримуючись вказівників тематичного каталогу, або вписуєте ключові слова за стандартною схемою, вказаною нижче.

    Необхідно усвідомити лише десяток нескладних правил: 1) для початку пошуку, після вказівки ключового слова (або фрази) необхідно натиснути на меню Search (Пошук) або клавішу Enter (Ввести) на клавіатурі, 2) якщо пошук ведеться за одним ключовим словом, пробіл після слова ставиться лише в тому випадку, якщо Ви бажаєте виключити з ймовірного списку ті документи, в яких до ключового слова примикають додаткові знаки (наприклад, розділові знаки), 3) при пошуку за відповідністю хоча б одного з перерахованих слів достатньо відокремити слова пробілами ( наприклад, best provider),

      при пошуку за відповідністю всіх слів необхідно перед другим, третім тощо.

    словами поставити знак "+" (наприклад, best +provider).

      при необхідності виключити із загального списку документи, що містять слово, потрібно використовувати знак "-" (наприклад, best -provider).

    8) для пошуку за відомим заголовком можна використовувати додатковий ключ "t:" (наприклад, t: best). 9) для пошуку слова серед доменних імен (URL) бажано вказати додатковий ключ "u:" (наприклад, u:best). 10) якщо Ви сумніваєтеся у правильності написання того чи іншого слова, використовуйте значок "*" (наприклад, pr*v*der).

    Коли потрібно знайти "дуже конкретну" інформацію, є можливість використовувати "просунутий пошук" (advanced search).

    Тут Ви можете вибрати специфічну логіку пошуку: за повною відповідністю ключової фрази (An exact phrase match), за участю в запиті всіх ключових слів(Matches on all words (AND)), за участю у запиті хоча б однієї з ключових слів (Matches on any word (OR)). Пошук може вестись як за базовим каталогом Yahoo (Yahoo Categories), так і за його межами (Web Sites). Як уже було сказано вище, Yahoo грішить індексуванням застарілого (морально та/або фізично) "сміття", тому іноді надзвичайно корисно мати можливість відсікти "стародавні" матеріали (Find only new listings added during the past ... years). Також можна вибрати кількість результатів пошуку, які відображаються на сторінці.

    Методи введення ключових пошукових фраз особливо не відрізняються в різних пошукових системах, тому можете їх сміливо використовувати. Дуже часто на самому пошуковому сервері можна знайти опис його роботи, яким можна скористатися, якщо стандартні методи не підходять.

     

     

    Це цікаво: