Методи пошуку інформації за допомогою інформаційних ресурсів. Технології пошуку інформації в інтернет

Методи пошуку інформації за допомогою інформаційних ресурсів. Технології пошуку інформації в інтернет

Надіслати свою гарну роботу до бази знань просто. Використовуйте форму нижче

гарну роботуна сайт">

Студенти, аспіранти, молоді вчені, які використовують базу знань у своєму навчанні та роботі, будуть вам дуже вдячні.

Розміщено на http://www.allbest.ru/

План

  • Вступ
  • Пошукові каталоги
  • Технологія пошуку інформації
    • Пошукові машини
    • Добірки посилань
    • Бази даних адрес
  • Висновок
  • Список літератури

Вступ

Сьогодні Інтернет об'єднує безліч різних мереж, мільйони комп'ютерів, близько 300 мільйонів користувачів всіх континентів і, за різними оцінками, кількість користувачів збільшується на 15-80% щорічно. Можна виділити два основних напрямки у використанні Інтернет у бізнесі. Це оперативний доступ до воістину неосяжних джерел інформації з будь-якої тематики (на сотнях тисяч інформаційних серверів), пошук та інтерактивне спілкування з партнерами, практично в будь-якій спеціалізації та географічному розташуванні. Як зорієнтуватися в такому масштабному інформаційному просторі? Для цього існують спеціалізовані пошукові сервери. Їх можна розділити на тематичні каталоги, роботи індексів (пошукові машини), системи мета пошуку.

інформація інтернет пошук каталог

Пошукові каталоги

Основне завдання internet - надання необхідної інформації. Щоб знайти потрібну інформацію, необхідно знати адресу Web-сторінки, на якій ця інформація знаходиться. Найкраще шукати в Мережі необхідну інформацію за допомогою пошукових систем. Пошукова система є спеціалізованим Web-вузолом. Пошукові системи класифікують методами пошуку.

Пошукові каталоги призначені для пошуку на теми. Зазвичай вони збудовані за ієрархічним принципом, тобто. кожен крок пошуку – це вибір підрозділу з більш конкретною тематикою шуканої інформації. На нижньому рівні пошуку користувач отримує відносно невеликий список посилань на інформацію, яку шукає.

Каталог Інтернет-ресурсів - це ієрархічний каталог, що постійно оновлюється і поповнюється, містить безліч категорій і окремих web-серверів з коротким описом їх вмісту. Спосіб пошуку за каталогом має на увазі «рух вниз сходами», тобто рух від більш загальних категорій до більш конкретним. Однією з переваг тематичних каталогів є те, що пояснення до посилань дають творці каталогу і повністю відображають його зміст, тобто дає можливість точніше визначити, наскільки відповідає зміст сервера мети Вашого пошуку.

Прикладом тематичного російськомовного каталогу можна назвати ресурс http://www.ulitka.ru/.

на головній сторінціданого сайту розташований тематичний рубрикатор, за допомогою якого користувач потрапляє в рубрику з посиланнями на продукцію, що його цікавить. Крім того, деякі тематичні каталоги дозволяють шукати за ключовими словами. Користувач вводить необхідне ключове слово у рядок пошуку та отримує список посилань з описами сайтів, які найбільш повно відповідають його запиту. Варто зазначити, що цей пошук відбувається не у вмісті WWW-серверів, а в їх короткому описі, що зберігаються в каталозі.

Найбільш популярним у всьому світі визнано тематичний каталог Yahoo!(http://www.yahoo.com). Він являє собою величезну базу даних URL-адрес сайтів різної тематики. Yahoo!пропонує вам скористатися ієрархічним деревом під час пошуку інформації. Тобто. спочатку вибирається загальна тематика, що задовольняє запит інформації, і далі конкретизуєте, слідуючи підказкам каталогу. У результаті ви отримуєте список сайтів, що містять інформацію, що відповідає вашому запиту. на Yahoo!ви також можете піти і іншим шляхом. Проаналізуйте передбачуваний зміст інформації, що запитується, і виберіть ключові слова, які обов'язково зустрінуться в матеріалах, що вас цікавлять, або їх заголовках. Набираєте ці слова через пропуск у рядку введення на головній сторінці Yahoo!та натискаєте Enter. Система спробує сама підібрати цікаву для вас інформацію. Так як Yahoo!система англомовна, досить зручно використовувати Інтернет-перекладач, такий як "Сократ Інтернет"(http://www.arsenal.ru).

Якщо ж ви шукайте інформацію свідомо російськомовну, то є сенс використовувати російські та місцеві білоруські каталоги. Принцип роботи з ними ідентичний, тому що ми розглянули на прикладі Yahoo!. Тут варто відзначити перший російський каталог Russia on the Net(http://www.ru), один із найбільших російськомовних каталогів List.RU(http://www.list.ru/), російський варіант Yahoo!(http://www.yahoo.ru). Має місце, також, каталог "Сузір'я Інтернет",містить лише обрані (заявлено як найцікавіші) ресурси. Серед білоруських каталогів варто відзначити наш національний Yahoo!(http://unclesam.hypermart.net), новий, що швидко розвивається сервіс 09(http://www.09.open.by), сервер Unibel(http://www.unibel.by) та невелику базу даних без можливості пошуку Data(http://www.data.minsk.by). Говорячи про бази даних, не можна не згадати чудовий російський проект "Жовті сторінки Інтернету"(http://www.piter-press.ru/yp), де як і в однойменній книзі представлена Детальна інформаціяпро різні ресурси Інтернет.

У бізнесі також знадобляться каталоги підприємств та каталоги товарів та послуг. Мабуть, найбільший каталог підприємств СНД – Партнер (http://trifle.net/cis).

Технологія пошуку інформації

Мережа Інтернет росте гігантськими темпами та знайти інформацію, необхідну конкретному користувачеві, не дуже просто. Але можливо, оскільки в мережі є ресурси, які допоможуть не потонути в океані інформації і новачкові, і професіонали.

Поява всесвітньої павутини World Wide Web стало кількісним і якісним стрибком в області інформаційних технологій. Число нових ресурсів та обсяг інформації, яку вони містять, зростає лавиноподібно, збільшується кількість голок в інформаційному "стозі сіна" і, відповідно, розмір його самого. Для пошуку інформації у мережі є такі види ресурсів:

- інформаційні портали;

- каталоги інтернет-ресурсів;

- пошукові системи.

Сама мережа Інтернет поступово перетворилася на Засіб Масової Інформації з величезною аудиторією користувачів у всьому світі та неймовірним обсягом інформації. Вона стала глобальним засобом інформації, що обплутала каналами зв'язку всю земну кулю, але не поглинула звичні нам ЗМІ, вони органічно влилися в мережу на правах самостійних. інформаційних ресурсів. Практично кожна газета, радіостанція чи телеканал у будь-якій країні світу має своє представництво у мережі Інтернет.

Електронна версія газети може і, як правило, сильно відрізняється від паперової, значно перевищуючи її за обсягом - формат даних, що публікуються на інтернет-сайтах більш гнучкий, він не обмежений виділеними під матеріал сторінками, газетними та журнальними шпальтами. З'являється елемент інтерактивності - читачі можуть залишити свої коментарі та відгуки про прочитану статтю, новини, аналітичний огляд.

Деякі періодичні видання, наприклад, TIMES, навіть виконали оцифрування архівів газети за весь час її існування, включаючи роки, коли ще не було ні комп'ютерів, ні комп'ютерних мереж, щоправда, пошук за такими архівами платний і коштує досить дорого.

Найбільш авторитетним та професійним джерелом оперативної інформації для користувачів мережі Інтернет та для засобів масової інформації є Веб-ресурси інформаційних агенцій. Маючи широку кореспондентську мережу, щодня та щогодини, в мережі Інтернет та по каналах електронного зв'язку вони поширюють суспільно-політичну, економічну, наукову, фінансову інформацію.

Пошукові інструменти

Пошукові інструменти – це особливе програмне забезпечення, основна мета якого – забезпечити найбільш оптимальний та якісний пошук інформації для користувачів Інтернету. Пошукові інструменти розміщуються на спеціальних веб-серверах, кожен з яких виконує певну функцію:

1. Аналіз веб-сторінок та занесення результатів аналізу на той чи інший рівень бази даних пошукового сервера.

2. Пошук інформації на запит користувача.

3. Забезпечення зручного інтерфейсудля пошуку інформації та перегляду результату пошуку користувачем.

Прийоми роботи, які використовуються під час роботи з тими чи іншими пошуковими інструментами, практично однакові. Перед тим як перейти до їхнього обговорення, розглянемо такі поняття:

1. Інтерфейс пошукового інструменту представлений у вигляді сторінки з гіперпосиланнями, рядком подання запиту (рядком пошуку) та інструментами активізації запиту.

2. Індекс пошукової системи – це інформаційна база, що містить результат аналізу веб-сторінок, складена за певними правилами.

3. Запит - це ключове слово або фраза, яку користувач вводить у рядок пошуку. p align="justify"> Для формування різних запитів використовуються спеціальні символи ("", |, ~), математичні символи (*, +, ?).

Схема пошуку інформації проста. Користувач набирає ключову фразу та активізує пошук, тим самим отримує добірку документів за сформульованим (заданим) запитом. Цей список документів ранжується за певними критеріями так, щоб угорі списку опинилися ті документи, які найбільше відповідають запиту користувача. Кожен із пошукових інструментів використовує різні критерії ранжирування документів як при аналізі результатів пошуку, так і при формуванні індексу (наповнення індексної бази даних web-сторінок).

Таким чином, якщо вказати у рядку пошуку для кожного пошукового інструменту однакової конструкції запит, можна отримати різні результати пошуку. Для користувача має велике значення, які документи виявляться у перших двох-трьох десятках документів за результатами пошуку та наскільки ці документи відповідають очікуванням користувача.

Більшість пошукових інструментів пропонують два способи пошуку - simple search(простий пошук) та advanced search(розширений пошук) з використанням спеціальної форми запиту та без неї. Розглянемо обидва види пошуку з прикладу англомовної пошукової машини.

Наприклад, AltaVista зручно використовувати для довільних запитів, «Something about online degrees in information technology», тоді як пошуковий інструмент Yahoo дозволяє отримувати світові новини, інформацію про курс валют або прогноз погоди.

Освоєння критеріїв уточнення запиту та прийомів розширеного пошуку, дозволяє збільшувати ефективність пошуку та досить швидко знайти необхідну інформацію. Насамперед, збільшити ефективність пошуку Ви можете за рахунок використання у запитах логічних операторів (операцій) Or, And, Near, Not, математичних та спеціальних символів. За допомогою операторів та/або символів користувач пов'язує ключові слова у потрібній послідовності, щоб отримати найбільш адекватний запит результат пошуку.

Простий запит дає кілька посилань на документи, т.к. до списку потрапляють документи, що містять одне із слів, введених при запиті, або просте словосполучення (див. таблицю 1). Оператор and дозволяє вказати на те, що до змісту документа повинні бути включені всі ключові слова. Тим не менш, кількість документів може бути ще великою, і їх перегляд займе достатньо часу. Тому в ряді випадків набагато зручніше застосувати контекстний оператор near, що вказує на те, що слова повинні розташовуватися в документі в достатній близькості. Використання поблизу значно зменшує кількість знайдених документів. Наявність символу "*" у рядку запиту означає, що здійснюватиметься пошук слова за його маскою. Наприклад, отримаємо список документів, що містять слова, що починаються на gov, якщо в рядку запиту запишемо gov *. Це може бути слова government, governor тощо.

Найбільш розвинений сервіс пошуку російськомовної інформаціїнадає пошуковий серверЯndex. В Яndex можна просто написати російською фразу, що описує те, що Ви хочете знайти, і система проаналізує та опрацює Ваш запит, а потім постарається знайти все, що відноситься до заданої теми. Ви можете, використовуючи спеціальні оператори, скласти рядок, що пояснює пошуковій системі, яким Вашим вимогам повинна відповідати інформація, що Вас цікавить.

Не менш популярна Пошукова система Rambler веде статистику відвідуваності посилань з власної бази даних, підтримуються ті ж логічні оператори І, АБО, НЕ, метасимвол * (аналогічно розширює діапазон запиту символу * AltaVista), коефіцієнтні символи + і -, для збільшення або зменшення значущості слів, що вводяться в запит.

Найбільшпопулярні технології пошуку інформації в Інтернет.

Пошукові машини (search engines)

Машини веб-пошуку - це сервери з величезною базою даних URL-адрес, які автоматично звертаються до сторінок WWW на всі ці адреси, вивчають вміст цих сторінок, формують і прописують ключові слова зі сторінок у свою базу даних (індексує сторінки).

Більше того, роботи пошукових систем переходять за посиланнями, що зустрічаються на сторінках, і переіндексують їх. Так як майже будь-яка сторінка WWW має безліч посилань на інші сторінки, то при подібній роботі пошукова машина зрештою теоретично може обійти всі сайти в Інтернет.

Саме цей вид пошукових інструментів є найбільш відомим та популярним серед усіх користувачів мережі Інтернет. У кожного на слуху назви відомих машин веб-пошуку (пошукових систем) – Яndex, Rambler, Aport.

Щоб скористатися даним видом пошукового інструменту, необхідно зайти на нього і набрати в рядку пошуку ключове слово, що Вас цікавить. Далі Ви отримаєте видачу з посилань, що зберігаються в базі пошукової системи, які найбільш близькі до Вашого запиту. Щоб пошук був найбільш ефективним, заздалегідь зверніть увагу на такі моменти:

· Визначтеся з темою запиту. Що саме зрештою Ви хочете знайти?

· Звертайте увагу на мову, граматику, використання різних небуквенних символів, морфологію. Важливо також правильно сформулювати та вписати ключові слова. Кожна пошукова система має форму складання запиту -- принцип один, але можуть відрізнятися використовувані символи чи оператори. Необхідні форми запиту також різняться залежно від складності програмного забезпеченняпошукових систем та послуг, що надаються ними. Так чи інакше, кожна пошукова система має розділ "Help" ("Допомога"), де всі синтаксичні правила, а також рекомендації та поради щодо пошуку, доступно пояснюються (скриншот сторінок пошукових систем).

· Використовуйте можливості різних пошукових систем. Якщо не знайшли на Yandex, спробуйте на Google. Користуйтеся послугами розширеного пошуку.

· Щоб виключити документи, що містять певні терміни, скористайтеся символом "-" перед кожним таким словом. Наприклад, якщо Вам потрібна інформація про роботи Шекспіра, за винятком "Гамлета", введіть запит у вигляді: "Шекспір-Гамлет". І щоб, навпаки, до результатів пошуку обов'язково включалися певні посилання, використовуйте символ "+". Так, щоб знайти посилання про продаж саме автомобілів, Вам потрібен запит "продаж+автомобіль". Для збільшення ефективності та точності пошуку використовуйте комбінації цих символів.

· кожне посилання у списку результатів пошуку містить сніпет - кілька рядків зі знайденого документа, серед яких зустрічаються Ваші ключові слова. Перш ніж переходити за посиланням, оцініть відповідність сніпету темі запиту. Перейшовши на певний сайт, уважно окиньте поглядом головну сторінку. Як правило, першої сторінки достатньо, щоб зрозуміти – за адресою Ви прийшли чи ні. Якщо так, то подальші пошуки потрібної інформації ведіть на вибраному сайті (у розділах сайту), якщо ні – повертайтеся до результатів пошуку та спробуйте чергове посилання.

· Пам'ятайте, що пошукові системи не виробляють самостійну інформацію (за винятком роз'яснень про себе). Пошукова система – це лише посередник між власником інформації (сайтом) та Вами. Бази даних постійно оновлюються, в них вносяться нові адреси, але відставання від реально існуючої інформації все одно залишається. Просто тому, що пошукові системи не працюють зі швидкістю світла.

До найвідоміших машин веб-пошуку належать Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos. Серед російськомовних можна назвати Яndex, Rambler, Апорт.

Пошукові системи є наймасштабнішими та найціннішими, але далеко не єдиними джерелами інформації в Мережі.

Добірки посилань

Добірки посилань – це відсортовані за темами посилання. Вони досить сильно відрізняються один від одного за наповненням, тому щоб знайти добірку, що найбільш повно відповідає Вашим інтересам, необхідно ходити по них самостійно, щоб скласти власну думку.

Бази даних адрес (addresses database)

Бази даних адрес - це спеціальні пошукові сервери, які зазвичай використовують класифікації за родом діяльності, по продукції, що випускається, і послуг, що надаються, за географічною ознакою. Іноді вони доповнені пошуком за абеткою. У записах бази даних зберігається інформація про сайти, які надають інформацію про електронну адресу, організацію та поштову адресу за певну плату.

Найбільшою англомовною базою даних адрес можна назвати: http://www.lookup.com/ -є рубрикатор з безліччю піддиректорій, таких як: Find Person, Phone Numbers, Name Search та інші.

Потрапляючи в дані піддиректорії, користувач виявляє посилання на сайти, які і пропонують інформацію, що його цікавить.

Висновок

Ми розглянули основні технології пошуку інформації в Інтернеті та представили загалом пошукові інструменти, які існують на Наразів Інтернеті, а також структуру пошукових запитівдля найбільш популярних російськомовних та англомовних пошукових систем і, підбиваючи підсумок вищесказаному, хочемо відзначити, що єдиної оптимальної схеми пошуку інформації в Інтернеті не існує. Залежно від специфіки потрібної інформації, Ви можете використовувати відповідні пошукові інструменти та служби. А від того, наскільки грамотно будуть підібрані пошукові служби, залежить якість результатів пошуку

Підсумовуючи, можна сказати, що єдиної оптимальної схеми пошуку в Інтернеті не існує. Залежно від специфіки необхідної вам інформації, для її пошуку ви повинні використовувати відповідні пошукові служби. В принципі, звичайно, можна завжди користуватись якоюсь однією пошуковою системою, наприклад Rambler, але чим грамотніше підібрані пошукові служби та складено запит на пошук інформації, тим якіснішими будуть результати пошуку. А в бізнесі якість інформації відіграє далеко не останню роль.

Список літератури

1. Барабанов З. Intranet: крок за кроком // Комп'ютер прес. – 1997. – №6. - С.148-154.

2. Барабанов С. та ін. Комп'ютерні системи: вчора, сьогодні, завтра // Комп'ютер прес. – 2007. – №2. - с. 152-158.

3. Internet – ресурси.

Розміщено на Allbest.ru

Подібні документи

    Особливості пошуку інформації в Інтернет: стратегія та методика. Пошукові машини, каталоги та портали інформаційних ресурсів. Підбір та введення ключових слів. Використання режиму розширеного пошуку, який має кожна з пошукових систем в Інтернеті.

    реферат, доданий 06.08.2014

    Засоби пошуку інформації в Інтернеті. Основні вимоги та методика пошуку інформації. Структура та характеристика пошукових сервісів. Глобальні пошукові системи WWW (World Wide Web). Планування пошуку та збору інформації в мережі Інтернет.

    реферат, доданий 02.11.2010

    Інформаційна революція, яку зараз переживає суспільство. Проведення структурного аналізу документів. Пошук аналогової інформації у системних областях. Пошук інформації через Інтернет. Види пошукових ресурсів: каталоги та пошукові роботи.

    курсова робота , доданий 16.12.2012

    Характеристика методів пошуку інформації в Інтернеті, а саме – з використанням гіпертекстових посилань, пошукових машинта спеціальних засобів. Аналіз нових інтернет-ресурсов. Історія виникнення та опис західних та російськомовних пошукових систем.

    реферат, доданий 12.05.2010

    Інтернет та його можливості. Поширений та недорогий спосіб підключення до інтернету. Схема передачі за протоколом TCP/IP. Характеристики адрес різного класу. Пошукові системи, способи пошуку та завантаження інформації в глобальній мережі.

    курсова робота , доданий 25.09.2013

    Основні протоколи, які у Інтернет. Інструменти пошуку в Інтернеті. Популярні пошукові системи. Як працюють механізми пошуку? Засоби пошуку та структурування. Автоматизована навігація по Мережі. Критерії якості роботи пошукової машини.

    реферат, доданий 14.02.2012

    Передісторія появи мережі Інтернет. Веб-сторінки, сайти, портали. Основні ресурси інтернет: місце розташування та зміст. Бібліотеки, газети, журнали та інші інформаційні ресурси. Пошукові системи, каталоги, архіви. Спілкування через Інтернет.

    курсова робота , доданий 09.05.2012

    Теоретичні основи Інтернет-технологій та основних служб Інтернету. Ознайомлення з можливостями підключення до Інтернету. Основні служби мережі. Принципи пошуку інформації у WWW. Огляд сучасних Інтернет-браузерів. Програми для спілкування у мережі.

    курсова робота , доданий 18.06.2010

    Простота пошуку інформації в системі "Google.ru", його технології та функції. Історія терміна та його застосування. Вибір умов пошуку, автоматичний виняток загальних слів. Калькулятор та конвертування валют. Подібні сторінки та перевірка правопису.

    реферат, доданий 21.02.2011

    Пошук інформації в Інтернет: стратегія та методика. Глобальні та російські каталоги та пошукові машини: принцип роботи, переваги та недоліки. Аналітичний огляд знайдених документів на тему "Облік коштів, документів та переказів у дорозі".

Технологія пошуку інформації в Інтернеті. Види пошукових інструментів

1. Введення

2. Технології пошуку

2.1 Пошукові інструменти

2.2 Пошукові машини (search engines)

2.3 Каталоги (directories)

2.4 Добірки посилань

2.5 Бази даних адрес (addresses database)

2.6 Пошук в архівах Gopher (Gopher archives)

2.7 Система пошуку FTP файлів (FTP Search)

2.8 Система пошуку у конференціях Usenet News

2.9 Системи мета-пошуку

2.10 Системи пошуку людей

3. Висновок

Додаток . Короткі відомостіпро пошукові системи

1. Введення

З кожним роком обсяги Інтернету збільшуються в рази, тому можливість знайти необхідну інформацію різко зростає.

Інтернет поєднує мільйони комп'ютерів, безліч різних мереж, кількість користувачів збільшується на 15-80% щорічно. І, тим не менш, все частіше при зверненні до Інтернету основною проблемою виявляється не відсутність шуканої інформації, аможливість її знайти. Як правило, звичайна людина через різні обставини не може або не хоче витрачати на пошук потрібної їй відповіді більше 15-20 хвилин. Тому особливо актуально правильно і грамотно навчитися, здавалося б, простої речі – де і як шукати, щоб отримувати БАЖАНІ відповіді.

Щоб знайти потрібну інформацію, потрібно знайти її адресу. Для цього існують спеціалізовані пошукові сервери (роботи індексів (пошукові системи), тематичні Інтернет-каталоги, системи мета-пошуку, служби пошуку людей тощо).

Далі розкриваються основні технології пошуку інформації в Інтернеті, надаються загальні риси пошукових інструментів, розглядаються структури пошукових запитів для найпопулярніших російськомовних та англомовних пошукових систем.

2. Технології пошуку

Web-технологія World Wide Web (WWW) вважається спеціальною технологією підготовки та розміщення документів у мережі Інтернет. До складу WWW входять і web-сторінки, і електронні бібліотеки, каталоги та навіть віртуальні музеї! За такої великої кількості інформації гостро постає питання: «Як зорієнтуватися в такому величезному та масштабному інформаційному просторі?» У вирішенні цієї проблеми на допомогу приходять пошукові інструменти.

2.1 Пошукові інструменти

Пошукові інструменти – це особливе програмне забезпечення, основна мета якого – забезпечити найбільш оптимальний та якісний пошук інформації для користувачів Інтернету. Пошукові інструменти розміщуються на спеціальних веб-серверах, кожен з яких виконує певну функцію:

1. Аналіз веб-сторінок та занесення результатів аналізу на той чи інший рівень бази даних пошукового сервера.

2. Пошук інформації на запит користувача.

3. Забезпечення зручного інтерфейсу для пошуку інформації та перегляду результату пошуку користувачем.

Прийоми роботи, які використовуються під час роботи з тими чи іншими пошуковими інструментами, практично однакові.

Спочатку розглянемо такі поняття:

1. Інтерфейс пошукового інструменту представлений у вигляді сторінки з гіперпосиланнями, рядком подання запиту (рядком пошуку) та інструментами активізації запиту.

2. Індекс пошукової системи- Це інформаційна база, що містить результат аналізу веб-сторінок, складена за певними правилами.

3. Запит – це ключове слово або фраза, яку користувач вводить у рядок пошуку. Для формування різних запитів використовуються спеціальні ("", ~) та математичні символи (*, +, ?).

Схема пошуку інформації проста. Користувач набирає ключову фразу та активізує пошук, тим самим отримує добірку документів за сформульованим запитом. Цей список документів позначається за певними критеріями так, щоб угорі списку опинилися ті документи, які найбільше відповідають запиту користувача. Кожен із пошукових інструментів використовує різні критерії ранжирування документів як при аналізі результатів пошуку, так і при формуванні індексу (наповнення індексної бази даних web-сторінок).

Таким чином, якщо вказати у рядку пошуку для кожного пошукового інструменту однакової конструкції запит, можна отримати різні результати пошуку. Для користувача має велике значення, які документи виявляться у перших двох-трьох десятках документів за результатами пошуку та наскільки ці документи відповідають очікуванням користувача.

Більшість пошукових інструментів пропонують два способи пошуку - simple search (простий пошук) та advanced search (розширений пошук) з використанням спеціальної форми запиту і без неї. Розглянемо обидва види пошуку з прикладу англомовної пошукової машини.

Наприклад, AltaVista зручно використовувати для довільних запитів, Колись про online degrees in information technology», тоді як пошуковий інструмент Yahoo дозволяє отримувати світові новини, інформацію про курс валют або прогноз погоди.

Освоєння критеріїв уточнення запиту та прийомів розширеного пошуку, дозволяє збільшувати ефективність пошуку та досить швидко знайти необхідну інформацію. Перш за все, збільшити ефективність пошуку Ви можете за рахунок використання в запитах логічних операторів (операцій) Or, And, Near, Not, математичних та спеціальних символів. За допомогою операторів та/або символів користувач пов'язує ключові слова у потрібній послідовності, щоб отримати найбільш адекватний запит результат пошуку. Форми запитів на англ. наведено у таблиці 1.

Таблиця 1

Простий запит

Розширений запит

Розширений

використанням математичних

символів

internet merchant account and

Internet+ merchant+ account

merchant account

internet ~ merchant ~ gov *

internet merchant account

internet merchant near gov*

internet ~ merchant ~ governor

"merchant account"

internet merchant near education

Internet ~ merchant ~ (governor

"Internet merchant account"

Простий запит дає кілька посилань на документи, т.к. до списку потрапляють документи, що містять одне із слів, введених при запиті, або просте словосполучення (див. таблицю 1). Операторand дозволяє вказати на те, що до змісту документа повинні бути включені всі ключові слова. Тим не менш, кількість документів може бути ще великою, і їх перегляд займе достатньо часу. Тому в ряді випадків набагато зручніше застосувати контекстний оператор near, що вказує на те, що слова повинні розташовуватися в документі в достатній близькості. Використання близько значно зменшує кількість знайдених документів. Наявність символу "*" у рядку запиту означає, що буде здійснюватись пошук слова за його маскою. Наприклад, отримаємо список документів, що містять слова, що починаються на gov, якщо в рядку запиту запишемо gov *. Це може бути слова government, governor тощо.

Найбільш розвинений сервіс пошуку російськомовної інформації надає пошуковий сервер Яndex.

В Яndex можна просто написати російською фразу, що описує те, що Ви хочете знайти, і система проаналізує та опрацює Ваш запит, а потім постарається знайти все, що відноситься до заданої теми.

Ви можете, використовуючи спеціальні оператори, скласти рядок, що пояснює пошуковій системі, яким Вашим вимогам повинна відповідати інформація, що Вас цікавить. Деякі з операторів мови запитів Яndex можна переглянути тут: http://help.yandex.ru/search/?id=481939

Не менш популярна пошукова система Rambler веде статистику відвідуваності посилань з власної бази даних, підтримуються ті ж логічні оператори. слів, що вводяться в запит.

Давайте розглянемо найпопулярніші технології пошуку інформації в Інтернеті.

2.2 Пошукові машини (search engines)

Машини веб-пошуку - це сервери з величезною базою даних URL-адрес, які автоматично звертаються до сторінок WWW на всі ці адреси, вивчають вміст цих сторінок, формують і прописують ключові слова зі сторінок у свою базу даних (індексує сторінки).

Більше того, роботи пошукових систем переходять за посиланнями, що зустрічаються на сторінках, і переіндексують їх. Так як майже будь-яка сторінка WWW має безліч посилань на інші сторінки, то при подібній роботі пошукова машина зрештою теоретично може обійти всі сайти в Інтернет.

Саме цей вид пошукових інструментів є найбільш відомим та популярним серед усіх користувачів мережі Інтернет. У кожного на слуху назви відомих машин веб-пошуку (пошукових систем) – Яndex,

Rambler, Aport.

Щоб скористатися даним видом пошукового інструменту, необхідно зайти на нього і набрати в рядку пошуку ключове слово, що Вас цікавить.

Щоб пошук був найбільш ефективним, заздалегідь зверніть увагу на наступні моменти:

визначтеся з темою запиту. Що саме зрештою Ви хочете знайти?

звертайте увагу на мову, граматику, використання різних небуквенних символів, морфологію . Важливо також правильно сформулювати та вписати ключові слова. Кожна пошукова система має форму складання запиту - принцип один, але можуть відрізнятися використовувані символи чи оператори. Необхідні форми запиту різняться також залежно від складності програмного забезпечення пошукових систем та послуг, що надаються ними. Так чи інакше, кожна пошукова система має розділ " Help "("Допомога"), де всі синтаксичні правила, а також рекомендації та поради з пошуку, доступно пояснюються (скриншот сторінок пошукових систем).

використовуйте можливості різних пошукових систем . Якщо не знайшли на Yandex, спробуйте на Google. Користуйтеся послугами розширеного пошуку.

Щоб виключити документи, які містять певні терміни, використовуйте знак "-" перед кожним словом. Наприклад, якщо Вам потрібна інформація про роботи Шекспіра, за винятком "Гамлета", введіть запит у вигляді: "Шекспір-Гамлет". А щоб у результати пошуку обов'язково включалися певні посилання, використовуйте символ "+ ": посилання про продаж саме автомобілів - запит "продаж+автомобіль".

кожне посилання у списку результатів пошуку містить сніпет – кілька рядків зі знайденого документа, серед яких зустрічаються Ваші ключові слова. Перш ніж переходити за посиланням, оцініть відповідність сніпету темі запиту. Перейшовши на певний сайт, уважно окиньте поглядом головну сторінку. Як правило, першої сторінки достатньо, щоб зрозуміти – на адресу Ви прийшли чи ні. Якщо так, то подальші пошуки потрібної інформації ведіть на вибраному сайті (у розділах сайту), якщо ні – повертайтеся до результатів пошуку та спробуйте ще одне посилання.

пам'ятайте, що пошукові системи не виробляють самостійну інформацію (за винятком роз'яснень про себе). Пошукова система

це лише посередник між власником інформації (сайтом) та Вами. Бази даних постійно оновлюються, в них вносяться нові адреси, але відставання від реально існуючої інформації все одно залишається. Це просто тому, що пошукові системи не працюють зі швидкістю світла.

До найбільш відомих машин веб-пошуку відносяться Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos. Серед російськомовних можна виділити Яndex, Rambler, Апорт.

Пошукові системи є наймасштабнішими та найціннішими, але далеко не єдиними джерелами інформації в Мережі.

Пошук інформації в Інтернеті проводиться двома основними способами – за допомогою каталогів (їх ще називають директоріями) та за допомогою пошукових машин.

Директорії забезпечують контекстний пошук для структурованого перегляду, тоді як пошукові машини, як випливає з назви, контексту не забезпечують, проте дозволяють знаходити конкретні слова або фрази.

Директорії можна уподібнити до змісту книги, а пошукові машини – предметному покажчику.

Часто пошукові системи об'єднують у собі як пошукову машину, і директорії.

Це добре видно на прикладі першої сторінки Яндекса, де під пошуковим рядком розміщується список директорій, які дозволяють користувачеві уточнювати запит у міру просування в глиб кожної з них.

Зважаючи на те, що принцип організації директорій зрозумілий кожному, хто користувався бібліотечним каталогом – а серед читачів таких, сміємо вважати, переважна більшість – ми не будемо докладно зупинятися на техніці роботи з директоріями та приділимо більше уваги роботі з пошуковими машинами. На завершення ж розмови про каталоги наведемо приклад «ланцюжка», за яким здійснюється пошук у каталозі Яндекса: Бізнес > Реклама > Реклама у Інтернеті.

Всі пошукові машини працюють по тому самому алгоритму і засновані на одних і тих же принципах. Відмінності між ними виникають лише на рівні технічної реалізації цих принципів у роботі.

Щоб зрозуміти принцип роботи пошукової машини, спробуємо розділити питання на дві частини: на чому базується пошук і як він реалізований.

На чому базується пошук

Усі пошукові машини базуються на трьох основних операторах, що лежать в основі Булевої алгебри (її також називають Булевою логікою або Boolean).

Це логічні оператори «І», «АБО» та «НЕ». Працюють вони в такий спосіб.

1. Логічне "І". Якщо між двома словами в запиті стоїть оператор «І», то в результаті пошуку будуть знайдені лише ті документи, які містять обидва слова. Так, наприклад, на запит собака І кішка буде знайдено документ, що містить пропозицію «собака гналася за кішкою»,документів, що складаються з тексту «кішка відпочивала»або "корм для собак", ми не побачимо.

2. Логічне «АБО».Якщо між словами стоїть оператор «АБО», то результатом пошуку стануть документи, в яких міститься хоча б одне з цих слів.

Якщо ми не зробимо спеціальних обмежувальних застережень, то матеріали, в яких ці слова присутні, також будуть знайдені.

За запитом собака АБО кішка ми отримаємо документи, виключені в минулому запиті та містять текст «кішка відпочивала»або "корм для собак",а також матеріал із пропозицією «собака гналася за кішкою».

3. Логічне "НЕ".Якщо два попередні оператори описували ті слова, які ви хочете включити в запит, то оператор «НЕ» слова із запиту виключає. Користувачі, які вперше стикаються з операторами запитів, нерідко висловлюють подив: мовляв, чи не простіше й не включати непотрібне слово в запит? Навіщо вводити додатковий оператор? На жаль немає. Чи не простіше.

Насправді, щоб зрозуміти важливість логічного оператора «НЕ», варто згадати, що наш запит не створює в Інтернеті нічого нового. Ми лише вивуджуємо те, що нам потрібно, з наявного величезного, але все ж таки кінцевого масиву. При цьому необхідно відсікти інформаційне сміття. Його ми й відсікаємо за допомогою оператора «НЕ». На жаль, не нам вирішувати, чи побачимо ми це сміття у видачі. Так, наприклад, за запитом відомостей про коника даху незмінно з'являється інформаційне сміття у вигляді документів про Конька-Горбунку, фігурне катання, хокей, коней тощо. Без логічного «НЕ» тут ніяк не обійтися.

Розгляньмо приклади роботи логічного оператора «НЕ».

За запитом собака НЕ ​​кішка буде знайдено документ, що містить текст "корм для собак",а ось документи зі словами «кішка відпочивала»або «собака гналася за кішкою»,і навіть «корми для собак та котів»з видачі буде виключено.

Часто зустрічається трохи більш складний варіант написання запиту, який містить усі або майже всі перераховані вище оператори. В цьому випадку краще скористатися таким елементом, як круглі скоби. Дужки дозволяють відокремлювати однотипні слова запиту від інших. Крім того, самому укладачу при цьому візуально набагато зручніше розрізняти окремі фрагменти запиту. Ми не надто теоретизуватимемо про дужки, а просто продемонструємо роботу зазначеного елемента на конкретних прикладах. На наш погляд, так буде зрозуміліше, як і для чого використовуються дужки.

Так, запит пухнасті І (собаки АБО кішки)

дозволить отримати документи, що стосуються як пухнастих собак, так і пухнастих кішок – окремо або разом. Дужки при цьому «розкриваються» за звичайними арифметичними правилами винесення за дужку загального множника (для тих, хто не любить математику, поспішимо сказати, що більше заглиблюватися в неї ми не будемо). А ось запит пухнасті І (собаки АБО кішки) НЕ (собаки І кішки)

видасть документи, в яких написано про пухнастих собак або пухнастих кішок, але не міститиме текстів, де одночасно будуть згадані і кішки, і собаки.

Ще раз повторимося, всі пошукові машини сьогодні працюють на основі аналізу цих трьох операторів, хоча нюанси їх написання у різних пошукових машинахможуть відрізнятись.

Як пошук реалізовано

Кожна повноцінна пошукова машина має власний штат роботів, або павуків. Їх ще називають краулерами (crawlers) та спайдерами (spiders,). Це програми, які перескакують зі сторінки на сторінку і сканують тексти, що знаходяться на них, не вникаючи при цьому в їх зміст. Після чого скидають документи на сервери своїх господарів та йдуть до наступних сторінок. Як павук визначає, куди йому піти? Він знаходить так зване гіперпосилання (ту саму, при наведенні на яку курсор набуває вигляду розкритої долоні, і при кліку по якій відбувається перехід на іншу сторінку) і йде по ній. Ось чому, якщо на сторінку не веде жодне посилання, павук на неї теж не прийде. Виняток становить ситуація, коли власник сторінки вручну повідомить про неї пошукову машину, заповнивши спеціальну форму на сайті пошукової машини.

На сервері пошукової машини текст розбивається на окремі слова, кожному з яких присвоюються координати, після чого вони заносяться в таблицю сервера разом з посиланням на ту адресу в Інтернеті, за якою текст розміщувався під час відвідування павуком.

Сам по собі пошуковик є великою локальну мережу, що складається з потужних комп'ютерівз великим обсягом дискової пам'яті. Ці машини розділені на підгрупи (звані кластери), між якими розподіляється інформація, зібрана павуками.

Коли пошукова система отримує запит, вона шукає відповідь саме у своїй таблиці, а чи не в Інтернеті.

При цьому важливо зрозуміти, як павук вирішує, з якою частотою слід відвідувати ту чи іншу сторінку. Виглядає цей алгоритм приблизно в такий спосіб. Попрацювавши зі сторінкою, павук повертається на неї, наприклад, через два тижні. І якщо бачить, що жодних змін не відбулося, він планує наступне відвідування через триваліший період – скажімо, через місяць. А якщо і тоді не виявить нічого нового, то навідується сюди ще пізніше, місяці через півтора-два.

Ось чому нерідко буває так, що пошукова машина на запит результат видає, а спроба перейти на сторінку за отриманим посиланням безрезультатна - найімовірніше, ніякої сторінки вже просто не існує на колишньому місці, але павук на неї давно не заходив, і, відповідно, пошукова система про її видалення не знає.

Весь комплекс процесів, що описані вище, називається індексацією.

Історія розвитку пошукових машин

Історія еволюції пошукових машин найповніше, на наш погляд, представлена ​​у книзі визнаних експертів у галузі невидимого інтернету Кріса Шермана та Гаррі Прайса «Невидимий Інтернет».

До середини 1960-х комп'ютерів було небагато. Ізольовані один від одного, вони не могли обмінюватися інформацією.

У 1962 р. професор Ліклайдер (Licklider) з провідного технічного вузу США – Массачусетського Технологічного інституту – сформулював глобальну концепцію комп'ютерної мережі"Galactic Network". Ідея почала втілюватися в життя співробітником американського міністерства оборони Ларрі Робертсом (Larry Robberts), який за чотири роки після публікації статті професора запропонував об'єднати окремі комп'ютериміністерства у мережу, описану Ліклайдером. Такі передумови виникнення мережі «ARPANET», яка потім перетворилася на те, що сьогодні називають Інтернетом. Перший вузол «ARPANET» з'явився у 1969 р., і наступні кілька років до нього підключалися університети та різні контрагенти, які працювали на замовлення військового відомства США.

У 1973 р. американське міністерство оборони ініціювало нову програму, що передбачала забезпечувати надійний зв'язок комп'ютерів між собою за допомогою дуже великої кількості різних з'єднань. Метою такого рішення було підвищення стійкості системи до спроб масово порушити електронні засоби комунікації. Оскільки все це відбувалося за часів «холодної війни», йшлося про стійкість до жахливих наслідків, якими загрожує стратегічне ядерне протистояння. Оскільки «ARPANET» був єдиною мережею, що на системному рівні знижувало його здатність чинити опір руйнуванням, виникла ідея створення «мережі з мереж», яка теоретично могла б бути нескінченно великою. Цей проект і назвали Internetting, а саму мережу Internet.

У міру того, як кількість приєднаних до Інтернету машин збільшувалася, об'єктивно назріло питання необхідності інструментів, що дозволяють легко знаходити текст та інші файли на віддаленому комп'ютері, в ідеалі - на будь-якому, де б він не розташовувався в Мережі.

Доступ до файлів на самих ранніх етапахрозвиток Інтернету здійснювався у два етапи, кожен із яких виконувався вручну: спеціальні команди вводилися з клавіатури. До речі, тоді комп'ютери могли керуватися лише фахівцями, здатними вводити команди у відповідний рядок. Графічний інтерфейс, що дозволяє комфортно працювати з машиною непідготовленій людині ще не винайшли. Так ось насамперед за допомогою програми Telnet встановлювалося пряме з'єднанняз комп'ютером, на якому знаходиться потрібний файл. На цьому етапі лише налагоджувався зв'язок, нічого й нікуди в цей момент ще не передавалося. І лише потім за допомогою спеціальної програми– FTP – можна було взяти цей конкретний файл.

Очевидно, що на пошуки потрібного документа йшла маса часу: потрібно знати точну адресу комп'ютера, на якому він знаходиться.

Тим часом файлів ставало все більше, інтерес до них постійно зростав, і для того, щоб знайти адресу одного з них, зазвичай доводилося звертатися до дискусійних груп з проханням про допомогу і в надії на те, що хтось із співрозмовників підкаже заповітну адресу, яким зберігається необхідна інформація.

В результаті стали з'являтися спеціальні FTP-сервери, які являли собою сховище файлів, організованих в директорії, за принципом зберігання інформації на персональному комп'ютері. Такі сервери існують і сьогодні.

Перший працездатний, загальнодоступний інструмент пошуку файлів, що зберігаються на FTP-серверах, називався Арчі (Archie) і був створений в 1990 р. групою системних адміністраторівта студентів старших курсів Університету Мак Джил (McGill) у Монреалі. «Арчі» був прототипом сьогоднішніх пошукових машин, але значно примітивнішим і обмеженішим у своїх можливостях. Він блукав Інтернетом, розшукував файли на різних FTP-серверах і завантажував список директорій кожного знайденого сервера на власний, формуючи загальний каталог.

Цей каталог потім оброблявся та зберігався у центральній базі даних, усередині якої можна було організувати пошук. Пошук на своєму комп'ютері на той момент існував вже здавна і, незважаючи на те, що теж вимагав введення команд, труднощів у роботі не створював. Однак без спеціальної підготовки використовувати комп'ютер повноцінно людина не могла. База даних знаходилася в університеті Мак Джілл та оновлювалася щомісяця.

У 1991 р. команда Марка Мак Кахілла (Mark McCahill) з Університету Міннесоти створила програму "Голден Гофер" (Golden Gopher - у перекладі з англійської "золотошукач" або "старатель"), яка поєднувала в собі обидва протоколи - Telnet і FTP. Все, що потрібно було зробити користувачеві для отримання доступу до потрібної інформації, – натиснути на гіперпосилання, наведене в меню. Таким чином, вперше в історії вводити будь-які команди вже не потрібно, тож відтепер за ресурсами Інтернету люди могли «бродити» і без спеціальної підготовки.

Програма показувала користувачеві покрокові меню, що послідовно виникають, що дозволяло йому без проблем йти в глиб бази директорій, все більше наближаючись до специфічних документів, які і становили мету пошуку. Цей алгоритм, по суті, збережений і сьогодні у Каталогах, які розміщені в Інтернеті.

Стало можливо отримувати як текстові документи, і графічні, і музичні, без прив'язки до якогось певного формату. А найголовніше, стало в принципі легко знайти і отримати в Інтернеті потрібну інформацію.

Проте проблеми все ж таки залишалися. Одна з них і досить серйозна була пов'язана з тим, що комп'ютери були побудовані на різних платформах, які часом не розуміли один одного. Тут можна провести аналогію з людьми, які розмовляють абсолютно різними мовами і тому не можуть побудувати більш менш осмислену бесіду. На той час між собою конкурували не операційні системи, як зараз, а виробники комп'ютерного «заліза». Сьогодні меншою мірою важливо, хто зробив комп'ютер. Набагато важливіше, що на ньому встановлено: Windows, Linux, Mac OS або якась інша система. А тоді саме виробники заліза визначали обличчя Інтернету.

Об'єктивно назрівала ідея, згідно з якою комп'ютери різних платформ повинні мати можливість працювати в одному протоколі, що дозволяє переглядати сторінки незалежно від того, на якій машині ці сторінки створені. Потрібно було придумати такий універсальний протокол і зробити його зручним для користувачів. Першим, хто здогадався поєднати відому на той час просту форму гіпертексту з універсальними комунікаційними протоколами, був Тім Бернерс-Лі (Tim Berners-Lee).

Щоб користувач отримав в руки незалежну від платформи і при цьому простий інструмент, Бернерс-Лі створив HTML (HyperText Markup Language, тобто Мова гіпертекстової розмітки). Всі Web-документи, відформатовані за допомогою тегів HTML, видно абсолютно однаково в усьому світі, незалежно від типу комп'ютера, на якому людина відкрила сторінку сайту. Тому і сьогодні при перекладі файлу у формат HTML, наприклад, на машині, що працює під керуванням операційної системи MacOS, можна бути впевненим у тому, що цей файл буде виглядати так само і на комп'ютері, що працює під керуванням Windows.

Потім Бернерс-Лі придумав Universal Resource Identifier – метод стандартизації адрес, при якому комп'ютерам в Інтернеті надаються унікальні адреси (сьогодні ми їх називаємо URL, це те, що у звичному для користувача вигляді зазвичай починається з www). Нарешті, винахідник зібрав всі ці елементи, створивши систему у формі Web-серверів, які зберігають HTML-документи і надають їх іншим комп'ютерам, створюючи HTML-запити про документи за певними URL.

Але Бернерс-Лі хотів бачити Інтернет як інформаційний простір, де можна отримати вільний доступдо даних будь-яких типів. На ранніх етапах розвитку глобальної Мережіпереважали прості текстові документи HTML. На той час існували системи пошуку інформації на локальних машинах, тому з'явилося кілька серверів, які намагалися проіндексувати якусь частину сторінок Web і перед тим, як вирушати за чимось в Інтернет, пропонували пошукати необхідні відомості на цих серверах.

При цьому основна проблема полягала в тому, щоб знайти сторінки, які в принципі можна було б індексувати. Оскільки Інтернет позбавлений централізованої структури та загального змісту, єдиний спосіб, що дозволяв досягти цього, полягав у пошуку посилання на сторінку та переході за цим посиланням, з подальшим додаванням знайденого ресурсу до індексу.

Однак невдовзі виникла ще одна проблема. Найбільш популярні сторінки відвідувалися павуками частіше за інших, оскільки на них вказувало максимальну кількість посилань. Павуки, кількість та можливості яких були обмежені, «зависали» на таких сторінках і даремно витрачали ресурси, залишаючи невідвіданим безліч інших адрес, поки що менш популярних. Для вирішення цієї проблеми потрібно створити програму, яка дозволила б ігнорувати вже проіндексовані сторінки і зосередитися на пошуку нових. Інакше це загрожувало проблемою із ресурсами.

У 1993 р. студент-фізик Массачусетського технологічного інституту Метью Грей (Mathew Gray) створив перший широко відомий Web-робот, названий "World Wide Web Wanderer" або просто "Вандерер", що в перекладі з англійської означає "блукач" або "мандрівник" . Справа в тому, що Ґрей зацікавився статистикою. Результатом такого захоплення стала поява «мандрівника»: винахід покликаний допомогти студенту проаналізувати розміри Інтернету та швидкість його зростання. Вандерер просто приходив на сторінку і визначав сам факт її існування, не заносячи в базу вмісту знайденої адреси. Незважаючи на те, що творець робота не мав жодних інших цілей, його дітище, що фактично дебютувало в «забігу» прогресивних інтернет-знахідок, лягло в основу більш складних програм, які до вміння «блукати» переміщатися по Мережі додали здатність зберігати вміст сторінок у базі даних після їх відвідин.

Сталося так, що 1994 став переломним в історії створення пошукових машин. Студент випускного курсу Вашингтонського університету Браян Пінкертон (Brian Pinkerton) втомився від нескінченної низки електронних листів, які надсилали йому друзі, з інформацією про добрі сайти, знайдені ними в Інтернеті. Безумовно, сайти йому були потрібні, проте шквал послань з їхніми адресами дратував, а відвідування всіх сторінок забирало багато часу. Однак Пінкертон знайшов вирішення проблеми - він створив робота, якого назвав WebCrawler (щось на кшталт «всюдихід для Інтернету»). «ВебКраулер», як і «Вандерер», повзав зі сторінки на сторінку, запам'ятовуючи весь текст Web-документа і зберігаючи його в базі даних, яка була доступна пошуковим словам. Винахідник представив своє дітище публіці у квітні 1994 р., причому зробив це віртуально через Web-інтерфейс. База даних на той момент містила інформацію з 6000 різних серверів. Вже за тиждень вона почала розширюватися, причому щоденний приріст становив понад 100 нових серверів. Так народилася перша пошукова машина.

Тоді ж був узвичаєний інтернетчиків термін «краулер» або «павук», який застосовується, як ми вже говорили, і донині.

1994 р. – WebCrawler, Lycos, Yahoo!

1995 р. – Infoseek, SavvySearch, AltaVista, MetCrawler, Excite. Поява метапошукових машин.

1996 - HotBot, LookSmart.

1997 - NorthernLight.

1998 р. – Google, InvisibleWeb.com.

Російськомовні пошукові машини з'являлися у такій послідовності:

2004 р. – російськомовна версія Google(www.google.ru) та російськомовна версія Yahoo! (http://ua.yahoo.com).

З чого складається сайт

Перш, ніж перейти до опису мови запитів пошукових машин, розглянемо, з яких елементів, з якими належить працювати павуку, зазвичай складається сайт.

Треба сказати, що мова HTMLдосить простий та логічний. Він є способом розбивки тексту за допомогою спеціальних елементів – тегів, які визначають структуру і зовнішній виглядтексту під час перегляду його у браузері. Про теги слід знати, що вони завжди парні і що вони бувають відкривають(позначають початок певного форматування) та закривають(Позначають його закінчення). Закриваючий тег - такий же за написанням, як відкриває, але перед ним стоїть коса риса.

Наведемо приклад дуже простого сайту (рис. 1).

Мал. 1. Приклад сайту, як його видно у браузері Мозілла Файрфокс.


Нагорі сторінки, зображеної малюнку, тобто над тексті сайту, але в верхньому полі рамки сторінки, поруч із круглим значком браузера, розташований напис: «Показуємо пристрій сайта». Вона знаходиться в так званому заголовку сторінки (який укладений між тегом, що відкриває та закриваючим тегом). Звертаємо вашу увагу, що це заголовок саме всієї сторінки, а не тексту.

Посередині представленого малюнка жирним курсивом виведено: Це простий сайт. Цей напис – і є заголовок тексту. Шрифт фрази "Це простий сайт" за розміром перевищує шрифт тексту на сайті, він спеціально виділений як заголовок тексту. При розмітці з допомогою HTMLцей текст розташований нижче тега , але при цьому разом із тегом <TITLE>знаходиться всередині тега <Head>. Тобто вміст, укладений у <TITLE>, - Це частина того, що знаходиться в <Head>. Таке розташування дає <a href="/solving-problems/kak-proverit-celostnost-operacionnoi-sistemy-windows-7-sfc-i/">додаткову можливість</a>павуку краще визначити ключові слова на сайті. Адже якщо слова винесені в заголовок тексту або, тим більше, всієї сторінки, ймовірність того, що сторінка та текст присвячені темі, що формулюється цими словами, підвищується.</p><p>Нижче фрази «Це простий сайт» наведено чотири варіанти написання основного тексту сайту:</p><p>- Звичайний;</p><p>– жирний (пишеться під тегом <B>);</p><p>– курсив (пишеться під тегом <i>);</p><p>Основний текст сайту, незалежно від того, яким варіантом шрифту він написаний, розташовується всередині тега <BODY>. Саме вміст тега <BODY>є основним об'єктом для павука і розглядається ним як текст сторінки (власне, це дійсно текст сторінки).</p><p>Щоб побачити внутрішню розмітку сайту, треба в браузері Мозілла Файрфокс навести курсор на будь-яку незайняту текстом ділянку поля та натиснути <a href="/internet-tips/kak-dobavit-punkt-v-kontekstnoe-menyu-kak-izmenit-menyu-pravoi-knopki-ochistka/">праву кнопку</a>миші. У спливаючому меню виберіть пункт «Перегляд вихідного коду сторінки».</p><p>Стосовно сайту, який ми розглядали на рис. 1, цей вихідний код буде виглядати так:</p><blockquote><p>Показуємо пристрій сайту:</p><p><SPAN STYLE=«font-size: large»>Це простий сайт</p><p>Це текст на веб-сайті. Звичайний шрифт.</p><p>Жирний шрифт.</p><p>Курсив.</I></p> </blockquote><p>Тут можна побачити всі елементи, описані вище. Крім того, в <a href="/tips-for-beginners/antivirusnaya-programma-s-otkrytym-ishodnym-kodom-clamwin-free-antivirus/">вихідний код</a>видно теги <P>Які забезпечують розташування тексту в новому рядку та з проміжком по відношенню до тексту, що розташований у попередньому рядку.</p><p>Розмітка HTML за промовчанням не передбачає перенесення тексту та його форматування. Тому текст, який не містить жодних тегів, відтворюється поспіль, але з дотриманням прогалин між словами. Для того щоб текст виявився написаний не просто в новому рядку, а з проміжком щодо рядка, що знаходиться вище, використовується, як ми вже показали, тег <P>А для того, щоб текст був написаний у новому рядку, але без проміжку між вище- і нижчерозташованим рядками, застосовується тег <BR>.</p><p>Початок сайту, створеного за допомогою розмітки HTML, позначено тегом <HTML>, а його закінчення – тегом</HTML>.</p> <noindex> </noindex> <p><b> </b></p> <p><a name="p7"></a></p> <div style="text-align: center;"></div> <noindex> <p style="text-align: center;"> <p> </p> <div id="venus-104357"></div> </p> </noindex> <a href="#" id="toTop"></a> <div id="toTop2"> <div > <center> </div> </center> </div> <span class="full-tags pull-left"></span> </div> <div class="full-comment" > <div id="yandex_rtb_R-A-233979-2"></div> </div> <div class="full-news-panel">Це цікаво:</div> <ul class="related-block "> <li class="related-block_item col-sm-3 col-xs-6"> <a href="/problem-solving/kakaya-luchshe-ustanovka-vyborochnaya-ili-ekspress-pereustanovka/" title="Перевстановлення драйверів відеокарти - Служба підтримки користувачів Prime World"> <img class="related-block_item__img" src="/uploads/eaffee692974a53969a69cc632562fd0.jpg" alt="Перевстановлення драйверів відеокарти - Служба підтримки користувачів Prime World" / loading=lazy loading=lazy> <div class="related-block_item__title">Перевстановлення драйверів відеокарти - Служба підтримки користувачів Prime World</div> </a> </li> <li class="related-block_item col-sm-3 col-xs-6"> <a href="/tips-for-beginners/kak-razognat-processor-na-noutbuke-detalnaya-instrukciya-po-razgonu-processora/" title="Детальна інструкція з розгону процесора Отже, щоб розігнати процесор за допомогою SetFSB, потрібно"> <img class="related-block_item__img" src="/uploads/c3e91e8ff24e12e61e0be5252287a1a2.jpg" alt="Детальна інструкція з розгону процесора Отже, щоб розігнати процесор за допомогою SetFSB, потрібно" / loading=lazy loading=lazy> <div class="related-block_item__title">Детальна інструкція з розгону процесора Отже, щоб розігнати процесор за допомогою SetFSB, потрібно</div> </a> </li> <li class="related-block_item col-sm-3 col-xs-6"> <a href="/tips-for-beginners/zagruzka-operativnoi-pamyati-100-peregruzhennaya-operativnaya-pamyat/" title="Перевантажена оперативна пам'ять"> <img class="related-block_item__img" src="/uploads/7be2eb17445b2e11690273b1a95e428f.jpg" alt="Перевантажена оперативна пам'ять" / loading=lazy loading=lazy> <div class="related-block_item__title">Перевантажена оперативна пам'ять</div> </a> </li> <li class="related-block_item col-sm-3 col-xs-6"> <a href="/configuring-windows/kak-uznat-seriinyi-nomer-materinskoi-platy-kak-uznat-model/" title="Як дізнатися модель материнської плати комп'ютера Як дізнатися серійний номер материнської плати msi"> <img class="related-block_item__img" src="/uploads/82034b35b2697277272a3a8f511dfe6b.jpg" alt="Як дізнатися модель материнської плати комп'ютера Як дізнатися серійний номер материнської плати msi" / loading=lazy loading=lazy> <div class="related-block_item__title">Як дізнатися модель материнської плати комп'ютера Як дізнатися серійний номер материнської плати msi</div> </a> </li> <li class="related-block_item col-sm-3 col-xs-6"> <a href="/computer-literacy/kak-vklyuchit-raznocvetnuyu-podsvetku-klaviatury-msi-chasto-rabotaete-za/" title="Часто працюєте за комп'ютером у темряві?"> <img class="related-block_item__img" src="/uploads/60cdf87c8fd9c39b349abe3c1485188c.jpg" alt="Часто працюєте за комп'ютером у темряві?" / loading=lazy loading=lazy> <div class="related-block_item__title">Часто працюєте за комп'ютером у темряві?</div> </a> </li> <li class="related-block_item col-sm-3 col-xs-6"> <a href="/hardware-solutions/realtek-hd-ne-vidit-naushniki-komp-ne-vidit-naushniki-chto-delat/" title="Комп не бачить навушники: що робити?"> <img class="related-block_item__img" src="/uploads/e74d378f217e353afe366e8726ae5e0c.jpg" alt="Комп не бачить навушники: що робити?" / loading=lazy loading=lazy> <div class="related-block_item__title">Комп не бачить навушники: що робити?</div> </a> </li> <li class="related-block_item col-sm-3 col-xs-6"> <a href="/internet-tips/sochetanie-klavish-dlya-vklyucheniya-wifi-na-noutbuke-kak-na-noutbuke-aser/" title="Як на ноутбуці"Асер" включить вай-фай?"> <img class="related-block_item__img" src="/uploads/7858f48e37cae9f7a9689a05908e8096.jpg" alt="Як на ноутбуці"Асер" включить вай-фай?" / loading=lazy loading=lazy> <div class="related-block_item__title">Як на ноутбуці "Асер" увімкнути вай-фай?</div> </a> </li> <li class="related-block_item col-sm-3 col-xs-6"> <a href="/hardware-solutions/kak-vklyuchit-diskretnuyu-videokartu-prostye-i-effektivnye-sposoby/" title="Як переключити відеокарту на ноутбуці з NVidia на Intel Як вибрати у програмі високопродуктивний процесор nvidia"> <img class="related-block_item__img" src="/uploads/bd9ccf165e753bacff4d24040464d2c7.jpg" alt="Як переключити відеокарту на ноутбуці з NVidia на Intel Як вибрати у програмі високопродуктивний процесор nvidia" / loading=lazy loading=lazy> <div class="related-block_item__title">Як переключити відеокарту на ноутбуці з NVidia на Intel Як вибрати у програмі високопродуктивний процесор nvidia</div> </a> </li> </ul> </div> </div> </div> <aside id="rightblock" class="rightblock side-block col-lg-3 col-md-3 hidden-sm hidden-xs"> <div class="side-head">Категорії:</div> <div id="accordian"> <ul class="list-unstyled"> <li><a href="/category/windows-10/"><span>Windows 10</span></a></li> <li><a href="/category/problem-solving/"><span>Вирішення проблем</span></a></li> <li><a href="/category/wi-fi-setup/"><span>Налаштування Wi-Fi</span></a></li> <li><a href="/category/configuring-windows/"><span>Налаштування Windows</span></a></li> <li><a href="/category/useful-programs/"><span>Корисні програми</span></a></li> <li><a href="/category/hardware-solutions/"><span>Апаратні рішення</span></a></li> <li><a href="/category/internet-tips/"><span>Інтернет-підказки</span></a></li> </ul> </div> <div class="side-head">Популярні статті</div> <ul class="side-top s_a list-unstyled"> <li class="top-news"> <a href="/problem-solving/vklyuchaem-diskretnuyu-videokartu-kak-pereklyuchit-videokartu/" title="Чому гра не запускається на високопродуктивному процесорі."> <img src="/uploads/0da2020ba242a561e4d0e7e77d500169.jpg" alt="Чому гра не запускається на високопродуктивному процесорі." / loading=lazy loading=lazy> <div class="top-news_img">Чому гра не запускається на високопродуктивному процесорі.</div> </a> </li> <li class="top-news"> <a href="/tips-for-beginners/posle-perezagruzki-temnyi-ekran-kompyuternaya-pomoshch-chto/" title="Після перезавантаження темний екран"> <img src="/uploads/fd2d41fd655b61975481a2ea19cff19f.jpg" alt="Після перезавантаження темний екран" / loading=lazy loading=lazy> <div class="top-news_img">Після перезавантаження темний екран</div> </a> </li> <li class="top-news"> <a href="/tips-for-beginners/kak-uznat-kakaya-nuzhna-proshivka-kak-v-android-uznat-versiyu-proshivki-i-zachem-eto/" title="Як в Android дізнатися версію прошивки і навіщо це потрібно"> <img src="/uploads/d4ab769745631fbca32cfe6e86810321.jpg" alt="Як в Android дізнатися версію прошивки і навіщо це потрібно" / loading=lazy loading=lazy> <div class="top-news_img">Як в Android дізнатися версію прошивки і навіщо це потрібно</div> </a> </li> </ul> <script language="javascript"> $(document).ready(function() { var floatsidebar = $("#float-sidebar"); var offset = floatsidebar.offset(); var left = offset.left; var top = offset.top; var width = $("#float-sidebar").width(); var height = $("#float-sidebar").height(); $(window).scroll(function() { var scrollTop = $(window).scrollTop(); if (scrollTop >= top) { $('#float-sidebar').css({ left: left + 'px', position: 'fixed', top: "10px", width: width + "px" }); } else { $('#float-sidebar').css({ position: 'static', }); } }); }); </script> <div id="float-sidebar" style="margin-right: 5px" > <div id="pylyzu1" style="height:500px;width:300px;" align="center"></div> </div> </aside> </div> </div> <footer class="footer"> <div class="container"> <div class="col-sm-3 footer_logo"> <p>winpcguide.ru - Як налаштувати та відремонтувати комп'ютер</p> <form method="post" action=''> <input type="hidden" name="do" value="search" /> <input type="hidden" name="subaction" value="search" /> <input id="story2" name="story" value="Знайти відповідь" onblur="if(this.value=='') this.value='Пошук...';" onfocus="if(this.value=='Знайти відповідь') this.value='';" type="text" /> <div class="src-sug"></div> <button class="btn search_btn" type="submit"><span class="glyphicon glyphicon-search"></span></button> </form> </div> <div class="col-sm-6 footer_info"> <p></p> </div> <div class="col-sm-3 footer_links"> <a class="footer_links_item" href="/feedback/">Зворотній зв'язок</a> </div> <div class="col-sm-12 text-center"> </div> <script src="/templates/otvet/js/jquery.min.js"></script> <script src="/templates/otvet/js/libs.js"></script> <script src="/templates/otvet/js/up.js"></script> <script src="/templates/otvet/js/main.js"></script> <script src="/templates/otvet/js/bootstrap.min.js"></script> <script src="/templates/otvet/js/tooltip.js"></script> <p> </p> </div> </footer> </body> </html>