Служби пошуку інформації, найважливіші російськомовні та світові джерела інформації. Що таке пошукова система, як працює пошук

Служби пошуку інформації, найважливіші російськомовні та світові джерела інформації. Що таке пошукова система, як працює пошук

ДБПОУ Республіки Мордовія

«Саранський медичний коледж»

Конспект заняття на тему:

«Пошукові служби Інтернет. Пошукові сервериWWW»

Підготувала: викладач

Горіна А.Д.

Саранськ, 2016

Дисципліна:інформаційні технологіїу професійній діяльності

Заняття №: 3.1.1

Тема:Пошукові служби Інтернет. Пошукові сервери WWW

Примітка: назва заняття з'являється на слайді 1 презентації

Ціль:засвоєння теоретичних засаддосліджуваної теми (пошуковий сервер, протоколи глобальних мереж, технічні засоби глобальних мереж)

Забезпечення заняття:комп'ютер, інтерактивна дошка, мультимедійний проектор, конспект лекції, презентація

Тип заняття:урок - лекція

Технологія навчання:розвиваюче навчання

Методи навчання:лекція, робота з книгою

Компетенції:

ОК 1. Розуміти сутність та соціальну значущість своєї майбутньої професії, виявляти до неї стійкий інтерес.

ОК 2. Організовувати власну діяльність, вибирати типові методи та способи виконання професійних завдань, оцінювати їх виконання та якість.

ОК 3. Приймати рішення у стандартних та нестандартних ситуаціях та нести за них відповідальність.

ОК 4. Здійснювати пошук та використання інформації, необхідної для ефективного виконання професійних завдань, професійного та особистісного розвитку.

ОК 5. Використовувати інформаційно-комунікаційні технології у професійній діяльності.

ПК 2.1. Подавати інформацію у зрозумілому для пацієнта вигляді, пояснювати йому суть втручань.

ПК 2.6. вести затверджену медичну документацію.

Міжпредметні зв'язки:

Використовувана література:Угрінович, Н.Д. Інформатика та інформаційні технології. Підручник для 10-11 класів

1. Організаційний момент: 3-5 хв

(позначка відсутніх, перевірка зовнішнього виглядуучнів, санітарного стану кабінету)

2. Виклад матеріалу: 53-58 хв

1) Комп'ютерна мережа та її види. Технічні кошти глобальної мережі

2) Види серверів. Протоколи глобальних мереж

3) Пошукові служби Інтернет. Пошукові сервери WWW

В даний час все частіше комп'ютери використовуються не ізольовано, а взаємопов'язано для постійної або іноді взаємодії та передачі інформації. Така взаємодія є комп'ютерною мережею.

Комп'ютерна мережа - це сукупність комп'ютерів, об'єднаних каналами зв'язку, якими у вигляді сигналів реалізується обміну інформацією і користувачем вирішуються спільні інформаційні завдання.

Примітка: на слайді 2 презентації дано визначення для запису учнів.

Створення комп'ютерних мереж викликано практичною потребою користувачів віддалених один від одного комп'ютерів в одній інформації. Мережі надають користувачам можливість не лише швидкого обміну інформацією, а й спільної роботина принтерах та інших периферійних пристроях, а також одночасної обробки документів.

Все різноманіття комп'ютерних мереж можна класифікувати за групою ознак:

з географічного розташування;

залежно про наявність у мережі головного комп'ютера;

за способом підключення комп'ютерів через канали зв'язку;

за типом середовища передачі.

На слайді 3 презентації представлена ​​дана класифікація, яка буде розшифрована.

За географічним розташуванням: локальні, розподілені (корпоративні), регіональні та глобальні. Примітка: на слайді 4 презентації представлено цю класифікацію, яка буде розшифрована.

Залежно від наявності у мережі головного комп'ютера: мережі типу "клієнт-сервер", однорангові мережі.

За способом підключення комп'ютерів через канали зв'язку (топологія): шина, кільце, зірка, сніжинка.

На слайдах 5-7 презентації представлена ​​дана класифікація, яка буде розшифрована. Показано підключення комп'ютерів у кожному випадку.

За типом середовища передачі поділяються на коаксіальні мережі, на кручений парі, оптоволоконні, з передачею інформації по радіоканалах, в інфрачервоному діапазоні.

Локальні комп'ютерні мережі (ЛВС, LAN)

Група до 12-15 комп'ютерів, розташованих у межах одного або кількох приміщень, що використовує загальний канал обміну інформацією та один комплект мережевого обладнаннята керованих одним пакетом ПЗ.

Локальна мережа об'єднує комп'ютери, встановлені в одному приміщенні (наприклад, шкільний комп'ютерний клас, що складається з 8-12 комп'ютерів) або в одному будинку (наприклад, у будівлі школи можуть бути об'єднані в локальну мережу кілька десятків комп'ютерів, встановлених у різних предметних кабінетах). Такі мережі використовуються для обміну файлами між користувачами мережі, а також для використання спільних ресурсів, доступних для всіх користувачів мережі.

Кожен комп'ютер, підключений до локальної мережі, повинен мати спеціальну плату (мережевий адаптер). Між собою комп'ютери ( мережеві адаптери) з'єднуються за допомогою кабелів.

Розподілені (корпоративні)

Багато організацій, зацікавлені у захисту від несанкціонованого доступу (наприклад, військові, банківські та інших.), створюють власні, звані корпоративні мережі. Корпоративна мережа може об'єднувати тисячі та десятки тисяч комп'ютерів, розміщених у різних країнах та містах (як приклад можна навести мережу корпорації Microsoft, MSN).

Регіональні (MAN)

Локальні мережі не дозволяють забезпечити спільний доступдо інформації користувачам, що знаходяться, наприклад, у різних частинах міста. На допомогу приходять регіональні мережі, що об'єднують комп'ютери у межах одного регіону (міста, країни, континенту).

Мережа, що об'єднує комп'ютери, що належать до одного регіону. Мають різні канали передачі, кількість комп'ютерів необмежена.

Глобальні (телекомунікаційні, WAN)

Сукупність комп'ютерів, розташованих один від одного на великій відстані, з різними каналами передачі та обміну даними.

У 1969 році в США було створено комп'ютерну мережу ARPAnet, що об'єднує комп'ютерні центри міністерства оборони та низки академічних організацій. Ця мережа була призначена для вузької мети: головним чином вивчення того, як підтримувати зв'язок у разі ядерного нападу і для допомоги дослідникам в обміні інформацією. У міру зростання цієї мережі створювалися та розвивалися багато інших мереж. Ще до настання ери персональних комп'ютерівРозробники ARPAnet приступили до розробки програми Internetting Project. Успіх цього проекту спричинив такі результати. По-перше, було створено найбільшу у США мережу internet. По-друге, були випробувані різні варіанти взаємодії цієї мережі з низкою інших мереж США. Це створило передумови успішної інтеграції багатьох мереж у єдину світову мережу. Таку "мережу мереж" тепер усюди називають Internet (у вітчизняних публікаціях широко застосовується і російськомовне написання – Інтернет).
В даний час на десятках мільйонів комп'ютерів, підключених до Інтернету, зберігається величезний обсяг інформації (сотні мільйонів файлів, документів тощо) та сотні мільйонів людей користуються інформаційними послугами глобальної мережі.

Інтернет — це глобальна комп'ютерна мережа, що об'єднує багато локальних, регіональних і корпоративних мереж і включає десятки мільйонів комп'ютерів.

У кожній локальній або корпоративній мережі зазвичай є принаймні один комп'ютер, який має постійне підключення до Інтернету за допомогою лінії зв'язку з високою пропускною здатністю (сервер Інтернету).

Надійність функціонування глобальної мережі забезпечується надмірністю ліній зв'язку: зазвичай, сервери мають понад дві лінії зв'язку, які з'єднують їх із Інтернетом.

Основу Інтернету становлять понад сто мільйонів серверів, які постійно підключені до мережі.

До Інтернет-серверів можуть підключатися за допомогою локальних мережабо комутованих телефонних ліній сотні мільйонів користувачів мережі.

У невеликих локальних мережах все комп'ютери зазвичай рівноправні, т. е. користувачі самостійно вирішують, які ресурси свого комп'ютера (диски, каталоги, файли) зробити загальнодоступними у мережі. Такі мережі називаються однорангові.

Якщо до локальної мережі підключено більше десяти комп'ютерів, то однорангова мережа може виявитися недостатньо продуктивною. Для збільшення продуктивності, а також з метою забезпечення більшої надійності при зберіганні інформації в мережі, деякі комп'ютери спеціально виділяються для зберігання файлів або програм-додатків. Такі комп'ютери називаються серверами, а локальна мережа – мережа типу «клієнт-сервер».

Невиділені сервери - сервери, якого не підключені ні монітор, ні клавіатура.

Виділені сервери - які не відрізняють роботи звичайних комп'ютерів, швидкість роботи яких вище, ніж у невиділених; виділений сервер як керує мережею, а й є автономним комп'ютером з швидкодіючим процесором, великим обсягом пам'яті; розрахований обслуговування клієнтських комп'ютерів.

Топологія мережі

Загальна схема з'єднання комп'ютерів локальні мережі називається топологією мережі. Топології мережі можуть бути різними.

Шина - всі комп'ютери паралельно підключені одного кабелю (лінії зв'язку), з обох боків кабелю розташовуються заглушки. При такому з'єднанні комп'ютери можуть передавати лише по черзі. У цій структурі відсутня центральний комп'ютер. По краях кабелю необхідно розташовувати спеціальні узгоджувальні пристрої - термінатори.

Переваги:

Простота та економічність

Надійність (стійкість до поломки одного комп'ютера)

Недоліки:

Чутливість до несправностей кабельної системи. Якщо кабель пошкоджений хоча б у одному місці, то виникають проблеми для всієї мережі.

Кільце - всі комп'ютери підключені до одного кабелю, кожен комп'ютер має двох сусідів. У такій мережі інформація передається між станціями по кільцю з переприйомом у кожному мережевому контролері. Переприйом проводиться через буферні накопичувачі, виконані на базі оперативних пристроїв, що запам'ятовують, тому при виході їх ладу одного мережевого контролера може порушитися робота всього кільця.

Перевага:

Простота реалізації пристроїв

Недолік:

Низька надійність

Велика витрата кабелю

Зірка (радіальна структура) - у центрі розташовується сервер, якого підключаються робочі станції, тобто. кожен комп'ютер підключено до кабелю.

Деревоподібна топологія – реалізація ієрархічної підпорядкованості комп'ютерів.

Сніжинка – об'єднання комп'ютерів через сервери з використанням різних топологій.

Технічні засоби глобальної мережі

На слайді 8 презентації представлений список даних технічних засобів.

До технічних засобів глобальної мережі належать комп'ютери, канали зв'язку, спеціальне обладнання (комутатори, концентратори), модеми.

Сигнали по комп'ютерних мережах передаються каналами зв'язку - це можуть бути радіохвилі, оптоволокно, супутникові засоби зв'язку. Найбільш поширеними каналами зв'язку є кабель.

Коаксіальний кабель - сигнали передаються по мідному сердечнику, а металевий екран заземлюється на одному кінці; до того ж металевий екран захищає мідний сердечник від зовнішнього впливу.

Виті пари- набір із восьми проводів, скручених попарно т.ч., щоб забезпечувати захист від електромагнітних перешкод. Кожна кручена пара з'єднує з мережею лише один комп'ютер, тому порушення з'єднання позначається тільки на цьому комп'ютері, що дозволяє швидко знаходити та усувати несправності.

Волоконно-оптичні кабелі - передають дані як світлових імпульсів по скляним проводам. Такі кабелі забезпечують найвищу швидкість передачі; не схильні до електромагнітних перешкод; зручніше транспортування.

Бездротовий зв'язокна радіохвилях може використовуватися для організації мереж у межах великих приміщень.

Концентратор (хаб) - пристрій, що забезпечує одночасну роботу кількох абонентів по одному каналу ; групуючи сигнали кількох підканалів і посилаючи в один канал з більш високою пропускною здатністю.

Комутатор (свіч) – пристрій, що дозволяє розділяти смугу пропускання між кінцевими станціями. У комутаторі запам'ятовуються адреси відправників та одержувачів, номери портів, до яких підключені лінії зв'язків пристроїв, і на підставі цих даних будується таблиця, відповідно до якої відбувається поділ сигналу.

Модем (модулятор і демодулятор) - пристрій, що застосовується в системах зв'язку для фізичного сполучення інформаційного сигналу з середовищем його поширення, де він не може існувати без адаптації та виконує функцію модуляції та демодуляції цього сигналу.

Усі комп'ютери у глобальній мережі можна розділити на:

Примітка: на слайді 9 презентації наведено список даних комп'ютерів.

1) Робочі станції - комп'ютер, використовує чи власні ресурси, чи ресурси іншого комп'ютера, зазвичай сервера, на вирішення інформаційних задач.

2) Сервер – комп'ютер, ресурси якого доступні з робочих станцій мережі. Він виконує функції обслуговування мережі, організації спільно використовуваних ресурсів, забезпечує централізоване керування всією мережею, визначає маршрути передачі повідомлень, через нього реалізується доступ до мережних периферійним пристроям, а його дисках розташовуються спільно використовувані програми.

3) Хост-комп'ютер ( мережевий сервер) - спеціальний вузол зв'язку, який найчастіше створюється на базі кількох потужних комп'ютерів та забезпечує надійну цілодобову передачу інформації, її зберігання та одночасну роботу багатьох користувачів. Крім мережевих функцій, він може виконувати і завдання користувача.

4) Шлюз (маршрутизатор, роутер) - сервер, який забезпечує зв'язок між локальними мережами, які використовують різні протоколи передачі. Він поєднує безліч комп'ютерів з різними ОС, прикладними програмами, апаратними платформами.

5) Брандмауер - шлюзовий комп'ютер, що обмежує доступ до комп'ютерних мереж ззовні. Призначений для захисту інформації усередині.

Види серверів

Примітка: на слайдах 10-11 презентації наведено список даних серверів.

Файловий сервер – зберігає файли даних

Сервери друку - з одним або декількома принтерами, служить для друку документів, переданих по мережі.

Сервер програм - надає доступ до мережним додаткам, завдяки ним користувачі можуть працювати в програмах, які відсутні на їх комп'ютерах.

Реєстраційні сервери - призначені для забезпечення безпеки бази даних, на них знаходиться інформація про користувачів.

Сервери-Web-забезпечують запити до ресурсів мережі.

Сервери електронної пошти- надають електронні скриньки для листів, адресовані користувачам мережі.

Сервери віддаленого доступу забезпечують комутоване з'єднання, тобто. з їх допомогою інший комп'ютер може отримати доступ до сервера або мережі по телефонній лінії.

Термінальні сервери-надають доступ до віддаленим комп'ютерамчи терміналам.

Телефонні сервери виконують роль автовідповідачів, передають голосові повідомлення, перенаправляють дзвінки.

Кластерні сервери - забезпечують об'єднання багатьох серверів у кластери, тобто. незалежні групи комп'ютерних систем, що працюють автономно.

Проксі-сервери – служать проміжними серверами між робочими станціями користувачів та Інтернетом, покращують безпеку системи.

Факс-сервери - є центральною точкою мережі, призначені для прийому і відправлення факсів, розподілу факсів, що надійшли користувачам.

BOOTH - сервери - за допомогою протоколу BOOTH завантажується ОС клієнтських комп'ютерів, які не мають жорстких дисківта надають інформацію про конфігурування мережного протоколу.

DHSP - сервери - надають IP-адреси та параметри конфігурації комп'ютерам, що є клієнтами DHSP-серверів.

Сервери маршрутизатори (роутери)- потужні комп'ютериабо спеціалізовані інтелектуальні пристрої, що з'єднують між собою різні мережі чи ділянки, визначають найбільш ефективний шлях руху інформації, визначають адреси одержувачів і відправників, мінімізують завантаженість ліній і маршрути пакетів.

Сервери мости-пристрою, що забезпечують передачу даних між двома мережами, забезпечують більш віддалений доступв порівнянні з роутерами, можуть з'єднувати локальні мережі, виробляють фільтрацію пакетів.

Брандмауер-пристрій, що обмежує доступ до комп'ютерної мережі ззовні.

Протоколи глобальних мереж

Примітка: на слайді 12 презентації подано список протоколів мережі.

Глобальні мережі стабільно функціонують завдяки єдиним протоколам обміну інформацією. Протоколи глобальних мереж складніше, ніж локальних. Це з тим, що у серверах використовується різне ПЗ. Чим вищий рівень, тим ближче він до користувача. Виділяють 7 рівнів протоколів, що визначають принципи взаємодії між комп'ютерами глобальних мереж:

Фізичний - найнижчий, він визначає вид та характеристики ліній зв'язку. По лініях зв'язку сигнали переходять від комп'ютера до комп'ютера, причому їхня фізична природа може змінюватися.

Логічний- кожному за протоколу фізичного рівня розроблено протокол логічного рівня, який управляє передачею інформації з фізичних лініях.

SLIP – інтернет-протокол для послідовного каналу.

PPP – протокол взаємодії між вузлами.

Ethernet – протокол для локальних мереж.

Мережевий - відповідає за маршрутизацію - вибір найкоротшого маршруту проходження інформації по мережі.

IP - протокол міжмережевої взаємодії, являє собою систему фізичних 32-бітових адрес комп'ютерів, підключених до глобальних мереж.

ARP – протокол визначення адреси.

Транспортний – управляє передачею інформації мережами.

TCP - протокол керування передачею повідомлень. Розбиває повідомлення на невеликі фрагменти, забезпечує кожен фрагмент заголовком, об'єднує ці фрагменти в єдине ціле, одночасно перевіряє наявність помилок.

UDP – універсальний протокол передачі даних. Використовується для швидкої передачіінформації. Потоковий протокол. Повідомлення, які не потрапили адресату, не повторюються.

Сеансовий - відповідає за встановлення, підтримку та знищення відповідних каналів передачі даних, за їхню безпеку. У звичайній роботі такі протоколи 3 та 4 приклади майже не використовуються, потрібні для нестандартних умов зв'язку.

UUCP - протокол копіювання з Юнікс на Юнікс.

SSL – шар безпечного підключення.

Представницький – займається обслуговуванням прикладних програм.

SMTP – протокол поштової транспортної служби.

POP3 – поштовий офісний протокол версії 3.

IMAP – протокол доступу до повідомлень в Інтернеті.

HTTP – протокол передачі гіпертексту.

FTP – протокол передачі даних.

NNTP – мережевий протокол передачі новин.

NFS – розподілена файлова система.

Найчастіше використовуються по парах. Перші два – електронна пошта. З появою служби WWW був розроблений HTTP, який забезпечує перевірку та ідентифікацію користувача, захист від перехоплення та конфіденційність інформації.

Прикладний - послуги - мережеві послуги

Засоби надання певних інформаційних послуг користувачів мережі прийнято називати службами Інтернету. Служби Інтернету поділяються на інформаційні та комунікаційні.

Комунікаційні служби (сервіси) Інтернету

Примітка: на слайді 13 презентації представлена ​​у вигляді списку служби Інтернету дана класифікація, яка буде розшифрована.

Електронна пошта – e-mail. Це найстаріша і наймасовіша служба мережі.

Електронна пошта – e-mail – система, що дозволяє обмінюватися електронними повідомленнями через модем.

Цю послугу забезпечують спеціальні поштові сервери, які отримують повідомлення від клієнтів і пересилають їх ланцюжком до поштовим серверамадресата. Ці повідомлення накопичуються і під час встановлення зв'язку адресата з сервером автоматично передаються на комп'ютер адресата. Під час реєстрації в Інтернеті кожен користувач отримує унікальну поштову адресу.

Структура електронної адреси

<идентификатор_абонента>@<домен>

Ідентифікатор_абонента – це зареєстроване ім'я користувача.

Домен визначає поштовий комп'ютер, до якого підключено абонента.

Приклад електронної адреси:

Схема функціонування електронної пошти

поштова програма містить лист у mail-header (конверт) і за допомогою SMTP відправляє його в мережу;

повідомлення передається по мережі від одного комп'ютера до іншого за міжмережевим протоколом;

код повідомлення приходить на потрібний комп'ютер, mail agent (листоноша) доставляє його в поштову скриньку одержувача. Адресат отримує повідомлення за допомогою протоколу POP3.

Служба телеконференцій (списки розсилки USENET). Списки розсилки - спеціальна адреса, за допомогою якої повідомлення, що надходять, розглядаються спеціальними програмамиі надсилаються тим адресатам, які підписалися на повідомлення на цю тему. Телеконференції об'єднують у собі як комунікаційну, і інформаційну функції.

Форуми прямого спілкування (IRC, chat-конференції, ICQ) – спілкування між учасниками у режимі реального часу.

Інтернет-телефонія (IP-телефонія) - голосове спілкування через мережу в реальному часі. Skype

Месенджери (система обміну миттєвими повідомленнями) – служба миттєвих повідомлень.

Інформаційні служби Інтернету

Служби передачі - FTP - зберігання набору файлів різного призначення.

WWW - Всесвітнє павутиння - розподілене інформаційна системаз гіперзв'язками, яка існує на технічній базі всесвітньої мережі Інтернет. З'явилася 1993 року.

Рунет – російськомовна частина всесвітньої мережі Інтернет.

Web – браузери – програми прикладного призначення, надають мережеві послуги та використовуються для швидкого отримання інформації з глобальних мереж. Web-браузер – клієнт-програма WWW.

Web-браузери забезпечують перегляд багатьох видів інформації та доступ до ресурсів глобальної мережі. Споживачам браузер може бути поставлений у формі самостійної (автономної) програми або у складі комплектного програмного забезпечення.

Браузер Internet Explorer поставляється у складі операційної системи Microsoft Windows.

Mozilla Firefox- окремо або у складі дистрибутивів Linux.

Safari - у складі операційної системи Mac OS X і як самостійна програма для Microsoft Windows.

Google Chrome, Opera та інші браузери - як самостійні програми в багатьох варіантах для різних операційних середовищ.

Web-сторінка – кожен окремий документ, що має власну адресу. Розширення Web-сторінки html або htm.

Web-сервер - комп'ютер, де працює сервер-программа WWW.

Web-сайт - сукупність взаємозалежних Web-сторінок.

Комплексні служби Інтернету

On-line перекладачі та словники

Інтернет магазини

Системи електронних платежів (QIWI, Яндекс.Гроші, WebMoney)

Способи активного відображення інформації у Всесвітньому павутинні:

гостьові книги - програмне забезпечення, що застосовується на веб-сайтах і дозволяє відвідувачам залишати різні побажання, зауваження, короткі нотатки, адресовані власнику або майбутнім відвідувачам. Т.ч., гостьова книга є максимально спрощеним варіантом веб-форуму;

форуми – клас веб-додатків для організації спілкування відвідувачів веб-сайту;

блоги - веб-сайт, основний вміст якого - записи, що регулярно додаються, що містять текст, зображення або мультимедіа;

wiki-проекти - веб-сайт, структуру та вміст, якого користувачі можуть самостійно змінювати за допомогою інструментів, що надаються самим сайтом;

соціальні мережі- платформа, онлайн-сервіс чи веб-сайт, призначені для побудови, відображення та організації соціальних взаємин, візуалізацією яких є соціальні графи. Приклади: ВКонтакте, Однокласники, Мій мир@Mail.Ru, Facebook, Google+, Myspace, У колі друзів та ін;

системи керування контентом.

3. Закріплення нового матеріалу: 15-27 хв

Запитання для самоконтролю:

1. Що таке Інтернет?

2. Перерахуйте основні Інтернет-служби, до яких користувач має доступ?

3. З яких частин складається адреса електронної пошти?

4. Що таке WWW? Що таке веб-сторінка?

5. Яку функцію у технології WWW виконують гіперпосилання?

6. Перерахуйте основні елементи вікна браузера Internet Explorer?

7. Для чого призначений адресний рядок браузера?

8. Як визначити адреси нещодавно відвіданих сторінок?

9. Чим є браузери? Наведіть приклади.

10. Що таке скринька абонента електронної пошти?

4. Завдання додому: 2 хв

5. Підбиття підсумків: 5-10 хв

(виставляються оцінки, їх коментар)

Зарубіжні пошукові сервери:

Для пошуку російською краще підходять російські сервери, іноземною – зарубіжні, хоча, наприклад, Google непогано справляється з пошуком багатьма мовами. Докладніше про найпопулярніші пошукові системи поговоримо пізніше, розглядаючи розширені можливості пошуку, оскільки кожна з цих систем має свої особливості. Зараз зупинимося на деяких базових правилах побудови пошукових запитів, загальних всім пошуковиків.

Незважаючи на заяви багатьох власників пошукових серверів, що запити можуть бути написані практично мовою, яку люди використовують для спілкування між собою, це далеко не так. Очевидно, ще не скоро настане час, коли комп'ютер і людина зможуть спілкуватися природною (для людини) мовою. Втім, потрібно віддати належне пошуковим серверам: останнім часом вони стали краще розуміти користувача, і результати пошуку тепер більше відповідають очікуванням, ніж це було кілька років тому. Сталося це багато в чому завдяки впровадженню нових мовних технологій.

З вищесказаного випливає, що на практиці пересічному користувачеві знаходити потрібну інформацію стало простіше. Пошуковики тепер шукають не тільки запитуване слово, але і його словоформи, що дозволяє робити результати пошуку більш точними. Наприклад, якщо в пошуковому запиті є слово розумний, то його результати будуть містити не тільки це слово, але і його похідні: розумного, розумна, а також розум і навіть розум. Звичайно, сторінки зі словоформами будуть не в числі перших результатів пошуку, але елементи штучного інтелекту очевидні. Цей факт корисно враховувати під час побудови пошукових запитів. Тепер розповім ще про кілька таких фактів.

Пошукові сервери під час обробки запиту не враховують регістр символів. Тому запити Відпочинок у Туреччині та відпочинок у Туреччині з погляду пошуковика ідентичні.

Також слід пам'ятати, що застосовувати розділові знаки в пошукових запитах зовсім не обов'язково, точніше, навіть не потрібно, оскільки вони також ігноруються пошуковими серверами. Зате багато традиційних розділових знаків можуть бути використані при побудові складних розширених запитів, результати пошуку за якими зазвичай набагато ближче до очікуваних.

Більшість пошукових серверів (крім, мабуть, Google) також ігнорує короткі слова, які не мають сенсового навантаження. У російській мові це прийменники, спілки тощо, в іноземних, наприклад, артиклі.

Багато пошукових серверів дозволяють боротися з помилками та неправильною розкладкою клавіатури. Напевно, багатьом читачам часто траплялося набрати при включеній англійській розкладціклавіатури російське слово, і виходило, наприклад, gfhjdjp замість паровоз. Той самий «Яндекс» одразу визначить, що тут щось не так і вгорі сторінки з результатами пошуку видасть посилання: Можливо, ви шукали: паровоз, перейшовши через яку можна отримати сторінку з правильними результатами. Аналогічно можна боротися з друкарськими помилками. Якщо пошуковому серверу здасться, що в слові допущена помилка або помилка, він попередить про це тією ж фразою: Можливо, ви шукали.

Поговоримо, які слова краще взяти для запиту пошуковому серверу. По-перше, з цікавої для користувача теми потрібно взяти найважливіші за змістом слова, що відображають тільки суть питання. Наприклад, якщо необхідний матеріал на тему «Ловля пінгвінів в Антарктиді в умовах полярної ночі», то зовсім не обов'язково писати фразу цілком, результати пошуку в цьому випадку, швидше за все, не влаштують запитувача, оскільки буде багато зайвого. Є вислів «Машина має працювати, людина – думати», і сказано воно якраз про таку ситуацію. Завдання користувача при складанні пошукового запиту – виділити ключові слова, завдання пошукового сервера– найкраще обробити введений запит. У аналізованому прикладі ключовими вважатимуться слова лов пінгвінів. Адже відомо, що, крім Антарктиди, вони ніде більше не водяться, ну а «полярну ніч» варто відкинути хоча б тому, що в реальності в таких умовах працювати досить складно.

Цей іронічний приклад ілюструє, що користувач, ґрунтуючись на своїх знаннях та логіці, повинен виділити лише необхідні ключові слова, не перевантажуючи запит зайвими термінами.

Розглянемо приклад, що ілюструє типові помилки користувачів-початківців при пошуку в Інтернеті. На запит загадки про музичні інструменти пошукова система не видала корисних результатів. Тоді користувач вирішує виправити запит, доповнивши його і написавши: загадки для дітей про музичні інструменти – результати пошуку виявилися ще гіршими від попереднього. У такій ситуації кажуть, що умови запиту стали жорсткішими на відміну м'якших, встановлених у попередньому випадку. Для цього хорошим рішенням, як показала практика, став пошук за ключовим словом загадки. В Інтернеті багато таких сайтів, а зайшовши на сам сайт і трохи пошукавши по його розділах, цілком можна знайти інформацію, що цікавить.

Розмірковуючи про те, які слова потрібно використовувати у пошуковому запиті, можна сформулювати кілька правил:

Вибирайте лише найважливіші ключові слова щодо теми, що розглядається;

Слів не повинно бути надто багато чи надто мало; деякі вважають оптимальним запит, що складається з трьох-чотирьох слів, однак у різних випадках ця кількість може відрізнятися;

При незадовільних результатах пошуку спробуйте застосувати м'якіші умови для запиту, але в жодному разі не жорсткіші;

Якщо ви не задоволені результатами пошуку на одному пошуковому сервері, спробуйте пошукати на іншому; механізми роботи у серверів неоднакові, отже результати можуть відрізнятися докорінно.

Сподіваюся, що викладена інформація допоможе читачам знаходити в Мережі необхідні відомості. Якщо знайти все одно ніяк не вдається, то на допомогу прийдуть розширені методи пошуку.

Для забезпечення більш ефективного пошукуВ Інтернеті пошукові сервери надають можливість розширеного пошуку, а також пошуку з використанням мови запитів. Щоб розмежувати ці поняття, дам їх визначення.

Розширений пошук- Можливість пошуку із зазначенням безлічі різних параметрів. Для цього у пошукових системах передбачені окремі сторінки, на яких можна задати такі параметри. Принципи роботи розширеного пошуку схожі у більшості пошукових систем.

Мова запитів– система команд, що дозволяє змінювати параметри запиту з основного рядка пошуку за допомогою спеціальних команд. Орієнтований на досвідчених користувачів.

Розглянемо додаткові можливостіпошуку на прикладах пошукових систем «Яндекс» та Google. Чому саме на них? Тому що «Яндекс» – найпопулярніший пошуковий сервер у російськомовному Інтернеті, а Google – найпопулярніший пошуковик у світі. Втім, з успіхом можна користуватися й іншими пошуковими системами, але ми поки що зупинимося на двох згаданих.

Пошуковий сервер "Яндекс"

Ця пошукова система – одна з найстаріших у російськомовному сегменті Мережі. «Яндекс» розпочав свою діяльність ще 1997 року, коли Інтернет лише почав розвиватися на пострадянському просторі. Поступово набираючи обертів, «Яндекс» сьогодні став найпопулярнішим пошуковим сервером у російськомовному Інтернеті, його щоденна аудиторія становить понад 4 000 000 чоловік. Майже половина всіх російськомовних користувачів Інтернету користуються його послугами. При пошуку в Інтернеті «Яндекс» одним із перших став враховувати морфологію російської мови, тобто використовувати різні форми слова, про що йшлося вище.

Слід згадати про ще одну цікаву функцію пошукового сервера Google, яка викликається кнопкою Мені пощастить. Її натискання призводить до того, що результатом пошуку буде не сторінка зі списком посилань, а перехід на перший знайдений сайт. Цю кнопку зручно використовувати під час пошуку, наприклад, сайтів великих організацій. Якщо набрати у рядку пошуку МДУ та натиснути кнопку Мені пощастить, то одразу відкриється сайт Московського державного університету

Альтернативні засоби пошуку

Незважаючи на те, що в сьогоднішньому Інтернеті пошукові сервери є головним способом пошуку інформації, існують і інші методи її пошуку. Такі інші методи часом допомагають визначити те, що не вдалося знайти за допомогою пошукового сервера.

Метапошук

Незважаючи на універсальність пошукових серверів, результати пошуку кожного з них практично завжди різні. Шукати окремо на кожному пошуковій системі цікаву інформацію досить важко і втомливо. Простіше знайти необхідні відомості за допомогою метапошуку, який дозволяє шукати введені користувачем ключові слова відразу по кількох пошукових серверах в автоматичному режимі. Потім отримані результати групуються за таким принципом: що більше пошукачів знайшло конкретний сайт і що вищий його позиція у результатах пошуку, то вище він буде у метапоиску. Робота з сервером метапошуку, з погляду користувача, практично нічим не відрізняється від пошуку на звичайному пошуковому сервері: те саме введення ключових слів, те ж натискання кнопки Знайти.

Найбільш потужні сервери метапошуку в російськомовному Інтернеті - Nigma.ru ( www.nigma.ru) та MetaBot.ru ( www.metabot.ru).

Пошуковик Nigma.ru підтримує пошук за наступними пошуковими серверами: Google, Yahoo!, Msn, "Яндекс", "Рамблер", Altavista, Aport. Можна шукати російською або англійській мові. Передбачено просту мову пошукових запитів, а також розширений пошук. Nigma.ru (рис. 3.3) шукає документи з урахуванням російської орфографії, а також коригує можливі помилки. Окрім традиційного пошуку веб-сторінок можливий пошук за розділами: Зображення, Бібліотеки, Музикаі навіть Подарунки.



Рис. 3.3.Метапошукач Nigma.ru


Метапошуковик MetaBot.ru (рис. 3.4) підтримує пошук за великою кількістю пошукових систем, серед яких є маловідомі, можна сказати навіть екзотичні: », Links2go, Excite.



Рис. 3.4.Головне вікно серверу метапошуку MetaBot.ru


Однак, за заявою адміністрації MetaBot.ru, кількість і склад пошукових систем, що опитуються, може змінюватися. При пошуку за допомогою даного сервера можна вибрати один із його видів:

УКРАЇНСЬКИЙ ПОШУК– пошук у російськомовному Інтернеті;

УВЕСЬ СВІТ- Пошук по всьому Інтернету;

ПОШУК ФАЙЛІВ- Пошук власне інформації;

MP3/VIDEO- Пошук музики та відео.

Як і Nigma.ru, MetaBot.ru має нескладну мову пошукових запитів, а можливості розширеного пошуку у нього, на жаль, немає.

Веб-каталоги

Ще один альтернативний спосіб пошуку – веб-каталоги. Це насправді інтернет-сайт, на якому зібрані посилання на різні ресурси Мережі. Ці посилання згруповані за розділами, які можуть мати підрозділи, ті, у свою чергу, також розбиваються на підрозділи і т. д. Зайшовши, наприклад, розділ «Бізнес та фінанси», можна побачити підрозділи «Менеджмент», «Валюта», « Юристи», «Безпека», «Банки», «Податки» та ін. Зазвичай у веб-каталозі існує внутрішній пошук ресурсів каталогу. Посилання на конкретні веб-сайти, як правило, супроводжуються невеликим описомресурсу, що робить пошук зручнішим.

На зорі Інтернету, коли кількість сайтів у Мережі була порівняно невелика, пошук по веб-каталогах був основним засобом пошуку інформації у Всесвітньому павутинні. Згодом Інтернет розростався, і адміністраторам таких каталогів ставало все важче забезпечувати їхню працездатність та підтримувати актуальність поданої інформації на належному рівні. Веб-майстрам, які створювали свої сайти, надавалася можливість самим додавати посилання на свій ресурс у веб-каталог. Однак відстежувати коректність посилань, що додаються, і описів адміністраторам веб-каталогів ставало все важче. Тому поступово веб-каталоги поступалися місцем пошуковим серверам, які могли автоматично індексувати вміст інтернет-сайтів, і участь людини там була мінімальною, а отримані результати часто більше відповідали вимогам.

Проте веб-каталоги живі й досі. Багато великих інтернет-порталів мають у своєму складі веб-каталоги. Багато власників пошукових серверів вважають хорошим тоном мати свій веб-каталог. Ось деякі з діючих веб-каталогів:

Каталог Російських Веб-Серверів – www.weblist.ru/russian;

Найчастіше за допомогою веб-каталогів можна знайти цікаві та інформативні ресурси, які не вдавалося знайти за допомогою пошукових серверів.

Пошук відповідей на запитання

Строго кажучи, те, про що зараз йтиметься, не є пошуком у чистому вигляді. Проте, розглядаючи методи пошуку в Інтернеті, не можна не згадати експертні вузли. Як уже говорилося, люди поки що не навчили комп'ютери розуміти живу людську мову. Іноді виникає ситуація, коли знайти відповідь на питання, що цікавить, неможливо, формулюючи це саме питання одними лише ключовими словами: потрібно викласти суть проблеми живою мовою. Наприклад, ви купили на ринку невідомий фрукт і нема в кого запитати, що це таке (питається, навіщо тоді купували, але це вже неважливо). Важливо, що, хоч би як ви намагалися, традиційні та й багато альтернативні способи пошуку в Інтернеті тут допомогти не зможуть. Ось у цьому випадку й прийде на допомогу експертний вузол – спеціалізований веб-сайт, свого роду інформаційний центр, який підтримують знання та думки живих людей.

Робота експертного вузла багато в чому нагадує роботу форуму (про форуми докладніше див. у гл. 9 розд. «Знайомства, спілкування, пошук друзів») і будується наступним чином: одна людина ставить запитання звичайною «людською» мовою, а інші відвідувачі ресурсу дають відповідь знову ж таки звичайною мовою. У прикладі з фруктом питання можна порівняти приблизно так: «Хто знає, як називається фрукт такого-то кольору, такого-то запаху, такого-то розміру, зовні схожий на те-то?»

Оскільки кількість відвідувачів експертних вузлів є великою, то, як правило, відповідь знаходиться протягом декількох хвилин. Найчастіше результатом питання буває дуже кваліфікована та індивідуальна відповідь або порада, яку не здатна дати жодна Пошукова система. Всі питання розділені за категоріями, майже як у веб-каталогах, що полегшує спілкування між собою.

Для російськомовного Інтернету таке явище, як експертні вузли, поки що не дуже поширене. З більш-менш великих можна назвати хіба проект Відповіді@Mail.Ru ( otvet.mail.ru). Проект налічує понад 7,5 000 000 учасників, та їх кількість постійно зростає (рис. 3.5).



Рис. 3.5.Проект Відповіді@Mail.Ru, що дозволяє знайти відповідь на будь-яке запитання


Користувачі, готові поставити запитання англійською мовою і на ньому отримати відповідь, можуть вдатися до послуг зарубіжних експертних вузлів, таких, як AskMe ( askme.com) або LookSmart Live.

Розібравшись загалом із пошуком веб-сторінок і документів, слід звернути увагу до пошук файлів всіх форматів, оскільки він має деякі особливості проти пошуком текстів. Під файлами маються на увазі саме файли в чистому вигляді: картинки, аудіо-і відеофайли, програми, архіви і т. д. (по суті, веб-сторінка - це теж безліч файлів). Розглянемо деякі тонкощі пошуку картинок, музичних та інших файлів.

Пошук малюнків в Інтернеті

Мільярди картинок, що зберігаються в Мережі, можуть бути використані з різними цілями: як малюнок Робочий стіл, як ілюстрація до наукової чи іншої роботи, для створення власних листівок чи презентацій тощо. буд. Шукати малюнки складніше, ніж текст, оскільки індексація картинок для пошуковика проблематичніша, ніж індексація тексту, адже комп'ютери поки що не навчилися розпізнавати образи.

Якими б розумними не здавалися комп'ютери, як би не вражала їхня обчислювальна міць, але сучасні обчислювальні машини поки не в змозі впоратися із завданням, яке під силу виконати п'ятирічній дитині, наприклад, відрізнити зображення кішки від зображення собаки. Причому, незважаючи на те, що кінцевий користувач при пошуку малюнка описує його саме словами, а не образами. Визначення списку ключових слів для конкретного зображення в Мережі є головною проблемою перед пошуковими серверами.

Для її вирішення аналізуються такі параметри: слова, що зустрічаються на сторінці поряд із картинкою; назва посилання, яке веде на малюнок; ім'я файлу зображення; назва сайту та ін Як би там не було, але знаходити малюнки в Інтернеті можна.

Однак при пошуку картинок необхідно враховувати наявність описаних вище проблем щодо їх пошуку. Не завжди на знайденому малюнку буде зображено те, що очікувалося. Про це слід пам'ятати і при побудові пошукового запиту. Одна справа, коли потрібно знайти зображення велосипеда (тобто конкретного предмета), і зовсім інша, коли необхідна картинка на абстрактну тему, наприклад, «біг підтюпцем». В останньому випадку доведеться поекспериментувати і спробувати, наприклад, такі варіанти ключових слів: «пробіжка», «бігун», «спортсмен» і т.п. Необхідно використовувати суміжні, а часом і віддалені поняття.

Розглянемо засоби, які використовуються для пошуку картинок в Мережі. Як згадувалося вище, використовуючи сервери метапошуку, можна шукати картинки, просто ввівши ключові слова в пошуковий рядок і вибравши функцію пошуку з картинок. До речі, звичайні пошукові сервери також надають можливість пошуку малюнків. На головній сторінці практично будь-якої пошукової системи є посилання Зображенняабо Малюнки, перейшовши по якій можна шукати малюнки. Наприклад, сервіс пошуку картинок "Яндекса" знаходиться за адресою www.images.yandex.ru, відповідною послугою, яку надає Google, можна скористатися на сторінці www.images.google.com. Результатом запиту буде сторінка із зменшеними копіями знайдених малюнків (рис. 3.6).



Рис. 3.6.Результати пошуку картинок за запитом порося в Google


Клацнувши на будь-якому з таких мініатюрних зображень, можна побачити повнорозмірний варіант і, звичайно, зберегти малюнок на вінчестері комп'ютера.

Окрім звичайних пошукових серверів для пошуку картинок можна використовувати спеціалізовані служби, завдання яких полягає виключно у пошуку зображень. Серед них – GoGraph.com ( www.gograph.com) та Picsearch ( www.picsearch.com). Загальна вада цих сервісів – їх англомовний інтерфейс. Коротко охарактеризую обидва ці пошуковики.

Даний сервер, скоріше, не пошуковик, а веб-каталог малюнків із функцією пошуку. Як і у звичайному веб-каталозі, на GoGraph.com (рис. 3.7) усі малюнки структуровані за категоріями, що дозволяє шукати зображення вручну, не вдаючись до функцій пошуку.



Рис. 3.7.Каталог-пошуковик GoGraph.com


Шукати можна по всіх типах файлів або вибравши один або кілька із запропонованих: Animated GIFs(GIF-анімація), Photos(Фотографії), Icons(значки), Clip Art(Кліпарт). Деякі зображення, зокрема зображення з великою роздільною здатністю, будуть доступні лише за гроші.

Picsearch – зручний у використанні сервіс із простим інтерфейсом, можливістю розширеного пошуку за різними параметрами та навіть власною міні-мовою пошукових запитів (підтримуються команди + (обов'язково включати слово) та – (виключити слово)). Як заявлено на головній сторінці сервісу, можна шукати по більш ніж 2 000 000 000 картинок. Picsearch (рис. 3.8) досить швидко працює і, незважаючи на свій англомовний інтерфейс, непогано справляється із обробкою російськомовних запитів.



Рис. 3.8.Головна сторінка сервера пошуку картинок Picsearch


Якщо ввести на сторінці запит велосипед, то після обробки та видачі результату сервер запропонує спробувати й інші запити, що часто використовуються: дитячий велосипед, водяний велосипед, гірський велосипед. Такий підхід підтверджує, що розуміння російської мови у Picsearch організовано високому рівні.

Мабуть, це вся основна інформація, що стосується пошуку малюнків в Мережі. Розглянемо не менш корисні та цікаві можливості інтернет-пошуку – пошук файлів мультимедіа.

Пошук музики та відео

Як і зображення, пошук мультимедійних файлів має особливості. З погляду пошукових систем, мультимедійні файли індексуються простіше, ніж зображення. По-перше, більшість сучасних аудіо- та відеоформатів підтримують можливість зберігати всередині самого файлу текстову інформацію, яка і зчитується пошуковим сервером, а потім використовується при пошуку таких файлів. По-друге, на відміну від картинок мультимедіафайли зазвичай розміщуються в Мережі спеціально для того, щоб їх завантажували. Тому такі файли зазвичай мають назву, що відповідає змісту (файл називається так само, як і представлена ​​ним музична композиція або фільм), а також посилання, яке вказує на адресу такого файлу і містить назву твору.

У зв'язку з цим для пошуку мультимедіа файлів часто використовуються звичайні пошукові сервери, які приносять непогані результати. Причому шукати можна без використання спеціальних засобів пошукової системи, тобто мультимедійний файл шукається так само, як і звичайна веб-сторінка.

Питання про наявність аудіо- та відеотворів в Інтернеті дуже хвилює правовласників таких продуктів, адже часто мультимедіафайли поширюються нелегально, що завдає шкоди законним власникам авторських прав. У Останніми рокамиоборот в Інтернеті аудіо- та відеопродукції набуває все більш цивілізованого вигляду. Деякі великі портали, які пропонували раніше завантажити MP3-музику (причому, як правило, безкоштовно) зараз припинили своє існування або перекваліфікувалися і перевели свою діяльність у законне русло.

Прикладом цього може бути великий музичний портал MP3Search.ru ( www.mp3search.ru), який спочатку замислювався творцями як система для пошуку безкоштовних музичних файлів у Мережі. Однак згодом проект змушений був змінити тактику роботи, і сьогодні це один із найбільших ресурсів у російськомовному Інтернеті, які займаються законним розповсюдженням музичних композицій (звісно, ​​за відповідну плату). На порталі MP3Search.ru представлено велику кількість музики різних стилів та напрямків, шукати можна вручну за принципом веб-каталогу або з використанням рядка пошуку.

Під час пошуку відео також спостерігається схожа ситуація. Нелегальні сайти поступово припиняють своє існування, поступаючись місцем легальним. Варто згадати про пошуковий сервер GoGo.ru ( www.gogo.ru), який одним із перших у російськомовному Інтернеті надав сервіс пошуку відео. Шукати необхідне відео на даному сервісі просто: потрібно лише набрати ключові слова в рядку пошуку та вибрати категорію Відео. У результатах пошуку будуть виключно ресурси, які розповсюджують відео на законних підставах.

Пошук по FTP-серверам

На FTP-серверах, що діють сьогодні, можна знайти різні типи файлів, у тому числі музику і відео. Значна частина FTP-ресурсів має платний або обмежений доступПроте багато з них є загальнодоступними. Набравшись трохи досвіду та визначивши для себе найбільш кращі ресурси, користувач може шукати на них файли просто переходячи з папки в папку. Однак набагато зручніше скористатися послугами FTP-пошуковиків, які шукають файли на FTP-серверах.

Особливість пошуку файлів у тому, що вони, крім імені та типу, не мають жодних ознак, які могли б їх ідентифікувати. Це навіть картинки, вміст яких можна визначити, використовуючи спеціальні алгоритми. Вміст файлу не можна класифікувати. Щоправда, мультимедійні файли часто містять у собі деяку інформацію, скажімо, про назву композиції чи виконавця. Однак архіви, програми та багато інших типів файлів не піддаються класифікації. Внаслідок цього основною ознакою, за якою можна знайти файл, залишається його ім'я.

З урахуванням цієї специфіки працюють FTP-пошуковики. Можливість пошуку FTP-серверів як додаткову функцію надають деякі звичайні пошукові сервери. Наприклад, «Рамблер» ( http://ftpsearch.rambler.ru/db/ftpsearch/) або вже згадуваний у контексті пошуку веб-сторінок метапошуковий сервер MetaBot.ru ( www.metabot.ru). Крім того, існують спеціалізовані пошукові системи, орієнтовані виключно на пошук FTP-серверів. Найвідоміша з російських - FileSearch.ru ( www.filesearch.ru). Один із найпотужніших зарубіжних FTP-пошуковиків – FreewareWeb ( www.freewareweb.com).

Розглянемо можливості таких пошукових серверів з прикладу FileSearch.ru (робота інших FTP-пошуковиків, зокрема англомовних, будується так).

Головна сторінка FileSearch.ru, як і більшості пошукових систем, виглядає досить просто, правда, рясніє рекламою. Крім власне рядка пошуку присутній список, що розкривається, в якому можна вибрати тип файлів для пошуку з наступних варіантів:

файл/каталог- Пошук по всіх файлах та папках;

музика (mp3)- Пошук MP3-музики;

зображення- Пошук картинок;

відео- Пошук відеофайлів;

сервер- Пошук FTP-сервера.

Ще в одному списку, що розкривається, можна вибрати географічні межі пошуку: в Росіїабо по всім(тобто у всьому світі). Задавши необхідні параметри, слід набрати ім'я потрібного файлуабо його частину та натиснути кнопку Знайти– результати пошуку з'являються майже миттєво.

Порада

Ім'я файлу можна задавати, використовуючи спецсимволи * та?, які означають відповідно будь-яку групу символів та будь-який одиночний символ.

На головній сторінці пошукового сервера є також посилання Драйвери, перейшовши по якій можна потрапити на сторінку пошуку драйверів для різних пристроївкомп'ютера. Вибравши тип пристрою та його виробника, потрібно буде вказати конкретну модель, у результаті з'являться посилання на знайдені драйвери, що зберігаються на FTP-серверах.

Як і більшість пошукових систем, що поважають себе, FileSearch.ru забезпечує можливість розширеного пошуку. Перейшовши на головній сторінці пошуку за посиланням Розширений пошук, можна потрапити до сторінки (рис. 3.9), де можна змінювати деякі параметри пошуку файлів.



Рис. 3.9.Сторінка розширеного пошуку сервера FileSearch.ru


Ця сторінка практично не містить налаштувань, які потребують пояснення. Серед можливостей слід відзначити відключення показу результатів пошуку файлів, призначених для використання на системах сімейства Unix. Доцільно скористатися цією можливістю, коли потрібно знайти файли для Windows, щоб не перевантажувати результати пошуку зайвими даними. Корисною іноді буває можливість обмеження розміру файлу, якщо, наприклад, відомо, що шуканий файл не може бути меншим за певний розмір або щоб відкинути занадто великі файли, завантаження яких на комп'ютер може вимагати великих витрат часу.

Є на FileSearch.ru і своя мова пошукових запитів, яка загалом схожа на мови традиційних пошукових систем, тому докладно нею зупинятися не будемо. Ознайомитись із переліком команд мови можна за адресою www.filesearch.ru/help/regexp.html.

Нагадаю, що для завантаження файлів з FTP-сервера знадобиться одна з програм FTP-клієнтів (див. гл. 2, розд. «Завантаження та вивантаження файлів за допомогою FTP»).

Підводячи підсумок розповіді про можливості пошуку в Інтернеті, варто згадати ще про одне нове явище в Мережі – візуальний пошук, суть якого в наочному та яскравому представленні результатів пошуку.

Зазначу також, що для успішного пошуку від користувача потрібне набуття деяких навичок. Крім того, пам'ятайте: "Хто шукає, той завжди знайде!"

Класифікація інформації (що можна шукати на Internet).

З погляду споживача всю інформацію в Internet можна розділити на телекомунікаційні інформаційні ринки (рис. 1.).


Пошукові системи (класифікація та сфери використання).

Пошук необхідних відомостей у великому обсязі досить різноманітної інформації – завдання, яке людство вирішує вже багато століть. У міру зростання обсягу інформаційних ресурсівбули розроблені досить досконалі пошукові засоби та прийоми, що дозволяють знайти необхідний документ. Як основний інструмент для пошуку інформації в бібліотеках використовуються каталоги (алфавітні, систематичні та предметні). Однак кожний інструмент має свої недоліки. При високих обсягах інформації (які характерні для Internet) пошук інформації стає дуже складною процедурою. Щоб знайти потрібні відомості в Inernet необхідно мати спеціальні знання та навички. Фахівець, який володіє такими знаннями та навичками та здійснює пошук інформації за замовленнями, що надійшли, називається інформаційним брокером. Він знає, як улаштовані класифікатори, як їх інтерпретують систематизатори, які існують інструменти для пошуку інформації в Inernet, технологічні прийоми та методики пошуку, особливості різних пошукових машин і т.д. У розмові із замовником він вивчає його інформаційну потребу та перетворює її на пошукове розпорядження. У нашій країні фахівці такого профілю - поки що рідкість, хоча потреба в них вже відчувається.

У Internet доступні інформаційно-пошукові системи (ІПС) трьох типів: класифікаційні, словникові та предметні.

КласифікаційніІПС використовують ієрархічну організацію інформації, що описується за допомогою класифікатора. Розділи класифікатора називають рубриками. У бібліотечній справі для цього використовується, наприклад, систематичний каталог.

Класифікатор розробляється та вдосконалюється колективом авторів. Потім його використовує інший колектив фахівців, які називають систематизаторами, які, знаючи класифікатор, читають документи і приписують їм класифікаційні індекси, які вказують, яким розділам класифікатора ці документи відповідають. Як приклад класифікаційної ІПС в Internet можна назвати Yahoo! , в якій одночасно працює більше 100 систематизаторів, Excite, Look Smart, Yellow Web, “Сузір'я Інтернет”, “Ау”.

Класифікаційні ІПС мають низку специфічних недоліків. Розробка класифікатора пов'язані з оцінкою відносної важливості різних галузей людської діяльності. Будь-яка оцінка є соціальною дією - вона пов'язана з суспільством, культурою, соціальною групою, до якої належить виробляє оцінку людина. Тому класифікатори, створені різними колективами в різних країнахсильно різняться. Крім того, у систематизаторів виникають складнощі з інтерпретацією матеріалів, написаних на іноземних мов(Не тільки вихідних документів, а й класифікаторів). Оскільки абсолютно строгої класифікації не вдається зробити нікому, завжди існують документи, які можна зарахувати до кількох розділів класифікатора.

Систематизатори у складних випадках (коли неясно, до якого з розділів має бути віднесений документ) застосовують два прийоми: відсиланняі посилання.Відсилання (в Yahoo! вона позначається знаком @) міститься в тих розділах класифікатора, в які не потрапив даний документ- У ній вказується, до якої рубрики він віднесений систематизатором. Посилання використовується в тих випадках, коли аналогічна інформація може знаходитись в інших розділах класифікатора.

СловниковіІПС застосовують базу даних, побудовану зі слів, які у документах Internet а. У такій базі при кожному слові зберігається список документів, у тому числі воно взято. Оскільки всі морфологічні одиниці у словнику впорядковані, пошук потрібного слова може виконуватися досить швидко, без перегляду.

За одним словом знайти потрібну інформацію досить складно. Тому кожна словникова ІПС має свою мову запитів, що дозволяє комбінувати слова, що найбільш повно характеризують потрібну інформацію.

До словникових ІПС Internet а відносяться такі, як Alta Vista, Rambler, Я ndex, Апорт.

Словникові ІПС здатні видавати списки документів, що містять мільйони посилань. Навіть простий перегляд таких списків скрутний. Тому багато словникових ІПС надають можливість ранжирування результатів пошуку - найважливіші документи поміщаються на початок списку. У мові запитів таких ІПС передбачено спеціальні засоби, наприклад, у режимі складного пошуку в Alta Vista можна вказати перелік термінів, які підвищують ранг знайденого документа (що для цієї ІПС особливо актуально, оскільки вона показує лише перші 200 знайдених документів). Rambler та Я ndex дозволяють вказати вагу кожного з термінів, що дозволяє досить точно налаштовувати порядок проходження знайдених документів.

Прогнозування є стрижнем будь-якої торгової системи, тому компетентно відтворені можуть зробити Тебе архі грошовим.

У предметнихІПС із пошуковим чином пов'язані списки ресурсів Мережі, що містять потрібну інформацію та посилання на близькі за тематикою сайти. У таких ІПС створюються кільцеві структури посилань. Так, сервер містить кілька десятків тисяч тематичних кілець (середній розмір кільця – близько 12 серверів, але є і кільця-гіганти, до складу яких входять тисячі серверів). Поки кільця були невеликими, пошук інформації не представляв. Для полегшення пошуку на вказаному сервері використовуються свої класифікаційні та словникові ІПС, які допомагають знайти необхідну інформацію.

За допомогою інформаційно-пошукових систем можна шукати певні інформаційні об'єкти, список яких наведено на рис. 2.

Опис пошукових систем. Пошукова системаAlta Vista.

Кожна пошукова система має свою мову запитів, яка визначає правила, відповідно до яких формулюються запити на пошук інформації.

У класифікаційних та словникових ІПС запит складається на основі ключових слів, які є найбільш яскравою характеристикою шуканої інформації (по суті, без цих слів дана інформаціяобійтися не може). Краще, якщо ці ключові слова мають специфічний зміст, притаманний лише шуканому інформаційному матеріалу, який відрізняє даний матеріал від інших.

Пошукова система AltaVista відноситься до розряду словникових ІПС і є однією з інформаційно насичених. Звернутися до неї можна за адресами:

2) Пошуковий образ може складатися з одного чи кількох ключових слів.

3) Залежно від способу з'єднання ключових слів у пошуковому запиті розрізняють прості та складні запити.

4) Складний запит відрізняється від простого тем, що в ньому можна вказати дату створення шуканого документа (щоб виділити матеріали, що мають останнє оновленняпісля зазначеної дати), спеціальну логіку пошуку (визначувану використанням операторів AND, OR, NOT, NEAR), вибрати один з трьох варіантів упорядкування результатів пошуку при їх виведенні: "тільки як результат", "компактна форма", і "стандартна форма" (остання використовується за замовчуванням), та використовувати круглі дужки для виділення логічно самостійних частин запиту.

5) Ключові слова можуть набиратися на різних регістрах клавіатури - залежно від цього пошукова машина по-різному проводитиме пошук.

Наявність у ключовому слові великої літери змусить пошукову машину при простому пошуку шукати слова саме з написанням, як у запиті. Якщо ж великі літери не використовувалися, то пошукова машина враховує будь-які варіанти написання цих слів. Наприклад, якщо пошуковий припис складається з одного слова Computer , буде знайдено інформаційні матеріали, що містять це слово саме в такому написі. Якщо ж це слово не міститиме великих літер, то при пошуку будуть враховуватися слова в таких накресленнях, як computer, COMPUTER, COMPuter, та ін. Необхідно враховувати, що при використанні пошукового образу, що складається тільки з одного слова computer, AltaVista надає близько 2000 посилань. Переглянути таку кількість посилань практично неможливо, а значить, інформаційний пошук не можна вважати ефективним (при правильно складеному запиті необхідна інформація знаходиться у числі перших двох десятків посилань).

6) У разі, якщо невідомо правильне написання слова, чи інтерес представляє безліч однокорінних слів, використовується оператор невизначеності - “*” (зірочка). Поставивши цей символ після будь-якої послідовності букв (не менше трьох), вплив яких необхідно врахувати при пошуку, можна зробити широкий пошук, при якому ключове слово модифікуватиметься: пошук буде ввестися як для жорстко вказаної до зірочки сукупності букв, так і для слів, що містять будь-які літери (числом до 5) замість зірочки. Наприклад, якщо вказати ключове слово comp * , то при пошуку будуть враховуватися як ключові - computer , computers , compute , та ін.

7) Для з'єднання декількох ключових слів можуть використовуватися оператори "пробіл", "лапки", логічні оператори "+", "-", AND, OR, NOT, NEAR.

8) Оператор “пробіл” з'єднує слова у пошуковому розпорядженні таким чином, що для пошуку кожне з цих слів використовується окремо. При цьому порядок слів у запиті не має значення. У процесі пошуку враховується лише відстань кожного слова від початку документа та частота його використання у документі.

9) Оператор “лапки” з'єднує слова отже вони утворюють фразу, у якій всі зазначені у розпорядженні слова у документі стоять поруч друг з одним й у тому послідовності, як і зазначено у приписі. Тому, якщо задати пошукове розпорядження у вигляді слів "personal computer" і у вигляді "computer personal", то результати пошуку будуть різними.

10) Оператор “+”, що з'єднує слова, повідомляє пошуковій машині, що у документі необхідно шукати основне слово (перше), але документ треба показувати результаті пошуку лише тоді, коли далі у тексті зустрічаються інші слова з пошукового приписи. Оператор ставиться безпосередньо перед кожним другорядним словом. Наприклад, за пошуковим образом:

computer + personal + digital вестиметься пошук основного слова computer , але текст буде вважатися актуальним тільки якщо в ньому зустрічаються також слова personal і digital .

11) Оператор "-", що стоїть перед словом, означає, що основне слово має використовуватися в тексті без другорядного. Наприклад, пошукове припис computer - personal повідомляє пошуковій машині, що треба шукати основне слово computer , але в тексті не повинно зустрічатися слово personal (тобто цікавлять матеріали про комп'ютери, але не персональні).

12) Оператори AND, OR, NOT, NEAR використовуються у складних запитах.

13) Оператор AND (замість нього можна використовувати символ &) визначає, що слова, що їм з'єднуються, повинні зустрічатися разом (тобто в простих запитах він еквівалентний знаку “+”).

14) Оператор OR (замість нього можна використовувати знак "|") визначає, що слова, що з'єднуються ним, незалежні один від одного (у простих запитах він еквівалентний пробілу).

15) Оператор NOT означає заперечення (у простих запитах він еквівалентний знаку “-”).

16) Оператор NEAR (замість нього можна використовувати символ "~") визначає, що в шуканому тексті вказане ним ключове слово віддалено від основного не далі, ніж на 10 слів (наприклад, у пошуковому приписі:

провайдер* NEAR "дуже дешево" передбачається, що в тексті слово "провайдер" і словосполучення "дуже дешево" знаходяться не в різних кінцях тексту, а поруч один з одним - між ними може знаходитися не більше 10 слів).

17) Для обмеження пошуку використовуються спеціальні команди (теги): anchor, applet, title, url, host, link, image, from, subject.

18) Команда anchor дозволяє знайти у Мережі слово, що міститься у “тілі” посилання. Для цього після команди anchor через двокрапку вказується слово, що шукається. Наприклад, пошуковий образ містить:

anchor: home За цим запитом буде знайдено все безліч сторінок, що містять всередині посилань слово home, у тому числі - і в такому засланні: "If you would like go home, press here".

19) Команда applet дозволяє знайти заданий назвою модуль Java. Наприклад, якщо модуль Java називається word, то знайти його можна, записавши пошуковий образ: applet: word.

20) Команда title використовується в тому випадку, якщо слово, що шукається, знаходиться в заголовку тексту. Наприклад, за запитом виду: title: links будуть знайдені документи, що містять слово links в назві, у тому числі текст із назвою "Cool Links".

21) Команда url наказує шукати url -адресу, що містить задане слово. Наприклад, якщо невідомо, в якому кореневому домені знаходиться host-комп'ютер МЕСІ, можна задати пошуковий припис: url:mesi. Серед безлічі адрес з таким словом буде і адреса.

22) Команда host дозволяє дізнатися, які Web-сайти є на заданому host-комп'ютері. Наприклад, щоб дізнатися, які сайти є на хості необхідно набрати запит: host: intel . ru . Якщо ж у запиті вказати лише частину імені, то в результаті пошуку будуть знайдені сайти, які мають інші адреси, але містять задану частину імені.

Використовуючи цю команду, можна шукати в заданій країні. Наприклад, на запит host:*. ru + kreml буде знайдена інформація про Московський, Рязанський та інші Кремлі. При цьому потрібно пам'ятати, що пошук ведеться лише для сайтів, зареєстрованих у пошуковій системі AltaVista, інші сайти недоступні.

23) Команда link дозволяє знайти адреси сторінок (сайтів), що містять посилання на конкретну (задану в пошуковому образі) Web-сторінку. Наприклад, для того, щоб дізнатися, хто посилається на сайт, необхідно задати припис: link: . Результатом буде список сторінок, на яких містяться посилання на сайт mesi. ru .

24) Команда image дозволяє знайти ілюстрацію в Internet. Для цього потрібно знати назву файлу, в якому вона зберігається. Формат команди той самий.

25) Команда from дозволяє шукати у телеконференціях Usenet поштове повідомлення, відправлене конкретною людиною, ім'я якої вказується після двокрапки у команді. Наприклад: від: Іван + Федоров (або Ivan + Fedorov).

26) Команда subject дозволяє шукати повідомлення телеконференціях Usenet на конкретну, задану у пошуковому розпорядженні тему.

Пошукова система AltaVista може працювати (і вести пошук) різними мовами, в тому числі і російською.

Описані принципи управління пошуковою системою багато в чому аналогічні використовуваним та інших пошукових системах.

Пошукова системаYandex.

У 1997р. за адресою: відкрилася нова російська пошукова машина Yandex (або я ndex). За набором своїх пошукових можливостейвона не поступається найскладнішим пошуковим машинамЗаходу, спеціально розрахована на російськомовні запити та враховує особливості російської лексики, пропонує дещо більше можливостей для інтелектуального пошуку.

Аналогічно AltaVista, Yandex розрізняє великі і великі літери. Якщо ключове слово написано великими літерами, то пошукова машина не розрізняє великі і великі літери, тобто при завданні ключового слова computer в пошуку будуть враховуватися і Computer , і COMPUTER , та ін. братися до уваги лише слова, що мають дане зображення.

У Yandex немає необхідності використовувати оператор невизначеності (аналогічний зірочці в AltaVista), тому що при завданні ключового слова великими літерами в процесі пошуку будуть використовуватися і слова, що стоять в інших відмінках, у різних відмінюваннях, в однині і множині.

У Yandex так само, як у AltaVista можна будувати прості та складні запити. Але побудова складних запитів потребує вищої кваліфікації особи, яка проводить пошук.

Для з'єднання ключових слів у простих запитах використовуються оператори, які позначаються символами: &, |, ~, (,). Серед них тільки тільда ​​(~) має інше призначення - у Yandex вона позначає заперечення (і еквівалентна знаку "-" в AltaVista). Однак, зазначені оператори мають суттєву особливість: ключові слова, які вони з'єднують, повинні знаходитися в межах одного абзацу.

Подвоювання оператора зв'язку вказує на те, що слова повинні знаходитися в межах усього тексту (а не лише одного абзацу).

У Yandex передбачено "пошук з відстанню" - можна вказати, що ключові слова в тексті повинні знаходитися на відстані не більше, наприклад, трьох слів (і в одному абзаці). Відстань задається символом /, за яким слідує цифра, що визначає відстань. Наприклад, задавши припис:

пошукова машина буде шукати документи, що містять в межах одного абзацу слова "круглий" і "куля", причому, розділені вони можуть бути не більше, ніж трьома словами. Якщо відстань задано негативним числом, це означає, що друге слово передує першому.

Замість одного слова у пошуковому розпорядженні можна використовувати цілі вирази. Логічно самостійні елементи цих виразів можуть полягати у дужки.

Особливості пошуку інформації в Інтернеті.

Інтернет як глобальний засіб обміну інформацією нерідко використовується для пошуку потрібних даних. Способів пошуку інформації безліч (у дужках вказані випадки, коли такий спосіб пошуку найбільш застосовний): Пошук за допомогою пошукових машин(конкретні речі) Каталоги та колекції посилань(загальні поняття) Рейтинги(найпопулярніші ресурси) Конференції, чати та сторінки посилань на тематичних сайтах(Рідкісні, спеціалізовані речі). Обмежені тимчасові, фізичні та фінансові можливості людей змушують найчастіше застосовувати для цього спеціальні каталоги та пошукові машини (пошуковики) – свого роду бібліотекарі, які індексують доступний їм масив інформації в Інтернет. У цьому розділі виділено особливості та розглянуто загальні правила роботи найбільш відомих каталогів та пошукових систем.

Каталогиє систематизовані групи адрес, об'єднані, як правило, за тематикою. До зручності їх застосування можна віднести те, що якщо користувачу відома тема шуканого документа, він досліджуватиме відповідну галузь каталогу, не відволікаючись на сторонні документи, що не стосуються справи. Проте обсяг каталогу обмежений фізичними можливостями редакторської групи та її суб'єктивністю у виборі матеріалу. Вони відсутня інформація на вузькі, спеціальні теми, та й саму тематику шуканого документа який завжди можна сформулювати у межах класифікації каталогу. Нижче наведено можливості зарубіжних та російських каталогів.

Yahoo! - Найпопулярніший каталог, що містить велику інформацію про десятки тисяч Web-вузлів. Перший рівень ієрархії містить 14 тематичних категорій, які розгалужуються ще на 4-5 підрівнів. Має власну машину пошуку, що дозволяє: 1) шукати за базою Yahoo!, Usenet або за адресами електронної пошти; 2) обмежити пошук матеріалами, розміщеними за останній день, тиждень, місяць, рік чи 3 роки; 3) видати статті, що містять хоча б одне ключове слово чи всі ключові слова; 4) шукати за однокорінними словами або лише за вказаними ключовими; 5) видати результати по 10, 25, 50 або 100 на одній сторінці (детальніше нижче). Excite Reviews - Містить огляди 60 тис. вузлів Інтернет (ієрархічний каталог) City. Net - відомості про країни та міста.

Galaxy - Ієрархічний каталог із докладним описом тематичних категорій на першій сторінці. Здійснює пошук за категорією пошуку, по одному або декільком ключовим словам, короткий та докладний висновок результатів пошуку, перехід на сторінки Gopher та Telnet.

Yellow Pages - Пошук інформації про 16 млн. американських компаній у різних галузях діяльності, а також персональні дані та електронні адреси приватних осіб.

Росія on the Net - перший каталог російських ресурсів.

Сузір'я Інтернет - Охоплює близько 400 серверів. Можливість усічення термінів. Містить назви та короткі характеристики серверів. Приваблива графіка. Невелика зона пошуку, слабенька ієрархія.

Жовті сторінки Інтернет - Близько 1200 Web-серверів. Великий обсяг інформації, добре продумана структура.

Скарби Інтернет - Каталог Web-ресурсів на сервері Relcom. АУ! - Молодий каталог, що швидко розвивається.


Пошукових серверіввсього відомо більше 150, що розрізняються по регіонах охоплення, принципам проведення пошуку (а отже, за


вхідної мови та характеру запитів, що сприймаються), обсягу індексної бази, швидкості оновлення інформації, здатності шукати "нестандартну" інформацію тощо. Основними критеріями вибору пошукових серверів є обсяг індексної бази сервера та ступінь розвиненості самої пошукової машини, тобто рівень складності сприйманих нею запитів. Традиційно пошукові системи мають три елементи:

1. Робот(кроулер, павук, агент), який переміщається по Мережі та збирає інформацію; Кроулери переглядають заголовки та повертають лише перше посилання.

Павуки – програми, які здійснюють загальний пошук інформації в Мережі та повідомляють про зміст знайденого документа, індексуючи його та отримуючи підсумкову інформацію.

Агенти - "інтелектуальні" з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати транзакції від Вашого імені. Вже зараз вони можуть шукати з айти специфічної тематики та повертати списки сайтів, відсортованих за їх відвідуваністю. Адміністратори пошукових систем можуть визначити, які сайти або типи сайтів агенти повинні відвідати та проіндексувати. Агенти можуть обробляти зміст документів, знаходити та індексувати інші види ресурсів, не лише сторінки. Деякі, наприклад, індексують кожне окреме слово в документі, в той час як інші індексують тільки найважливіших 100 слів у кожному, індексують розмір документа і число слів в ньому, назву, заголовки і підзаголовки і так далі. Вони можуть бути запрограмовані для отримання інформації з вже існуючих баз даних.

Інтернет-спільнота прийняла "Стандарт винятків для роботів". Цей стандарт описує використання простого структурованого текстового файлу, доступного у відомому місці на сервері (" / robots. txt") і використовуваного для того, щоб визначити, яка з частин посилань сервера повинна ігноруватися роботами. Всі "розумні" пошукові машини спочатку звертаються до цього файлу, який повинен бути присутнім на кожному сервері. На сьогоднішній день цей файл обов'язково запитується пошуковими роботами тільки таких систем як Altavista , Excite , Infoseek , Lycos , OpenText і WebCrawler Цей засіб може бути також використаний для того, щоб попередити роботів про чорні діри. є вільним, але його дуже просто здійснити і в ньому є значний тиск на роботі зі спробою їх підпорядкування.

1. База даних, яка містить всю інформацію, що збирається роботами.

Проіндексувати довільний документ, який знаходиться в Мережі, дуже складно. Перші роботи просто зберігали назву документа та якорі (anchor) у самому тексті, але нові роботи вже використовують більш просунуті механізми і взагалі розглядають повний змістдокумента. Проіндексована інформація надсилається базі даних (БД) пошукового механізму. Вигляд побудованого індексу визначає, який пошук може бути зроблено користувачем пошукового механізму і як отримана інформація буде інтерпретована. Люди можуть поміщати інформацію прямо в індекс, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити інформацію. БД автоматично оновлюються за певний період часу для того, щоб мертві посилання були виявлені та видалені.

2. Інтерфейс користувачадля взаємодії з БД пошуковика. Коли користувач шукає інформацію в Інтернеті, він заповнює пошукову форму на сторінці пошукової системи. Тут можуть використовуватись ключові слова, дати та інші критерії. Критерії в пошуковій формі повинні відповідати критеріям, які використовуються агентами при індексації ресурсів Мережі. Як формат, так і семантика запитів варіюються в залежності від пошукової машини, що застосовується, і конкретної предметної області. Запити складаються так, щоб область пошуку була максимально конкретизована та звужена. Перевага надається використанню кількох вузьких запитів у порівнянні з одним розширеним. Мови запитурізних машин пошуку переважно є поєднанням наступних функцій (Таблиця 3).

Оператори булевої алгебри AND, OR, NOT:


На основі введеного користувачем пошукового рядка в БД знаходиться предмет запиту і виводиться список відповідних посилань. Кількість документів, отриманих в результаті пошуку на запит,


можливо величезно. Однак, завдяки ранжуваннядокументів, що застосовується у більшості пошукових машин, на перших сторінках списку практично всі документи виявляться релевантними (в ідеалі). Основні засади визначення релевантностінаступні:

1. Кількість слів запиту у текстовому вмісті документа (у html - коді).

2. Теги, у яких ці слова розташовуються.

3. Розташування шуканих слів у документі.

4. Питома вага слів (густота), щодо яких визначається релевантність, у загальній кількості слів документа.

Ці принципи застосовуються усіма пошуковими системами. А представлені нижче використовуються деякими, але досить відомими (на зразок AltaVista, HotBot).

5. Час - як довго сторінка перебуває у базі пошукового сервера. Багато сайтів живуть максимум місяць. Якщо ж сайт існує досить довго, це означає, що власник дуже досвідчений у цій темі.

6. Індекс цитованості - кількість посилань на цю сторінкуз інших сторінок, зареєстрованих у БД.

Існують особливості показуотриманого списку - деякі пошукові системи показують лише посилання; інші виводять посилання з першими кількома пропозиціями, що містяться в документі або заголовок документа разом із посиланням.

Результат запиту (список посилань) обробляється у два етапи. На першому етапі (автоматична обробка) проводиться відсікання очевидно нерелевантних джерел, що потрапили у вибірку через недосконалість пошукової машини або недостатню "інтелектуальність" запиту. Подальша (ручна) обробка проводиться користувачем шляхом послідовного звернення на кожен із знайдених ресурсів та аналізу інформації, що там знаходиться. Коли користувач клацає на посилання зі списку, то перед запитом відповідного документа у сервера, на якому він знаходиться, пошуковики заносять у свою БД позначку про перевагу користувача. Зібрана інформація про поведінку користувачів(формулювання запитів та вибрані зі списку ресурси) успішно використовується у рекламних компаніях у Мережі.

Нижче порівнюються найбільш відомі не-російські пошукові системи.

AltaVista . Охоплює понад 30 млн сторінок на 225000 серверах, забезпечує доступ до 3 млн статей у 14000 телеконференціях Usenet. Має два режими: Simple query та Advanced query. У режимі Simple можна вводити шаблони для пошуку не менше ніж із трьома вказаними символами на початку слова. Якщо слово містить хоча б одну заголовну букву, ведеться пошук з урахуванням регістру Нижче рядки введення видаються поради щодо пошуку. У режимі Advanced можна створювати складні запити, що базуються на логічних операторах AND, OR, NOT, NEAR і вказувати критерії сортування отриманих результатів. Можна вказати діапазон дат публікації. Надає можливість пошуку зображень. Зручний інтерфейс. Висока швидкодія, багатоваріантне пошукове розпорядження, можливість пошуку російською з урахуванням морфології. Система не впорядковує результати пошуку, тому її доцільно застосовувати для специфічного чи вичерпного пошуку. Індексування у цій системі здійснюється за допомогою робота. При цьому робот має такі пріоритети:

Ключові фрази у< Meta >тегах;

Ключові фрази, що знаходяться на початку сторінки;

Ключові фрази за кількістю входжень присутності слів фраз; Якщо тегів на сторінці немає, використовує перші 30 слів, які індексує та показує замість опису (tag description) Найбільш цікава можливість AltaVista – це розширений пошук. Тут варто відразу обмовитися, що на відміну від багатьох інших систем AltaVista підтримує одномісний оператор NOT. Крім цього, є ще й оператор NEAR, який реалізує можливість контекстного пошуку, коли терміни повинні розташовуватись поруч у тексті документа. AltaVista дозволяє пошук за ключовими фразами, причому вона має досить великий фразеологічний словник. Крім усього іншого, при пошуку в AltaVista можна задати ім'я поля, де має зустрітися слово: гіпертекстове посилання, applet, назва образу, заголовок та ряд інших полів. На жаль, докладно процедура ранжирування в документації по системі не описана, але видно, що ранжування застосовується як при простому пошуку, так і розширеному запиті. Реально цю систему можна зарахувати до системи з розширеним булевим пошуком.

HotBot – охоплює 54 млн. сторінок. Можливий пошук російською мовою. Є популярним пошуковим засобом завдяки механізмам побудови складних пошукових запитів. В основному, 1-а сторінка результатів, отриманих у відповідь пошуковий запит, приходить із Direct Hit , потім беруться результати з Inktomi . Список каталогів надається Open Directory. HotBot почав надавати свої послуги у травні 1996 року, а в жовтні 1998 року він був куплений Lycos.

Infoseek . Охоплює 1,5 млн сторінок. Мова запитів дозволяє використовувати все можливі варіантилогічних виразів. Менш повні, ніж інших серверах, результати пошуку, незручний інтерфейс. У цій системі індекс створює робот, але він індексує не


весь сайт, а лише вказану сторінку. При цьому робот має такі пріоритети:

Слова у заголовку< title >мають найвищий пріоритет;

Слова в тезі keywords , description і частота входжень повторень у тексті;

При повторенні однакових слівпоряд викидає з індексу

Допускає до 1024 символів для тега keywords, 200 символів для тега description;

Якщо теги не використовувалися, індексує перші 200 слів на сторінці та використовує як опис;

Система Infoseek має досить розвинену інформаційно-пошукову мову, що дозволяє не просто вказувати, які терміни повинні зустрічатися в документах, а й своєрідно зважувати їх. Досягається це з допомогою спеціальних знаків " + " - термін може бути у документі, і " -" - термін повинен бути у документі. Крім цього, Infoseek дозволяє проводити те, що називається контекстним пошуком. Це означає, що, використовуючи спеціальну форму запиту, можна вимагати послідовної спільної слів. Також можна зазначити, що деякі слова повинні спільно зустрічатися не тільки в одному документі, а навіть у окремому параграфі чи заголовку. Є можливість вказівки ключових фраз, що є єдине ціле, до порядку слів. Ранжування під час видачі здійснюється за кількістю термінів запиту в документі, за кількістю фраз запиту за вирахуванням загальних слів. Усі ці фактори використовуються як вкладені процедури. Підсумовуючи, можна сказати, що Infoseek відноситься до традиційних систем з елементом зважування термінів при пошуку.

Infoseek Ultra - 50 млн. сторінок WWW, можливий пошук російською мовою, пошук зображень.

Lycos . Охоплює 68 млн сторінок. Можна вибрати параметри пошуку: одне, кілька ключових слів чи фразу; усічення термінів; обмеження на кількість збігів; ступінь відповідності результатів пошуку ключовим словам; форму виведення результатів (коротку чи докладну); кількість знайдених термінів кожної сторінці. Невисокі швидкодія та оперативність оновлення інформації. У Lycos використовується наступний механізм індексації:

Слова в< title >заголовки мають найвищий пріоритет;

Слова на початку сторінки;

Як і більшість систем, Lycos дає можливість застосовувати простий запит і витонченіший метод пошуку. У простому запиті як пошуковий критерій вводиться пропозиція природною мовою, після чого Lycos проводить нормалізацію запиту, видаляючи з нього так звані stop-слова, і тільки після цього приступає до його виконання. Майже одразу видається інформація про кількість документів на кожне слово, а пізніше список посилань на формально релевантні документи. У списку проти кожного документа вказується його міра близькості запиту, кількість слів із запиту, що потрапили до документа, та оцінний захід близькості, який може бути більшим або меншим за формально обчислений. Поки не можна вводити логічні оператори у рядку разом із термінами, але використовувати логіку через систему меню Lycos дозволяє. Така можливість застосовується для побудови розширеної форми запиту, призначеної для досвідчених користувачів, які вже навчилися працювати з цим механізмом. Таким чином, видно, що Lycos відноситься до системи з мовою запитів типу "Like this", але намічається його розширення та інші способи організації пошукових розпоряджень. У жовтні 1998 року Lycos придбав HotBot, який, в даний час, використовується як окрема служба.

WAIS є однією з найвитонченіших пошукових систем Internet. У ній не реалізовані лише пошук по нечітких множин і ймовірнісний пошук. На відміну від багатьох пошукових машин, система дозволяє будувати не тільки вкладені булеві запити, вважати формальну релевантність за різними мірами близькості, зважувати терміни запиту та документа, а й коригувати запит по релевантності. Система також дозволяє використовувати усічення термінів, розбиття документів на поля та ведення розподілених індексів. Не випадково саме ця система була обрана як основна пошукова машина для реалізації енциклопедії "Британіка" на Internet.

Yahoo . Секрет успіху Yahoo полягає у людях. Yahoo має близько 150 редакторів, для того, щоб складати та редагувати вміст своїх каталогів. Yahoo має базу даних більш ніж 1 млн. проіндексованих сайтів. Також, у разі нестачі власної бази даних, Yahoo використовує базу даних Google (до липня 2000 року Yahoo користувався базою даних Inktomi). Yahoo є найстарішою пошуковою системою, яка почала надавати свої послуги у 1994 році. Мова Yahoo досить проста: всі слова слід вводити через пропуск, вони з'єднуються зв'язкою AND або OR. При видачі не вказується ступінь відповідності документа запиту, лише підкреслюються слова із запиту, які зустрілися у документі. У цьому немає нормалізація лексики і проводиться аналіз на " загальні " слова. Хороші результати пошуку виходять лише тоді, коли користувач знає, що у базі даних Yahoo інформація є напевно. Ранжування провадиться за кількістю термінів запиту в документі. Yahoo відноситься до класу простих традиційних систем з обмеженими можливостями пошуку.



Перспективи розвитку засобів пошуку в Інтернет

Безперечними є такі тенденції Інтернет:

Зростання обсягу доступної інформації та інформаційних потреб користувачів

Розширення кордонів Інтернету за рахунок приєднання нових країн

Посилення комерціалізації сервісів

Збільшення швидкості, пропускну здатністьта числа способів доступу до мережі

Поглиблення диференціації сервісів за цільовими аудиторіями (гуртки за інтересами)

Об'єднання однорідних сервісів на єдині портали (місця масового обслуговування)

Впливи "дай"-протоколу відбитися на розвитку засобів збору інформації про поведінку користувачів в Мережі

Все це підштовхне автоматизацію засобів пошуку та семантичної обробки інформації таких, як:

Персональні автономні інтелектуальні агенти (типу "Search +")

Персоналізація та інтелектуалізація пошукових механізмів на пошукових порталах(налаштування способу виведення списку посилань, використання механізму Cookies, заповнення спеціальних анкет та “підписка на запит”, семантичне ранжування результатів запиту)

 

 

Це цікаво: