Які види пошуку використовують у глобальній мережі Інтернет
Як працюють пошукові системи: принципи, алгоритми, історія розвитку
Доброго дня, друзі!Пошукові системи допомагають користувачам знайти інформацію в інтернеті. це робота мільйонів пристроїв та тисяч людей. У статті розповімо простими словами, що таке пошукові системи, як вони працюють, чи є конкуренти у гігантів Google і Яндекс, які перспективи на ринку пошукових систем.
Що таке пошукова система
Пошукова система — це веб-ресурс (сайт та/або програма), який представляє каталог з інших сайтів. За допомогою пошукових систем можна знайти сторінки, документи, картинки, аудіо або відео, які містять ключові слова, зазначені в запиті (або слова, пов'язані з цими ключовими словами. Для цього завдання алгоритми аналізують мільярди сторінок в секунду і видають готовий список з результатами. алгоритмами пошуковика. Заповітна мрія кожного власника сайту — якнайчастіше потрапляти в ТОП, а ще краще — на першу позицію списку.
Коротка історія пошукових систем
Зараз великі пошукові системи (зокрема, Google та Яндекс) є цілим комплексом сервісів та інструментів і створюють власні екосистеми — це безпосередньо пошук, інструменти для створення реклами, додаткові сервіси для бізнесу (Google Мій Бізнес, Яндекс.Бізнес), інструменти для звичайних користувачів (Яндекс.Район, Яндекс.Таксі, Яндекс Дзен, Гугл та Яндекс Перекладачі), власні платіжні системи (Google Pay, Yandex Pay), Google та Яндекс новини, карти для навігації, голосовий пошук та голосові помічники (наприклад, Аліса від Яндекса) та багато чого ще. Побачимо, з чого все починалося. Як взагалі з'явилися пошукові системи? Хронологія: — до перших пошукових систем посилання на сайти передавалися з рук в руки, користувачі зберігали їх у текстових файлах; — пізніше з'явилися каталоги, куди вручну вводили адреси сайтів, що згруповані за категоріями. Але пошуку всередині цих каталогів досі не було; - У 1989 (за деякими джерелами в 1990) році з'являється "прабатько" всіх пошукачів - система "Арчі" (Archie - як архів у перекладі з англійської, але без літери v). Арчі являла собою архів, що скачується, зі списками існуючих файлів і каталогів з можливістю пошуку по них, але програма все ще не індексувала вміст цих файлів; — після Арчі з'являється ще пара аналогів — Veronica та Jughead зі схожим принципом роботи; - До 1993 року створювалося ще кілька каталогів, які заповнювалися вручну.Знову ж таки, повноцінної індексації не було; - У 1993 році з'являється перший пошуковий робот World Wide Web Wanderer, який збирав URL-сайтів і заносив їх в єдину базу, яку назвали Wandex; - У тому ж 1993 на основі World Wide Web Wanderer створюється Aliweb - перший пошуковик, але він ще не використовував автоматичних роботів. Щоб сайти індексувалися та потрапляли у пошук, їх власники мали вручну вводити адреси в Aliweb. Також на їх сайтах мав бути спеціальний індексний файл, який розпізнавався пошуковцем Aliweb; - У період з 1993 по 1996 було створено ще кілька простих пошукових систем: Yahoo, JumpStation, WebCrawler, Lycos, Altavista, Excite, AskJeeves, Inktomi, Magellan. Вони мали різні принципи роботи, наприклад, JumpStation використовував пошукового робота і містив форму для введення запитів, але пошук обмежувався лише заголовками сторінок. А ось WebCrawler дозволяв шукати інформацію не лише за заголовками, а й за словами із веб-сторінок, і цей принцип ліг в основу сучасних пошукових систем. З усіх перерахованих систем до наших днів дійшла лише Yahoo; - У 1993 році з'являється програма Yandex (створена компанією CompTek, засновник - Аркадій Волож). На той момент вона не була повноцінним веб-пошуковиком, а виконувала завдання пошуку інформації та файлів на жорсткому диску комп'ютера. До речі, слово Яндекс у розборі означає ще один індексатор (Yet ANother inDEXer). Для роботи програми компанія CompTek створила спеціальний російський словник для пошуку за ключовими словами. У 1995 році програму вирішили доопрацювати для пошуку інтернетом (переважно по російськомовному сегменту).Спочатку Яндекс працював з обмеженою кількістю сайтів, а пізніше став здійснювати пошук по всьому рунета. Офіційно Yandex.Ru анонсували в 1997; система враховувала посилання, що ведуть на сайт і враховувала це при ранжуванні. BackRub розробили студенти останнього курсу Стенфордського університету Сергій Брін і Ларі Пейдж; , Що позначає число з сотнями нулів. Google - це система з нескінченним об'ємом інформації - Google пошук розташовувався за адресою Goto.com (зараз він належить іншій компанії). наш час Google заперечує продаж місць у видачі пошуку, натомість рекламодавці платять за кліки та покази по рекламі в сервісі контекстної реклами Google AdWords; в 1998 році з'являється конкурент Google - MSN.com (Microsoft Network Search, пошуковик Майкрософт). створений остаточний варіант пошуковика Microsoft під назвою Bing. серйозну конкуренцію Google. З'явилися навіть жартівливі абревіатури назви Bing: "But It's Not Google" і "Bing Is Not Google" - у 2000 Google запускає AdWords - сервіс для рекламодавців.На той момент дозволяв розміщувати платну рекламу праворуч від пошукової видачі; - у тому ж 2000 Yahoo починає використовувати видачу Google в YahooSearch до 2004 року, поки не створює свою повноцінну пошукову систему; — у 2003 році Google запускає AdSense — сервіс, який дозволяє вебмайстрам заробляти на розміщенні реклами на своїх сайтах; — у 2006 році з'являється Google Sitemaps — карта сайту, яка допомагає Гуглу швидше індексувати вміст сайту. У тому ж 2006 році Google купує відеохостинг YouTube; — у 2009 році з'являється Bing від Microsoft, який, як ми вже сказали, так і не зміг скласти серйозної конкуренції Google; — у 2009 році Google захоплює левову частку ринку пошукових систем (близько 70%), маючи в індексі 8 млрд сайтів і досі тримається в лідерах; — у 2010 році було представлено перший сирий варіант голосового Google пошуку, потрібно було натиснути на спеціальний значок біля рядка пошуку на своєму мобільному пристрої та вимовити запит. З 2014 року доступна можливість вимовляти запити без дотику до екрану; — у наступні роки пошукові системи розвивали свої алгоритми, а Google поступово став монополістом. Популярність пошукових систем залежить від країн, наприклад, в Японії Yahoo! популярніша, ніж Google, у Південній Кореї в лідерах власний пошуковик Naver, у Китаї популярні Baidu, Soso та Sogou. Google там теж працює, але в дуже урізаному варіанті через знаменитий «китайський фаєрволл», тобто цензури. У Росії успіхом користуються 2 системи - Google та Яндекс. Яндекс має навіть свій браузер, де російська пошукова система встановлена за замовчуванням.Є й інші російські пошукові системи — Rambler і пошук Mail.ru, але вони поступаються Яндексу, та й назвати їх самостійними пошуковими системами не можна, оскільки вони використовують алгоритми від Яндекса та Google. Оскільки в СНД Google та Яндекс — найпопулярніші пошукові системи, розповімо про них докладніше.
Як працює пошукова система Google
- Сканування сторінок та файлів. Спочатку Google збирає інформацію — шукає нові сторінки та додає їх до своєї бази. Це робиться за допомогою спеціальних роботів Googlebot. Таких роботів кілька – одні сканують вміст веб-сторінки, інші індексують картинки, треті сканують сторінки та файли для мобільної видачі. Роботи вміють визначати оригінальні сторінки, дублікати, канонічні сторінки та їхні копії.
Google може знайти посилання на ваш сайт на інших сайтах, ви також можете запросити сканування сайту вручну та за допомогою картки Sitemap. Роботи самі визначають, які сайти сканувати, скільки сторінок і як часто.
P.S. Якщо сторінка доступна по різних URL або є схожий контент, наприклад, для мобільної та десктоп версії, то пошуковик об'єднує повторювані URL у групу, де є головна сторінка (канонічна), яка індексується частіше за інших і її копії.
- Індексування. Роботи обробляють вміст кожної сторінки - текст, медіафайли, теги (title, description), атрибути для картинок (title, alt). Можна приховати сторінку від індексування за допомогою тега nofollow або noindex або прописавши рекомендації у файлі Robots.txt.
Щоб прискорити індексацію сайту в Google, варто додати його до Google Search Console та Google Analytics.
P.S. У 2020 році Google Вебмайстер перейменовано на Центр пошуку Google.
- Видача результатів у пошуку. Алгоритми (які постійно змінюються та допрацьовуються) видають користувачеві результати, що найбільше відповідають його запитам на основі інформації, зібраної раніше. На цей процес впливають сотні факторів, наприклад: поведінкові фактори, швидкість завантаження сторінок, оптимізація для мобільних пристроїв, унікальність контенту, зручність навігації по сайту, розташування, надійність сайту, дизайн.
Видача надається у вигляді сторінок із посиланнями на сайти, зображень, новин, інформаційних блоків, відео.
Для коректної видачі розробляють спеціальні алгоритми. Марно намагатись підлаштовувати свій сайт під кожен конкретний алгоритм, оскільки робота над ними, тестування та експерименти ведуться щодня (за словами розробників).
В основному алгоритми відповідають за:
Аналіз слів та виразів - Визначення значення слів, пошук за наявності орфографічних помилок у запиті, облік сленгу. Також враховується тип запиту (що саме шукає людина – огляд, новина чи відео), актуальність інформації.
Наприклад: шукаємо запит за словом «Моргеншейн». Google автоматично визначає, що, швидше за все, запит написаний з помилкою, і що ми шукаємо інформацію про репера Моргенштерна. Показує виправлений варіант і видає інформацію щодо цієї людини — насамперед відео, біографію та майданчики, де доступна його музика, а нижче вже статті (оскільки Моргенштерн — виконавець, швидше за все, користувач шукає його музику та пісні, а також відео) .
Підбір відповідних сторінок - Зрозумівши, що саме шукає користувач, алгоритми збирають сторінки, в яких міститься інформація, що відповідає запиту.
Приклад: запитуємо у Google "Як зробити лежак для кота".Google визначає, що робити ми його збираємося своїми руками і підбираємо кілька відео інструкцій із YouTube. Оскільки ми можемо передумати, про всяк випадок Google відразу показує нам рекламу, де можна купити готові лежанки.
Нижче пошук показує статті, наприклад, «7 простих способів зробити лежанку своїми руками», «Лежанка для кота своїми руками (70 фото)» та інші.
P.S. Виходить, якщо Google може показати результат у вигляді ролика + додати рекламу, то будуть пріоритетні позиції в пошуку, але так буває не завжди. Наприклад, для запиту "Як зареєструватися в Інстаграм", Google спочатку показує текстову інформацію з довідкового центру Фейсбук, а потім уже відео. Іноді результати запиту можуть бути без відео.
До речі, коли користувач починає вводити запит, Гугл «здогадується» про те, який це може бути запит і пропонує повний варіант або схожі, і це полегшує пошук, особливо тим людям, хто повільно друкує (наприклад, батькам, бабусям і дідусям).
Крім того, Google часто показує схожі запити серед результатів пошуку. Приклад на запит «Як зареєструватися в Інстаграм».
Ранжування релевантних сторінок — Сторінок, які відповідають запиту, можуть бути тисячі та мільйони. Завдання алгоритму на цьому етапі — відібрати найвідповідніші сайти.
P.S. На цьому етапі задіяно алгоритм розрахунку авторитетності PageRank (але це лише один із факторів ранжування). Він дивиться, які авторитетні джерела посилаються на цей сайт, що є показником того, що він корисний та цікавий.Розуміння того, як працює цей алгоритм породило ринок продажу посилань, коли в ТОПі виявлялися неякісні і навіть шахрайські сайти, які вчасно скупили купу посилань, адже алгоритм вважав, що чим більше посилань, тим важливіший і кращий сайт. Згодом алгоритм був доопрацьований і тепер простим скуповуванням посилань сайт в ТОП не вивести, більше того, Google навчився розпізнавати такі дії, як спам і виключати з результатів пошуку.
Показ найбільш сприятливих результатів - Відібравши результати на попередньому етапі, алгоритми виводять їх у видачі, розподіляючи по позиціях (на першій сторінці, як правило, 10 посилань).
Тут також задіяно безліч факторів, наприклад, наскільки коректно сайт відображається у різних браузерах та на мобільних пристроях. На багато з цих факторів можуть вплинути вебмайстри, тому Google намагається попереджати їх про зміни та створювати інструменти на допомогу.
Наприклад, у 2018 році було введено такий критерій, як швидкість завантаження сторінок, а для вебмайстрів були створені сервіси PageSpeed Insights та WebPagetest, де можна було дізнатися цю швидкість та отримати рекомендації щодо оптимізації сайту;
Облік відомостей про користувачів ці алгоритми збирають дані про користувачів, що впливає на видачу за запитами. Наприклад, Google враховує місце розташування, налаштування Google Пошуку на конкретному пристрої, попередні запити, переходи за посиланнями, історія пошуку, дії в інших сервісах Google.
В основному всі фактори, що впливають на ранжування, можна умовно розділити на 3 групи: внутрішні (вміст сторінок сайту, внутрішня перелінковка, дизайн, юзабіліті, корисність контенту, швидкість завантаження сторінок), зовнішні (зовнішні посилання, репости в соцмережі, переходи із зовнішніх джерел) ) та поведінкові (глибина перегляду, показник відмов, загальний час перебування користувача на сайті).
P.S. У травні 2020 року Google оновив основний пошуковий алгоритм.
Як працює пошукова система Яндекс
Основні принципи та особливості:
Головний принцип роботи такий самий як у Google – сканування, індексування, видача результатів. Але є свої особливості. Так Яндекс має свій Вебмайстер, куди потрібно додати сайт для індексації. Для просування сайту в СНД краще використовувати саме Яндекс, оскільки він вміє розпізнавати словоформи з урахуванням морфології російської. Також дозволяє звузити пошук до конкретного регіону (корисно для просування локального бізнесу).
Крім російського Яндекс розпізнає українську, білоруську, татарську, казахську, англійську, німецьку, турецьку та французьку мови.
Яндекс поступається Google в тому, що на Android і iOS вже встановлений пошук від Google, а російську пошукову систему треба завантажувати окремо, що роблять далеко не всі, тому більше Яндексом користуються з комп'ютера.
З явних мінусів Яндекса — іноді складається враження, що основну частину клієнтів та відвідувачів Яндекс навмисно переводить на власні сервіси на кшталт Яндекс.Дзена, Яндекс.Маркета, Яндекс.Новин та інших, створюючи все більше сервісів та виділяючи їм все більше місця у пошуку.
Окрім веб-сторінок Яндекс розпізнає картинки, PDF-документи, RSS блоги та форуми, файли у форматах RTF, .doc, .xls, .ppt.
З 2007 по 2021 розробники Яндекса створили близько 24 алгоритмів, ось лише деякі з них: «Версія 7» (перший алгоритм 2007 року), Магадан (2008 рік, почав враховувати унікальність документів), Арзамас (почав враховувати регіон користувача), Сніжинськ ( 2009 рік, одна з найбільших змін в алгоритмах, наприклад, посилилися вимоги до внутрішньої оптимізації, покращилася видача за ГЕО), Рейк'явік (2011 рік, почав враховувати мовні переваги користувачів, цей алгоритм став стартом розвитку персоналізації видачі), Мінусинськ (2015 рік, почав знижувати у видачі сайти з надмірною кількістю SEO-посилань).
До 2016 р. алгоритми не враховували суті документа, а в основному спиралися на стандартні фактори, такі як кількість ключових слів, поведінка користувачів, обсяг контенту. У 2016 році Яндекс анонсував алгоритм «Палех», який шукає сторінки не за ключовиками, а за змістом.
У 2017 році з'явився досконаліший алгоритм «Корольов», який зіставляв зміст запиту та сторінок сайтів. Також у 2017 році з'явився гучний алгоритм Баден-Баден, який навчився визначати переоптимізовані тексти, що змінило підхід до створення контенту для сайтів (вебмайстри перевели увагу на якість тексту, а не на ключові слова).
Наприкінці 2020 року Яндекс анонсував новий алгоритм YATI з більш досконалим пошуком за змістом (за рахунок застосування нейромереж), який, як запевняють розробники, має надати рекордне підвищення якості ранжирування за останні 10 років.
Крім алгоритмів ранжирування було створено близько 25 антиспам фільтрів, таких як фільтри за накрутку поведінкових факторів, за клікджекінг (розміщення невидимих елементів на сторінках, якими користувачі клацають, не знаючи цього), за настирливу рекламу, за нав'язливі оповіщення, за відсутність цінності на .
Розвиток та ринок пошукових систем
У рунеті лідирують 2 пошукові системи — Google та Яндекс.
Станом на березень 2021 року частка цих пошукових систем розподілилася наступним чином:
За ними слідують Search.Mail.ru (1.5%), Rambler (0.1%) та Bing (0.1%).
У Європі лідирує Google (92.92%), за ним іде Bing (3.48%) та Яндекс (1.48%).
У США в лідерах Google (88.1%), Bing (6.16%) та Yahoo! (2,96%).
Чи зможе хтось чи щось похитнути монополію Google?
У 2020 році сталося відразу 2 серйозні неприємності для лідера пошукових систем:
- У ЗМІ заговорили про те, що Apple може створити свою пошукову систему та стати прямим конкурентом. Поки що це лише розмови, але технологічні можливості у найдорожчої компанії у світі точно є.
Більше того, наприкінці 2014 року в Apple вже розглядали варіант припинення співпраці з Google і можуть повернутися знову. Втім, Apple добре і з Google — лише за використання свого пошуковика на iOS, як встановленого за умовчанням, Apple отримує від Google 9 мільярдів доларів щороку.
2. Куди серйозніша загроза — позов до Google від Мін'юсту США через монополію на ринку пошукових систем та вимогу продати Chrome, а також частину рекламного бізнесу. Востаннє така гучна історія була у 1998 році, коли було подано аналогічний антимонопольний позов проти компанії Microsoft.
Такі судові розгляди можуть тривати роками і поки що важко сказати, як саме це закінчиться для Google. Компанії Microsoft довелося виплачувати багатомільйонні штрафи та піти на умови суду, наприклад, вимога ділитися своїм API зі сторонніми розробниками. Той розгляд вплинув на рішення Білла Гейтса піти з компанії в 2000 році, він також заявив, що якби не позови, Microsoft лідирував би на ринку мобільних операційних систем, і всі б використовували Windows Mobile замість iOS і Android. Подивимося, чим закінчиться суд для Google.
- У світовому масштабі монополію може похитнути пошукова система Дакдакгоу (DuckDuckGo), яка позиціонує себе як конфіденційна пошукова система (до речі, використовується за умовчанням у браузерах Tor). Причина цього — велика кількість скандалів, пов'язаних із витоком даних в американських сервісах (наприклад, звинувачення на адресу Facebook або злом Gmail). Google періодично звинувачували у зливі даних та порушенні недоторканності приватного життя ще з 2005 року.
- У російському масштабі - закон про встановлення російського ПЗ на ввезені в Росію смартфони, планшети, комп'ютери і смарт-тв для продажу. Закон набирає чинності з 1 квітня 2021 року.
Висновок
З 2009 і по наші дні пошуковики стрімко розвиваються і із завидною періодичністю змінюють / покращують алгоритми пошуку, щоб у видачі траплявся контент, що найбільше відповідає запитам користувача.
Тож якщо років 10 тому можна було «годувати» пошуковим роботам статті, переоптимізовані ключовими словами або закупитися посиланнями та вибитися в ТОП пошуку, то зараз таким сайтам нічого не світить (вірніше, світить попадання під фільтри).
Тепер пошукові системи враховують поведінкові фактори (як одна з умов при ранжируванні): скільки часу людина проводить на сайті, чи переходить на інші сторінки, чи повертається на сайт через час.
А також унікальність, юзабіліті сайтів, якість зовнішніх посилань (а не їх кількість). Нові алгоритми мотивують вебмайстрів створювати корисний контент, написаний зрозумілою людською мовою. Постійна зміна алгоритмів - головний біль для SEO-фахівців, але крок назустріч звичайним користувачам, які хочуть бачити якісні сайти з відповідями на свої запитання, а не полотна ключових слів.
Пошук інформації в інтернеті: Google та DuckDuckGo — частина 1
Кожен із вас ймовірно стикався з проблемою пошуку чогось в інтернеті, будь то конкретна людина, книга чи стаття. Я вирішив розділити цю тему на кілька частин, оскільки це досить велика тема. Саме в цій частині ми поговоримо про пошук інформації, людей або інших цікавих речей в інтернеті, використовуючи звичайні пошукові системи. А в другій частині – більш детально поговоримо про OSINT та відповідні інструменти. Я пропоную не затримуватись і одразу переходити до справи!
Отже, я пропоную почати нашу розповідь про пошук інформації в інтернеті з того, які пошукові системи краще використовувати. Насправді, для загального кола завдань їх лише дві: Google і DuckDuckGo. Давайте поговоримо про кожну:
Найпоширенішою пошуковою системою є саме Google. Він зручний і працює досить добре. Для більшості завдань його достатньо. Google має зручні інструменти для пошуку (про це ми поговоримо далі в цій статті).
Ще одна пошукова система, якою мені подобається користуватися - DuckDuckGo. Давайте розглянемо інструменти кожного з них докладніше.
Примітка: незалежно від того, яким пошуковим движком ви користуєтеся, всі запити пов'язані з науками, IT або бізнес тематиками краще виконувати англійською, так ви банально отримаєте більше результатів пошуку.
Небагато про операторів пошуку в Google.
- -something (Знак мінус) - прибирає ключове слово з результатів пошуку.
- * (зірочка) – може замінювати будь-яку кількість слів.
- and ( & ) і or ( | ) - Оператори та та або відповідно.
- " " (лапки) - пошук точної відповідності.
- ( ) (дужки) - для групування запитів.
- $/€ - шукає ціни на вказаний товар у доларах чи євро відповідно.
- in - конвертує числові одиниці (приклад: 5 m in ft - переведе 5 м у фути).
А тепер про операторів пошуку, які можуть вам стати в нагоді при пошуку конкретної інформації на сайті, будь-яких книг, файлів, місць і т.п.
- site: - дозволяє шукати сторінки лише на певному сайті. Наприклад, "site:example.com" знайде всі сторінки на сайті example.com.
- intitle: - Шукає сторінки, у заголовках яких міститься задане слово або фраза. Наприклад, "intitle:python tutorial" знайде всі сторінки, заголовки яких містять слова "python" та "tutorial".
- inurl: - шукає сторінки, URL яких містить задане слово чи фраза. Наприклад, "inurl:python tutorial" знайде всі сторінки, URL яких містять слова "python" та "tutorial".
- filetype: - Шукає файли із заданим типом. Наприклад, "filetype:pdf python tutorial" знайде всі PDF-файли, що містять слова "python" і "tutorial" .
- related: - Шукає сторінки, пов'язані із заданим сайтом. Наприклад, "related:example.com" знайде всі сторінки, пов'язані із сайтом example.com.
- link: - Шукає сторінки, які містять посилання на заданий сайт. Наприклад, "link:example.com" знайде всі сторінки, які містять посилання на сайт example.com.
- cache: - показує останню версію сторінки кешування. Наприклад, "cache:example.com" покаже останню версію кешування сторінки example.com.
- define: - Шукає визначення заданого слова. Наприклад, "define:python" знайде визначення слова "python".
- info: - Показує інформацію про заданий сайт. Наприклад, info:example.com покаже інформацію про сайт example.com.
- movie: - Шукає інформацію про заданий фільм. Наприклад, "movie:the godfather" знайде інформацію про фільм "Хрещений батько".
- book: - шукає інформацію про задану книгу. Наприклад, "book:the catcher in the rye" знайде інформацію про книгу "Над прірвою у житі".
- map: - Показує карту заданого місця. Наприклад, "map:moscow" покаже карту Москви.
- stocks: - Показує інформацію про задану компанію на біржі. Наприклад, "stocks:aapl" покаже інформацію про компанію Apple на біржі.
- inanchor: - Шукає сторінки, які містять посилання з певним текстом якоря. Наприклад, "inanchor:python tutorial" знайде всі сторінки, що містять посилання з текстом якоря "python tutorial".
Загалом Google підходить для всього і напевно є одним із найпопулярніших пошукових систем у світі на даний момент. Я сідаю так: я сам особисто користуюся в основному Гуглом, але можна і краще. Далі ми поговоримо про DuckDuckGo.
DuckDuckGo
Ок, ми поговорили про Google і розібралися, як шукати інформацію там ефективніше. Тепер давайте погоримо про DuckDuckGo та про його переваги:
- "Пошукова система, яка не стежить за вами- це слоган DuckDuckGo.Він справді більш приватний і безпечніший за Google, і на відміну від останнього він не збирає ваші дані.
- Він простий. У ньому немає реклами (якщо точніше, то її можна безкоштовно та повністю відключити).
- DuckDuckGo використовує гібридну систему пошуку. Результати на пошуковий запит DDG формує з різних джерел (серед яких Yahoo! Search BOSS, Wikipedia, Wolfram Alpha, а також їх власний пошуковий бот). Використовуючи DuckDuckGo, ви отримаєте трохи більше відповідей, а якщо ще й напишіть запит англійською, то (як я вже й говорив раніше) отримаєте набагато більше відповідей на запит.
Щодо операторів пошуку, вони все ті ж, що й у Google. Але є ще один цікавий оператор, який мені сподобався. Я говорю про bangs. Цей оператор здійснює пошук з використанням пошукової системи вказаного сайту (і відкриває результати пошуку відразу на цільовому сайті). Наприклад, якщо ви введете: !habr yarik у рядок для запиту в DDG і виконайте пошук, відбудеться щось типу цього:
Як бачите, DuckDuckGo відразу відкрив Хабр і показав результати пошуку так, ніби я шукав просто через сам Хабр.
Взагалі, bang'ів дуже багато, але сенс завжди один: після знака оклику пишеться назва сайту, на якому проводиться пошук, а потім через пропуск - запит. Список всіх сайтів для пошуку, і як їх вказувати в bang ви можете подивитися на сайті DuckDuckGo в розділі bangs, якщо я захотів би перерахувати всі їх тут, що стаття була б нескінченною, але основні:
Інші корисні пошукові системи
Говорячи про пошук інформації не можна не згадати найрізноманітніші
- Google Scholar - спеціальний пошуковик для наукових статей та робіт.
- Wolfram Alpha - пошуковик, який надає інформацію про факти, статистику, математичні обчислення та багато іншого.
- Archive.org - архів "усього" що є/було в інтернеті.
- TinEye - пошук зображень.
На цьому стаття добігла кінця. Якщо я щось забув чи десь помилився – пишіть у коментарі чи ЛЗ.
Від автора:
Дякую, що дочитали статтю до кінця, сподіваюся, вона була вам корисна і заощадила вам час. Якщо хочете вплинути на вихід подальших статей, то можете підписатися на мій telegram-канал, там у тому числі будуть опитування щодо виходів нових статей і різноманітні цікаві матеріали. Якщо хочете зі мною зв'язатися чи запропонувати тему для статті – мої контакти є на сайті.
Ще раз дякую, що дочитали до сюди!
Технологія пошуку інформації в Інтернеті: пошукові системи Інтернету
З кожним роком обсяги Інтернету збільшуються в рази, тому можливість знайти необхідну інформацію різко зростає. Інтернет поєднує мільйони комп'ютерів, безліч різних мереж, кількість користувачів збільшується на 15-80% щорічно. Проте все частіше при зверненні до Інтернету основною проблемою виявляється не відсутність шуканої інформації, а можливість її знайти. Як правило, звичайна людина через різні обставини не може або не хоче витрачати на пошук потрібної їй відповіді більше 15-20 хвилин. Тому особливо актуально правильно і грамотно навчитися, здавалося б, простої речі – де і як шукати, щоб отримувати БАЖАНІ відповіді.
Щоб знайти потрібну інформацію, потрібно знайти її адресу.Для цього існують спеціалізовані пошукові сервери (роботи індексів (пошукові системи), тематичні Інтернет-каталоги, системи мета-пошуку, служби пошуку людей тощо). У цьому майстер-класі розкриваються основні технології пошуку інформації в Інтернеті, надаються загальні риси пошукових інструментів, розглядаються структури пошукових запитів для найпопулярніших російськомовних та англомовних пошукових систем.
2. Технології пошуку
Web-технологія World Wide Web (WWW) вважається спеціальною технологією підготовки та розміщення документів у мережі Інтернет. До складу WWW входять і web-сторінки, і електронні бібліотеки, каталоги та навіть віртуальні музеї! За такої великої кількості інформації гостро постає питання: «Як зорієнтуватися в такому величезному та масштабному інформаційному просторі?»
У вирішенні цієї проблеми на допомогу приходять пошукові інструменти.
2.1 Пошукові інструменти
Пошукові інструменти – це особливе програмне забезпечення, основна мета якого – забезпечити найбільш оптимальний та якісний пошук інформації для користувачів Інтернету. Пошукові інструменти розміщуються на спеціальних веб-серверах, кожен з яких виконує певну функцію:
- Аналіз веб-сторінок та занесення результатів аналізу на той чи інший рівень бази даних пошукового сервера.
- Пошук інформації на запит користувача.
- Забезпечення зручного інтерфейсу для пошуку інформації та перегляду результату пошуку користувачем.
Прийоми роботи, які використовуються під час роботи з тими чи іншими пошуковими інструментами, практично однакові. Перед тим як перейти до їхнього обговорення, розглянемо такі поняття:
- Інтерфейс пошукового інструменту представлений у вигляді сторінки з гіперпосиланнями, рядком подання запиту (рядком пошуку) та інструментами активізації запиту.
- Індекс пошукової системи – це інформаційна база, що містить результат аналізу веб-сторінок, складена за певними правилами.
- Запит – це ключове слово або фраза, яку користувач вводить у рядок пошуку. p align="justify"> Для формування різних запитів використовуються спеціальні символи ("", , ~), математичні символи (*, +, ?).
Схема пошуку інформації в Інтернеті проста. Користувач набирає ключову фразу та активізує пошук, тим самим отримує добірку документів за сформульованим (заданим) запитом. Цей список документів ранжується за певними критеріями так, щоб угорі списку опинилися ті документи, які найбільше відповідають запиту користувача. Кожен із пошукових інструментів використовує різні критерії ранжирування документів як при аналізі результатів пошуку, так і при формуванні індексу (наповнення індексної бази даних web-сторінок).
Таким чином, якщо вказати у рядку пошуку для кожного пошукового інструменту однакової конструкції запит, можна отримати різні результати пошуку. Для користувача має велике значення, які документи виявляться у перших двох-трьох десятках документів за результатами пошуку та наскільки ці документи відповідають очікуванням користувача.
Більшість пошукових інструментів пропонують два способи пошуку – simple search (простий пошук) та advanced search (розширений пошук) з використанням спеціальної форми запиту та без неї. Розглянемо обидва види пошуку з прикладу англомовної пошукової машини.
Наприклад, AltaVista зручно використовувати для довільних запитів, «Something about online degrees in information technology», тоді як пошуковий інструмент Yahoo дозволяє отримувати світові новини, інформацію про курс валют або прогноз погоди.
Освоєння критеріїв уточнення запиту та прийомів розширеного пошуку, дозволяє збільшувати ефективність пошуку та досить швидко знайти необхідну інформацію. Насамперед, збільшити ефективність пошуку Ви можете за рахунок використання у запитах логічних операторів (операцій) Or, And, Near, Not, математичних та спеціальних символів. За допомогою операторів та/або символів користувач пов'язує ключові слова у потрібній послідовності, щоб отримати найбільш адекватний запит результат пошуку. Форми запитів наведено у таблиці 1.
| Простий запит |
| account |
| merchant account |
| internet merchant account |
| "merchant account" |
| "Internet merchant account" |
| Розширений запит |
| internet merchant account and online payments |
| internet merchant near gov* |
| internet merchant near education |
| Розширений запит із використанням математичних символів |
| +internet +merchant +account |
| internet ~merchant ~gov* |
| internet ~merchant ~governor |
| Internet ~merchant~(governor account) |
Простий запит дає кілька посилань на документи, т.к. до списку потрапляють документи, що містять одне із слів, введених при запиті, або просте словосполучення (див. таблицю 1). Оператор and дозволяє вказати на те, що до змісту документа повинні бути включені всі ключові слова. Тим не менш, кількість документів може бути ще великою, і їх перегляд займе достатньо часу.Тому в ряді випадків набагато зручніше застосувати контекстний оператор near, що вказує на те, що слова повинні розташовуватися в документі в достатній близькості. Використання поблизу значно зменшує кількість знайдених документів. Наявність символу "*" у рядку запиту означає, що здійснюватиметься пошук слова за його маскою. Наприклад, отримаємо список документів, що містять слова, що починаються на gov, якщо в рядку запиту запишемо gov *. Це може бути слова government, governor тощо.
Найбільш розвинений сервіс пошуку російськомовної інформації надає пошуковий сервер Яndex. В Яndex можна просто написати російською фразу, що описує те, що Ви хочете знайти, і система проаналізує та опрацює Ваш запит, а потім постарається знайти все, що відноситься до заданої теми. Ви можете, використовуючи спеціальні оператори, скласти рядок, що пояснює пошуковій системі, яким Вашим вимогам повинна відповідати інформація, що Вас цікавить. Деякі з операторів мови запитів Яndex можна переглянути тут: http:\/\/help\.yandex\.ru\/search\/?id=481939
Не менш популярна пошукова система Rambler веде статистику відвідуваності посилань з власної бази даних, підтримуються ті ж логічні оператори. слів, що вводяться в запит.
Давайте розглянемо найпопулярніші технології пошуку інформації в Інтернеті.
2.2 Пошукові машини (search engines)
Машини веб-пошуку - це сервери з величезною базою даних URL-адрес, які автоматично звертаються до сторінок WWW на всі ці адреси, вивчають вміст цих сторінок, формують і прописують ключові слова зі сторінок у свою базу даних (індексує сторінки).
Більше того, роботи пошукових систем переходять за посиланнями, що зустрічаються на сторінках, і переіндексують їх. Так як майже будь-яка сторінка WWW має безліч посилань на інші сторінки, то при подібній роботі пошукова машина зрештою теоретично може обійти всі сайти в Інтернет.
Саме цей вид пошукових інструментів є найбільш відомим та популярним серед усіх користувачів мережі Інтернет. Кожен на слуху назви відомих машин веб-пошуку (пошукових систем) – Яndex, Rambler, Aport.
Щоб скористатися даним видом пошукового інструменту, необхідно зайти на нього і набрати в рядку пошуку ключове слово, що Вас цікавить. Далі Ви отримаєте видачу з посилань, що зберігаються в базі пошукової системи, які найбільш близькі до Вашого запиту. Щоб пошук був найбільш ефективним, заздалегідь зверніть увагу на такі моменти:
- визначтеся з темою запиту. Що саме зрештою Ви хочете знайти?
- звертайте увагу на мову, граматику, використання різних небуквенних символів, морфологію. Важливо також правильно сформулювати та вписати ключові слова. Кожна пошукова система має форму складання запиту — принцип один, але можуть відрізнятися використовувані символи чи оператори. Необхідні форми запиту різняться також залежно від складності програмного забезпечення пошукових систем та послуг, що надаються ними.Так чи інакше, кожна пошукова система має розділ "Help" ("Допомога"), де всі синтаксичні правила, а також рекомендації та поради щодо пошуку, доступно пояснюються (скриншот сторінок пошукових систем).
- використовуйте можливості різних пошукових систем. Якщо не знайшли на Yandex, спробуйте на Google. Користуйтеся послугами розширеного пошуку.
- Щоб виключити документи, які містять певні терміни, скористайтеся символом "-" перед кожним таким словом. Наприклад, якщо Вам потрібна інформація про роботи Шекспіра, за винятком "Гамлета", введіть запит у вигляді: "Шекспір-Гамлет". І щоб, навпаки, до результатів пошуку обов'язково включалися певні посилання, використовуйте символ "+". Так, щоб знайти посилання про продаж саме автомобілів, Вам потрібен запит "продаж+автомобіль". Для збільшення ефективності та точності пошуку використовуйте комбінації цих символів.
- кожне посилання у списку результатів пошуку містить сніпет – кілька рядків зі знайденого документа, серед яких зустрічаються Ваші ключові слова. Перш ніж переходити за посиланням, оцініть відповідність сниппета темі запиту. Перейшовши на певний сайт, уважно окиньте поглядом головну сторінку. Як правило, першої сторінки достатньо, щоб зрозуміти – на адресу Ви прийшли чи ні. Якщо так, то подальші пошуки потрібної інформації ведіть на вибраному сайті (у розділах сайту), якщо ні – повертайтеся до результатів пошуку та спробуйте ще одне посилання.
- пам'ятайте, що пошукові системи не виробляють самостійну інформацію (за винятком роз'яснень про себе). Пошукова система – це лише посередник між власником інформації (сайтом) та Вами.Бази даних постійно оновлюються, в них вносяться нові адреси, але відставання від реально існуючої інформації все одно залишається. Просто тому, що пошукові системи не працюють зі швидкістю світла.
До найвідоміших машин веб-пошуку належать Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos. Серед російськомовних можна назвати Яndex, Rambler, Апорт.
Пошукові системи є наймасштабнішими та найціннішими, але далеко не єдиними джерелами інформації в Мережі, адже крім них існують інші способи пошуку в Інтернеті.
2.3 Каталоги (directories)
Каталог Інтернет-ресурсів – це ієрархічний каталог, що постійно оновлюється і поповнюється, містить безліч категорій та окремих web-серверів з коротким описом їх вмісту. Однією з переваг тематичних каталогів є те, що пояснення до посилань дають творці каталогу і повністю відображають його зміст, тобто дає можливість точніше визначити, наскільки відповідає зміст сервера мети Вашого пошуку.
Прикладом тематичного російськомовного каталогу можна назвати ресурс http://www.ulitka.ru/.
На головній сторінці цього сайту розташований тематичний рубрикатор,
за допомогою якого користувач потрапляє в рубрику з посиланнями на продукцію, що його цікавить.
Крім того, деякі тематичні каталоги дозволяють шукати за ключовими словами. Користувач вводить необхідне ключове слово у рядок пошуку
та отримує список посилань з описами сайтів, які найбільш повно відповідають його запиту.Варто зазначити, що цей пошук відбувається не у вмісті WWW-серверів, а в їх короткому описі, що зберігаються в каталозі.
У нашому прикладі у каталозі також є можливість сортування сайтів за кількістю відвідувань, за алфавітом, за датою занесення.
2.4 Добірки посилань
Добірки посилань – це відсортовані за темами посилання. Вони досить сильно відрізняються один від одного за наповненням, тому щоб знайти добірку, що найбільш повно відповідає Вашим інтересам, необхідно ходити по них самостійно, щоб скласти власну думку.
Як приклад наведемо Підбірку посилань "Скарби Інтернет" АТ "Релком"
Користувач, натискаючи на будь-яку з рубрик, що його зацікавили.
- Астрономія та астрологія
- Ваш будинок
- Ваші вихованці
- Діти – квіти життя
- Дозвілля
- Міста в Мережі Internet
- Здоров'я та медицина
- Інформаційні агенції та служби
- Краєзнавчий музей і т.д.
потрапляє на вибірку з посиланнями на корисні Інтернет-ресурси
Автомобілістам
- Автомобільна електроніка.
- Музей автомото старовини.
- Колегія правового захисту автовласників.
- Sportdrive.
Перевагою такого виду пошукових інструментів є їх цілеспрямованість, зазвичай добірка включає рідкісні інтернет ресурси, підібрані конкретним веб-майстром або господарем інтернет сторінки.
2.5 Бази даних адрес (addresses database)
Бази даних адрес – це спеціальні пошукові сервери, які зазвичай використовують класифікації за діяльністю, за продукції, що випускається, і послугами, за географічною ознакою. Іноді вони доповнені пошуком за абеткою. У записах бази даних зберігається інформація про сайти, які надають інформацію про електронну адресу, організацію та поштову адресу за певну плату.
Найбільшою англомовною базою даних адрес можна назвати: http:\/\/www\.lookup\.com\/ -
є рубрикатором з безліччю піддиректорій, таких як: Find Person, Phone Numbers, Name Search та інші.
Потрапляючи в дані піддиректорії, користувач виявляє посилання на сайти, які і пропонують інформацію, що його цікавить.
2.6 Пошук у архівах Gopher (Gopher archives)
Gopher – це взаємопов'язана система серверів (Gopher-простір), розподілена Інтернетом.
У просторі Gopher зібрана найбагатша літературна бібліотека, проте матеріали недоступні для перегляду у віддаленому режимі: користувач може лише переглядати ієрархічно організований зміст та вибирати файл за назвою. За допомогою спеціальної програми (Veronica) такий пошук можна зробити автоматично, використовуючи запити, побудовані на ключових словах.
До 1995 року Gopher був найдинамічнішою технологією Інтернет: темпи зростання кількості відповідних серверів випереджали темпи зростання серверів інших типів Інтернет. У мережі EUnet/Relcom активного розвитку сервери Gopher не отримали і сьогодні про них практично ніхто не згадує.
2.7 Система пошуку FTP файлів (FTP Search)
Система пошуку FTP-файлів - це особливий тип засобів пошуку в Інтернеті, який дозволяє знаходити файли, доступні на "анонімних" FTP-серверах. Протокол FTP призначений передачі по мережі файлів, й у сенсі він функціонально є своєрідним аналогом Gopher.
Основним критерієм пошуку є назва файлу, що задається різними способами (точна відповідність, підрядок, регулярний вираз і т.д.).Даний тип пошуку, звичайно ж, не може змагатися за можливостями з пошуковими машинами, оскільки вміст файлів ніяк не враховується під час пошуку, а файлам, як відомо, можна давати довільні імена. або опис стандарту, то з великою ймовірністю файл, який містить, буде мати відповідне ім'я, і Ви зможете знайти його за допомогою одного з серверів FTP Search:
FileSearch шукає файли на FTP-серверах за іменами самих файлів і каталогів.
2.8 Система пошуку у конференціях Usenet News
USENET NEWS – це система телеконференцій спільноти мереж Інтернету. На Заході цей сервіс прийнято називати новинами.
З точки зору абонента телеконференції, USENET є дошкою оголошень, в якій є розділи, де можна знайти статті на будь-яку тему - від політики до садівництва Ця дошка оголошень доступна через комп'ютер, подібно до електронної пошти. поміщати статті в ту чи іншу конференцію, знайти корисну пораду або вступати в дискусії. завжди, а періодично знищуються, звільняючи місце для нових. У всьому світі найкращим сервісом для пошуку інформації в конференціях Usenet є сервер Google Groups (Google Inc.).
Групи Google – це безкоштовна інтерактивна спільнота та служба груп обговорень, яка пропонує найбільший в Інтернеті архів повідомлень мережі Usenet (більше мільярда повідомлень). /googlegroups/tour/index.html
Серед російськомовних виділяється сервер Всесвітня система USENET та телеконференції Relcom. Так само, як і в інших пошукових службах, користувач набирає рядок запиту, а сервер формує список конференцій, що містять ключові слова. Далі треба підписатися на відібрані конференції у програмі роботи з новинами. Також має місце аналогічний російський сервер FidoNet Online: конференція Fido на WWW.
2.9 Системи мета-пошуку
Для швидкого пошуку в базах декількох пошукових систем краще звернутися до систем мета-пошуку.
Системи мета-пошуку - це пошукові машини, які посилають Ваш запит на величезну кількість різних пошукових систем, потім обробляють отримані результати, видаляють повторювані адреси ресурсів і представляють ширший спектр того, що представлено в Інтернеті.
Найбільш популярна у світі система мета-пошуку Search.com.
Об'єднаний пошуковий сервер Search.com компанії CNET, Inc. включає майже два десятки пошукових систем, посиланнями на які рясніє весь Інтернет.
За допомогою цього виду пошукових інструментів користувач може шукати інформацію в багатьох пошукових системах, проте негативною стороною даних систем можна назвати їх нестабільність.
2.10 Системи пошуку людей
Системи пошуку людей – це спеціальні сервери, які дозволяють здійснювати пошук людей в Інтернет, користувач може вказати П.І.Б.людини і отримати його адресу електронної пошти та URL-адресу. Проте, слід зазначити, що системи пошуку людей, переважно, беруть інформацію про електронних адресах з відкритих джерел, як-от конференції Usenet. Серед найвідоміших систем пошуку людей можна виділити:
у спеціальні графи пошуку контактні дані (First Name. City, Last Name, Phone number), Ви можете знайти цікаву для Вас інформацію.
Системи пошуку людей - це дійсно великі сервери, їх бази даних містять близько 6000000 адрес.
3. Висновок
Ми розглянули основні технології пошуку інформації в Інтернеті та представили загалом пошукові інструменти, які існують на даний момент в Інтернеті, а також структуру пошукових запитів для найбільш популярних російськомовних та англомовних пошукових систем і, підбиваючи підсумок вищесказаного, хочемо відзначити, що єдиної оптимальної схеми пошуку інформації в Інтернеті не існує. Залежно від специфіки потрібної інформації, Ви можете використовувати відповідні пошукові інструменти та служби. А від того, наскільки грамотно будуть підібрані пошукові служби, залежить якість результатів пошуку.
| Друзі, тепер ви можете підтримати SEOnews https://pay.cloudtips.ru/p/8828f772 Ваші донати допоможуть нам розвивати видання і надалі радувати вас корисним контентом. |
Подібні статті
- Які три види змій існують
- Які квіти використовують для флораріуму
- Які фільтри використовують блогери
- Які фільтри використовують професійні фотографи
- Які існують види хом'яків
- Які телескопи використовують астрономи
- Які існують види відповідей
- Які існують види фотографій