Чим вимірюють обсяг інформації

Чим вимірюють обсяг інформації



XI Міжнародна студентська наукова конференція Студентський науковий форум – 2019

Що таке інформація? Яке визначення можна надати цьому поняттю? Такі питання ставить кожен учитель при поясненні основ теоретичної інформатики. І тут виникає деяка складність, замість прямого визначення ми наводимо та вивчаємо властивості, види, намагаємось пояснити термін на прикладах. Пояснення цьому, що є однією з сутністю світобудови, отже дати визначення цього поняття неможливо. Його просто нема. На побутовому рівні інформація асоціюється у нас із такими поняттями як «відомості», «факти», «дані», «знання» та багато інших. Проте насправді потреб інформатики це визначення не потрібно: необхідно лише навчитися вимірювати інформацію.

Як виміряти інформацію? Це питання дуже непросте. Відповідь на нього залежить від того, що ми розуміємо під словом «інформація». Але оскільки визначати інформацію можна по-різному, то й способи виміру також можуть бути різними. Існує два традиційні підходи до вимірювання інформації: об'ємний (алфавітний) та імовірнісний.

Алфавітний (об'ємний) підхід до вимірювання інформації дозволяє визначити кількість інформації, що міститься в тексті, записаному за допомогою деякого алфавіту. Цей підхід розробив та описав радянський учений О.М. Колмогори. Подібний підхід до оцінки кількості інформації має об'єктивний характер, оскільки не залежить від одержувача, який приймає повідомлення. Алфавітний підхід до визначення кількості інформації не враховує змістового змісту інформації та розглядає інформаційне повідомлення як послідовність знаків певної знакової системи.До алфавіту входять усі літери, цифри, розділові знаки, дужки, пробіл, спеціальні знаки. Повна кількість символів в алфавіті називають потужністю алфавіту і позначають N. При алфавітному підході вважається, що кожен символ тексту має певну інформаційну вагу, яка позначається i.

Інформаційна вага символу двійкового алфавіту прийнята за одиницю виміру інформації та називається 1 біт. Кількість інформації одного символу (i) та потужність алфавіту (N) пов'язані формулою: 2 i =N.

При алфавітному підході до вимірювання інформації кількість інформації залежить від розміру тексту та потужності алфавіту. Якщо весь текст складається з K символів, то при алфавітному підході інформаційний обсяг тексту (I), що містить K символів обчислюють за формулою: I = K * i де I - інформаційний обсяг тексту, K - кількість символів в тексті, i - інформаційний обсяг одного символу. Максимального розміру алфавіту немає. Але є абетка, яку назвали достатньою. Його потужність дорівнює 256 символам. N = 256; 256 = 2 i, i = 8, тобто. один знак цього алфавіту важить 8 біт, що його назвали байтом, тобто. 1 байт = 8 біт.

Імовірнісний (ентропійний) підхід – це підхід, який враховує цінність інформації, що міститься у повідомленні для його отримувача. До. Шеннон визначив поняття «інформація» як зняту невизначеність. Загальний захід невизначеностей називається ентропією. У цьому підході кількість інформації – міра зменшення невизначеності знань при отриманні інформаційних повідомлень. Кількість інформації у повідомленні визначається тим, наскільки зменшується цей захід після отримання повідомлення.

У ймовірнісному підході 1 біт – це кількість інформації, яку ми отримуємо з досвіду з двома рівноймовірними наслідками.Для людини отримання нової інформації призводить до розширення знань чи зменшення невизначеності. Наприклад, повідомлення про те, що завтра середа не призводить до зменшення невизначеності, тому воно не містить інформації. А тепер нехай у нас є монета, яку ми кидаємо на рівну поверхню. Повідомлення про те, що випав орел при підкиданні монети, зменшує нашу невизначеність у два рази і несе в собі 1 біт інформації.

Американський вчений Р. Хартлі процес отримання інформації розглядав як вибір одного повідомлення з безлічі рівноймовірних повідомлень, а кількість інформації, що міститься в обраному повідомленні, визначав як двійковий логарифм N. Таким чином, він вивів формулу, яка пов'язує між собою кількість можливих інформаційних повідомлень ( N) та кількість інформації ( I ), яка несе отримане повідомлення: I = log 2 N, де N = 1/P. Але не завжди можна однозначно визначити, чи є події рівноймовірними чи ні.

Для цього американський учений К. Шеннон запропонував іншу формулу визначення кількості інформації, що враховує можливу неоднакову ймовірність повідомлень. У досліді з k результатами ймовірності наступу дорівнюють P 1 , P 2 ,…, P k кожен результат несе у собі інформацію

Тоді за формулою Шеннона

Ця формула приймається за міру ентропії у разі, коли ймовірності різних результатів досвіду нерівноймовірні (тобто значення Р k можуть різнитися).

Таким чином, ми розглянули два підходи до вимірювання інформації: алфавітний (об'ємний) та імовірнісний (ентропійний).

У чому вимірюється кількість даних та які обсяги інформації потрібні сьогодні

Обсяг – основна кількісна характеристика інформації.Наприклад, величина невеликої нотатки вимірюється числом знаків чи слів, а обсяг книги оцінюється вже у великих одиницях — сторінках. Свої заходи існують і для електронних носіїв. З курсу інформатики ми знаємо, що комп'ютери працюють за принципом «так чи ні», тобто реєструють наявність сигналу, або його відсутність. У числовому вираженні ці два стани позначаються як 1 і 0. Графічно будь-який процес обробки інформації є унікальною послідовністю нулів і одиниць. Це і є двійкова система, яка є основою будь-якого комп'ютерного алгоритму.

Біт

Бітом у двійковому численні називають найменший, неподільний обсяг інформації. Інакше кажучи, біт — це 0 чи 1. Будь-які масиви даних є комбінації з безлічі біт. Навіть якщо взяти пару біт, то в поєднанні вони зможуть набути вже чотирьох форм: 01,10,11 і 00. Послідовність з восьми біт потенційно має 256 можливих поєднань нуля та одиниці. Цього вже достатньо, щоб завантажити на комп'ютер, наприклад, цілий алфавіт або систему цифр.

Байт і більші одиниці

Вісім біт, розташованих у певній послідовності, становлять один байт або октет - найменший інформаційний блок, до якого система звертається безпосередньо. Саме цими блоками оперують комп'ютерні програми. Ось чому у Провіднику Windows обсяг кожного файлу відображається саме в байтах.

Багато байт позначають за допомогою приставок, які використовуються в будь-яких математичних розрахунках: «кіло-», «мега-», «гіга-» і так далі. Ми знаємо, наприклад, що приставка «кіло-» означає 10 у 3 ступені, тобто 1000. Тому початківці вивчати інформатику плутаються.Проблема в тому, що в цій науці використовуються ті ж приставки, але кратні вони не 1000, а 1024, тобто 2 в 10 ступені. Таким чином, в кілобайті міститься не 1000 байт, а 1024. Теоретично унікальні позначення для різних обсягів комп'ютерних даних існують, і вони могли б усунути плутанину. Ці позначення утворюються шляхом зміни останнього складу звичайної приставки на склад "бі" - наприклад, кібібайт, гібібайт і так далі. Однак на практиці ці позначення не використовуються.

Плутаницею з радістю користуються у власних інтересах виробники жорстких дисків. Типова ситуація, коли людина купує вінчестер, наприклад, на 500 гігабайт, але, підключивши його до комп'ютера, бачить, що пам'яті на ньому значно менше - скажімо, 465. Причина полягає в тому, що виробник при розрахунку користується міжнародною системою одиниць, згідно з якою один гігабайт дорівнює 10 9 ступеня (1 млрд) байт. А ось операційна система орієнтована на двійкову систему обчислення, в якій 1 гігабайт – це 1073741824 байт. Звідси різниця. І чим більше пам'яті на носії, тим значнішими можуть бути розбіжності між заявленим і реальним обсягом.

На сучасному етапі розвитку IT-індустрії найчастіше використовуються такі одиниці:

  • Мегабайт (Мб), 1024 кілобайти. Зазвичай вони вимірюють розмір невеликих музичних файлів, фотографій і нетривалих відеозаписів.
  • Гігабайт (Гб), 1024 мегабайти. У гігабайтах вимірюють вагу фільмів у високій якості, сучасних відеоігор тощо.
  • Терабайт (Тб), 1024 Гб. На сьогоднішній день це найбільша інформаційна одиниця, з якою має справу звичайний користувач. Причому в терабайтах на домашніх комп'ютерах вимірюються обсяги окремих файлів, а цілих локальних дисків.

Найбільші одиниці - петабайт, ексабайт, зеттабайт, йоттабайт - теж існують, але домашні та офісні комп'ютери настільки величезними масивами даних не оперують. Втім, це лише питання часу.

Які обсяги інформації обробляють сучасні комп'ютери

XXI століття називають епохою інформації невипадково. Ще 1975 року з'явився термін «інформаційний вибух», тобто лавиноподібне збільшення кількості інформації у світі: наукових праць, журналістських статей та інших публікацій. Коли інтернет прийшов до кожного будинку, інформаційний вибух досяг і зовсім небачених масштабів. Згідно зі статистикою, кількість цифрових даних у світі сьогодні подвоюється кожні півтора роки. Ось перша причина, через яку обсяг пам'яті на електронних носіях поступово збільшується: чим більше інформації з'являється, тим більше місця потрібно для її зберігання. Перший жорсткий диск з ємністю 1 Тб з'явився на ринку в 2007 році, тобто порівняно недавно. Зараз, 2019-го, вже активно поширюються вінчестери обсягом до 14 Тб. Це якщо говорити про окремі домашні та офісні ПК. Що ж до масштабних організацій на кшталт стільникових операторів та великих майнінгових ферм, то вони оперують уже петабайтами даних.

Кількість інформації не єдина причина, через яку ємність цифрових носіїв збільшується рік у рік. Ще років десять тому важко було уявити комп'ютерну гру розміром 100 Гб. Сьогодні таких ігор стає дедалі більше. Фотореалістична графіка, висока роздільна здатність та складна система обробки зображення вимагають не лише потужного «заліза», але й значного простору на диску. Інший приклад – фільми.Якщо кінострічка середньої тривалості в роздільній здатності 1080 p займає всього два-три гігабайти пам'яті, то в роздільній здатності 4K той же фільм «важитиме» вже всі 30 Гб. При цьому 4K - технологія вже не найсучасніша, і екрани з роздільною здатністю 8K вже існують.

Словом, чим більше інформації вкладено у продукт, тим більше місця потрібно для її утримання та обробки. Однак самі пристрої для зберігання даних поступово зменшуються в розмірах. Це особливо помітно, якщо простежити історію розвитку носіїв та порівняти, наприклад, перший накопичувач на магнітних дисках із його нащадками, які служать нам сьогодні. І подібна тенденція обнадіює, адже обсяги даних, що сьогодні з'являються у світі, з кожним роком не просто планомірно збільшуються, а зростають експоненційно. Інформаційний вибух уже стався, і ми з вами перебуваємо у його епіцентрі.

Вимірювання інформації

Як будь-яку іншу фізичну величину, інформацію можна виміряти. Існують різні підходи до виміру інформації. Один із таких підходів розглядається в курсі інформатики за 7 клас.

Що таке вимір інформації

При вимірі інформації слід враховувати як обсяг повідомлення, що передається, так і його смислове навантаження. У зв'язку з цим в інформатиці є різні підходи до вимірювання інформації.

Алфавітний підхід до вимірювання інформації

Способи оцінки величини інформації можуть враховувати або не враховувати зміст інформаційного повідомлення.

Один із способів знаходження кількості інформації ґрунтується на визначенні ваги кожного символу в тексті повідомлення. При такому підході обсяг повідомлення залежить від кількості знаків у тексті, що більше тест, то більше важить інформаційне повідомлення. При цьому абсолютно не важливо, що написано, який зміст несе повідомлення.Так як визначення обсягу інформації прив'язане до текстових одиниць: букв, цифр, розділових знаків, то такий підхід до вимірювання інформації отримав назву алфавітного.

Вага окремого знака залежить від кількості в алфавіті. Число символів алфавіту називають потужністю (N). Наприклад, потужність алфавіту англійської мови за кількістю символів дорівнює 26, російської мови 33. Але насправді, при написанні тексту використовуються і великі і малі літери, а також розділові знаки, пробіли і спеціальні невидимі символи, що позначають кінець абзацу і переклад до нового рядка . Тому мають справу з потужністю 128 або розширеною версією 256 символів.

Біт, байт та інші одиниці виміру

Для двійкового алфавіту, що складається з двох символів – нуля та одиниці, потужність алфавіту становитиме 2. Вага символу бінарного алфавіту обрана як мінімальна одиниця інформації та називається «біт». Походження терміна "біт" походить від англомовного слова "binary", що означає двійковий.

Вісім біт утворюють байт.

Назва «байт» була придумана в 1956 В. Бухгольцем при проектуванні першого суперкомп'ютера. Слово «byte» було отримано шляхом заміни другої літери у співзвучному слові «bite», щоб уникнути плутанини з терміном «bit», що вже є.

Насправді величина обсягу інформації висловлює у великих одиницях: кілобайтах, терабайтах, мегабайтах.

Слід запам'ятати, що кілобайт дорівнює 1024 байти, а не 1000. Як, наприклад, 1 кілометр дорівнює 1000 метрів. Ця різниця виходить за рахунок того, що 1 байт дорівнює 8 бітам, а не 10.

Щоб легше запам'ятати одиниці виміру, слід скористатися таблицею ступеня двійки.

Таблиця ступенів двійки

Показник ступеня

Значення

Тобто, 2 3 = 8 - це 1 байт, що складається з 8 біт, 2 10 = 1024 це 1 кілобайт, 2 20 = 1048576 є 1 мегабайт, 2 30 = 1 гігабайт, 2 40 = 1 терабайт.

Визначення кількості інформації

Вага символу (i) та потужність алфавіту (N) пов'язані між собою співвідношенням: 2 i = N.

Так, алфавіт потужністю 256 символів має вагу кожного символу в 8 біт, тобто один байт. Це означає, що на кожну букву по байту. У такому випадку, неважко визначити, скільки важить весь текст повідомлення, що кодується. Для цього достатньо ваги символу алфавіту помножити на кількість символів у тексті. При підрахунку кількості символів у повідомленні слід не забувати, що розділові знаки, а також пробіли – це теж символи і вони важать стільки ж, скільки і букви.

Наприклад, за умови, що кожна буква кодується одним байтом для тексту «Ура! Настали канікули. інформаційний обсяг визначається множенням 8 бітів на 24 символи (без урахування лапок). Твір 8 * 24 = 192 біта - стільки важить фраза, що кодується. У перекладі на байти: 192 біти розділити на 8 отримаємо 24 байти.

Що ми дізналися?

Одним із способів визначення величини інформаційного повідомлення є алфавітний підхід, у якому будь-який знак у тексті має деяку вагу, зумовлену потужністю алфавіту. Мінімальною одиницею виміру інформації є біт. Інформацію можна також вимірювати у байтах, кілобайтах, мегабайтах.

Подібні статті

Останні статті

Категорії