Імовірність повідомлення.
Одиниці виміру інформації та їх розрахунок.
Імовірність повідомлення.
Тема: Інформаційні характеристики джерел дискретних та неперервних повідомлень.
Зміст
З визначення інформації як сукупності новин для споживача випливає, що в загальному випадку дати оцінку кількості інформації досить важко, оскільки кожне повідомлення має свій семантичний зміст, свій сенс і певну цінність для споживача. Те ж саме повідомлення може давати одному споживачеві багато інформації, іншому - мало.
Тому змістовна сторона повідомлень не враховується при визначенні виміру інформації в теорії інформації. За основу виміру кількості інформації взяті імовірнісні характеристики повідомлень, які не пов'язані з їх конкретним змістом, а відображають міру невизначеності (несподіванки). У такому визначенні, в першу чергу, враховується той узвичаєний факт, що чим менша імовірність повідомлення, тим більше інформації воно несе. Тому за кількість інформації І(аі) в окремо взятому повідомленні Р(аі) визначено величину, що дорівнює логарифму оберненого значення імовірності Р(аі) даного повідомлення:
(3.1)
Логарифмічна міра, що вперше запропонована в 1928 p. P. Хартлі, має також властивість адитивності, - кількості інформації від незалежних джерел додаються. Крім того, при Р(аі)= 1 кількість інформації, якщо її розраховувати за формулою (3.1), дорівнює нулю, що відповідає визначенню інформації (повідомлення про відому подію ніякої інформації не несе).
Приклад.Обчислити імовірність появи повідомлень джерела при L=25 рівноімовірних рівнів квантування.
Розв'язок,р = 1/L = 1/25 = 0,04.
Вибір основи логарифма у формулі (3.1) дає одиницю виміру інформації. У разі використання десяткового логарифма (b = 10) одиницею виміру інформації є десяткова одиниця, скорочено - діт; у разі використання натурального логарифма одиницею виміру є натуральна одиниця - нат.
Зручніше в системах, що працюють із двійковими кодами (ЕОМ, двійкові системи зв'язку тощо), використовувати основу логарифма b = 2, тоді інформація вимірюється у двійкових одиницях - дв.од. Дуже часто замість дв.од. використовують еквівалентну назву - біт (bit), що виникла як скорочення англійських слів binari digit (двійкова цифра). Отже, при Р(аі) = 0,5 маємо I(aі) = - log2 0,5 = 1 біт, тобто 1 біт - це кількість інформації, яку несе повідомлення, імовірність якого Р(аі) = 0,5. Оскільки ймовірність повідомлення 0 ≤ Р(аі) ≤ 1, то кількість інформації в повідомленні, якщо її розраховувати за формулою (3.1), може бути будь-яким додатнім числом.
Приклад.Знайти кількість інформації в дискретному повідомленні, імовірність якого Р(аі) = 0,3; 0,03.
Розв'язок.І(а1)= -Iog2P(a1)= -1оg0,3 ≈ -1,443 - ln0,3 = 1,74 біт;
І(а2)= -log2P(a2)= -log20,03 ≈-1,443-ln0,03=5,06 біт.
Для обчислення двійкових логарифмів користуємось математичним правилом: log2 z = ln z/ln 2 ≈ 1,443-ln z.
Приклад.Знайти кількість інформації в слові українського тексту із N = 8 букв. Для спрощення розрахунків прийняти, шо букви рівноймовірні і незалежні, а їх число Мa = 32.
Розв'язок.I(aN)= -log2P(a8)= 8·lоg2 32 = 40 біт.