Análisis cuantitativo de datos e información
El análisis cualitativo anterior de las diferencias y conexiones entre datos e información, y el siguiente análisis cuantitativo de datos e información. ¿Cuál es la conexión entre la cantidad de datos y la cantidad de información? ¿Significa esto que cuanto mayor es la cantidad de datos, más información contiene? incierto. Por ejemplo, alguien dice: "Las personas tienen la nariz encima de la boca y los ojos encima de la nariz". Como esto es lo esperado, se obtiene muy poca información de este mensaje. Pero si alguien dice: "Una persona tiene una boca encima de la nariz y ojos encima de la boca", sorprenderá a la gente porque esto es inesperado y la cantidad de información es enorme. Esto ilustra: cuanto más impredecible es un mensaje, mayor es la cantidad de información que contiene.
De hecho, la función básica de la información es eliminar la incertidumbre en la comprensión de las cosas por parte de las personas. El contenido de la información se refiere a la medición y el contenido de la información necesarios para seleccionar un evento entre N eventos posibles iguales. Según esta definición, la cantidad de información está estrechamente relacionada con la probabilidad. En teoría de la probabilidad, P(x) se utiliza para representar la probabilidad de que ocurra un evento entre N eventos posibles iguales, es decir, P(x)=1/N. La cantidad de información I(x) se define como:
I(x)=log2N = -log2(1/N)= -log2P(x)
Combinada con el conocimiento De la teoría de la probabilidad, se puede deducir que, en términos generales, la siguiente fórmula, denominada fórmula de entropía H(x), se puede utilizar para expresar la cantidad promedio de información aportada por una gran cantidad de datos.
Nota: Esta cantidad promedio de información no es un promedio aritmético, sino un promedio estadístico de la teoría de la probabilidad: valor esperado matemático.