python如何实现信息熵的计算代码

2021-11-18 网页编程网 网页编程网

1.什么是信息熵

1948年香农提出了信息熵（Entropy）的概念。

信息理论：

1.1从信息的完整性上进行的描述：

当系统的有序状态一致时，数据越集中的地方熵值越小，数据越分散的地方熵值越大。

1.2从信息的有序性上进行的描述：

当数据量一致时，系统越有序，熵值越低；系统越混乱或者分散，熵值越高。“信息熵”（information entropy）是度量样本集合纯度最常用的一种指标。

2.python实现信息熵的计算代码

import numpy as np
import pandas as pd
#1.准备数据
data = pd.DataFrame(
    {'学历': ['专科', '专科', '专科', '专科', '专科', '本科', '本科', '本科', '本科', '本科',
     '研究生', '研究生', '研究生', '研究生', '研究生'],
     '婚否': ['否', '否', '是', '是', '否', '否', '否', '是', '否', '否', '否', '否', '是', '是', '否'],
     '是否有车': ['否', '否', '否', '是', '否', '否', '否', '是', '是', '是', '是', '是', '否', '否', 
     '否'],
     '收入水平': ['中', '高', '高', '中', '中', '中', '高', '高', '很高', '很高', '很高', '高', '高', 
     '很高', '中'],
     '类别': ['否', '否', '是', '是', '否', '否', '否', '是', '是', '是', '是', '是', '是', '是', '否']})
#2.定义计算信息熵的函数：计算Infor(D)
def infor(data):
    a = pd.value_counts(data) / len(data)
    return sum(np.log2(a) * a * (-1))
#3.数据测试，测试结果为: 1.584962500721156
print(infor(data["学历"]))

阅读原文

阅读 4288

123 显示电脑版