目录
1、首先在d88尊龙官网手机app官网下载graphviz
下载网址:
2、安装。
打开第一步已经下载好的软件。点击下一步,在安装路径选择时可将安装路径修改为 d:\graphviz
接着一直点下一步,即可安装完成。
3、配置环境变量
右键点击“我的电脑“”–>选择“属性”–>高级系统设置(滑到最下面)
–>环境变量–>系统变量中的path(双击)
–>将graphviz的安装路径下的bin文件添加进去。如果你前面安装的路径是跟我一样,直接复制这个路径即可d:\graphviz\bin
–>多次点击确定,完成环境变量配置,
4、测试
点击左下角搜索,输入“cmd”,或者 win r键。
输入 dot -version (注意dot后面后一个空格)。
若出现dot不是内部或外部命令,则表示安装失败。
5、再次配置
接下来打开你安装路径下bin文件夹下面的config6(选择打开方式为记事本打开)
将里面内容删除,复制下面这段代码,保存即可。
import operator import math class decisiontree: def __init__(self): pass # 加载数据集 def loaddata(self): # 天气晴(2),阴(1),雨(0);温度炎热(2),适中(1),寒冷(0);湿度高(1),正常(0) # 风速强(1),弱(0);进行活动(yes),不进行活动(no) # 创建数据集 data = [ [2, 2, 1, 0, "yes"], [2, 2, 1, 1, "no"], [1, 2, 1, 0, "yes"], [0, 0, 0, 0, "yes"], [0, 0, 0, 1, "no"], [1, 0, 0, 1, "yes"], [2, 1, 1, 0, "no"], [2, 0, 0, 0, "yes"], [0, 1, 0, 0, "yes"], [2, 1, 0, 1, "yes"], [1, 2, 0, 0, "no"], [0, 1, 1, 1, "no"], ] # 分类属性 features = ["天气", "温度", "湿度", "风速"] return data, features # 计算给定数据集的香农熵 def shannonent(self, data): numdata = len(data) # 求长度 labelcounts = {} for feature in data: onelabel = feature[-1] # 获得标签 # 如果标签不在新定义的字典里创建该标签值 labelcounts.setdefault(onelabel, 0) # 该类标签下含有数据的个数 labelcounts[onelabel] = 1 shannonent = 0.0 for key in labelcounts: # 同类标签出现的概率 prob = float(labelcounts[key]) / numdata # 以2为底求对数 shannonent -= prob * math.log2(prob) return shannonent # 划分数据集,三个参数为带划分的数据集,划分数据集的特征,特征的返回值 def splitdata(self, data, axis, value): retdata = [] for feature in data: if feature[axis] == value: # 将相同数据集特征的抽取出来 reducedfeature = feature[:axis] reducedfeature.extend(feature[axis 1 :]) retdata.append(reducedfeature) return retdata # 返回一个列表 # 选择最好的数据集划分方式 def choosebestfeaturetosplit(self, data): numfeature = len(data[0]) - 1 baseentropy = self.shannonent(data) bestinfogain = 0.0 bestfeature = -1 for i in range(numfeature): # 获取第i个特征所有的可能取值 featurelist = [result[i] for result in data] # 从列表中创建集合,得到不重复的所有可能取值 uniquefeaturelist = set(featurelist) newentropy = 0.0 for value in uniquefeaturelist: # 以i为数据集特征,value为返回值,划分数据集 splitdataset = self.splitdata( data, i, value ) # 数据集特征为i的所占的比例 prob = len(splitdataset) / float(len(data)) # 计算每种数据集的信息熵 newentropy = prob * self.shannonent(splitdataset) infogain = baseentropy - newentropy # 计算最好的信息增益,增益越大说明所占决策权越大 if infogain > bestinfogain: bestinfogain = infogain bestfeature = i return bestfeature # 递归构建决策树 def majoritycnt(self, labelslist): labelscount = {} for vote in labelslist: if vote not in labelscount.keys(): labelscount[vote] = 0 labelscount[vote] = 1 sortedlabelscount = sorted( labelscount.iteritems(), key=operator.itemgetter(1), reverse=true ) # 排序,true升序 # 返回出现次数最多的 print(sortedlabelscount) return sortedlabelscount[0][0] # 创建决策树 def createtree(self, data, features): # 使用"="产生的新变量,实际上两者是一样的,避免后面del()函数对原变量值产生影响 features = list(features) labelslist = [line[-1] for line in data] # 类别完全相同则停止划分 if labelslist.count(labelslist[0]) == len(labelslist): return labelslist[0] # 遍历完所有特征值时返回出现次数最多的 if len(data[0]) == 1: return self.majoritycnt(labelslist) # 选择最好的数据集划分方式 bestfeature = self.choosebestfeaturetosplit(data) bestfeatlabel = features[bestfeature] # 得到对应的标签值 mytree = {bestfeatlabel: {}} # 清空features[bestfeat],在下一次使用时清零 del (features[bestfeature]) featurevalues = [example[bestfeature] for example in data] uniquefeaturevalues = set(featurevalues) for value in uniquefeaturevalues: subfeatures = features[:] # 递归调用创建决策树函数 mytree[bestfeatlabel][value] = self.createtree( self.splitdata(data, bestfeature, value), subfeatures ) return mytree # 预测新数据特征下是否进行活动 def predict(self, tree, features, x): for key1 in tree.keys(): seconddict = tree[key1] # key是根节点代表的特征,featindex是取根节点特征在特征列表的索引,方便后面对输入样本逐变量判断 featindex = features.index(key1) # 这里每一个key值对应的是根节点特征的不同取值 for key2 in seconddict.keys(): # 找到输入样本在决策树中的由根节点往下走的路径 if x[featindex] == key2: # 该分支产生了一个内部节点,则在决策树中继续同样的操作查找路径 if type(seconddict[key2]).__name__ == "dict": classlabel = self.predict(seconddict[key2], features, x) # 该分支产生是叶节点,直接取值就得到类别 else: classlabel = seconddict[key2] return classlabel if __name__ == "__main__": dtree = decisiontree() data, features = dtree.loaddata() mytree = dtree.createtree(data, features) print(mytree) label = dtree.predict(mytree, features, [1, 1, 1, 0]) print("新数据[1,1,1,0]对应的是否要进行活动为:{}".format(label))
最后再次通过cmd测试是否安装成功。命令:dot -version (同样注意dot后有一个空格)
出现这段文字。显示dot版本和路径,恭喜你安装成功。