如果你也在 怎样代写决策树decision tree这个学科遇到相关的难题,请随时右上角联系我们的24/7代写客服。
决策树是一种决策支持工具,它使用决策及其可能后果的树状模型,包括偶然事件结果、资源成本和效用。它是显示一个只包含条件控制语句的算法的一种方式。
statistics-lab™ 为您的留学生涯保驾护航 在代写决策树decision tree方面已经树立了自己的口碑, 保证靠谱, 高质且原创的统计Statistics代写服务。我们的专家在代写决策树decision tree代写方面经验极为丰富,各种代写决策树decision tree相关的作业也就用不着说。
我们提供的决策树decision tree及其相关学科的代写,服务范围广, 其中包括但不限于:
- Statistical Inference 统计推断
- Statistical Computing 统计计算
- Advanced Probability Theory 高等概率论
- Advanced Mathematical Statistics 高等数理统计学
- (Generalized) Linear Models 广义线性模型
- Statistical Machine Learning 统计机器学习
- Longitudinal Data Analysis 纵向数据分析
- Foundations of Data Science 数据科学基础
机器学习代写|决策树作业代写decision tree代考|Cost-Complexity Pruning
Cost-complexity pruning is the post-pruning strategy of the CART system, detailed in [12]. It consists of two steps:
- Generate a sequence of increasingly smaller trees, beginning with $T$ and ending with the root node of $T$, by successively pruning the subtree yielding the lowest cost complexity, in a bottom-up fashion;
- Choose the best tree among the sequence based on its relative size and accuracy (either on a pruning set, or provided by a cross-validation procedure in the training set).
The idea within step 1 is that pruned tree $T_{i+1}$ is obtained by pruning the subtrees that show the lowest increase in the apparent error (error in the training set) per pruned leaf. Since the apparent error of pruned node $t$ increases by the amount $r^{(t)}-r^{T^{(r)}}$, whereas its number of leaves decreases by $\left|\lambda_{T^{(t)}}\right|-1$ units, the following ratio measures the increase in apparent error rate per pruned leaf:
$$
\alpha=\frac{r^{(r)}-r^{T^{(t)}}}{\left|\lambda_{T^{(t)}}\right|-1}
$$
Therefore, $T_{i+1}$ is obtained by pruning all nodes in $T_{i}$ with the lowest value of $\alpha$. $T_{0}$ is obtained by pruning all nodes in $T$ whose $\alpha$ value is 0 . It is possible to show that each tree $T_{i}$ is associated to a distinct value $\alpha_{i}$, such that $\alpha_{i}<\alpha_{i+1}$. Building the sequence of trees in step 1 takes quadratic time with respect to the number of internal nodes.
Regarding step 2, CCP chooses the smallest tree whose error (either on the pruning set or on cross-validation) is not more than one standard error (SE) greater than the lowest error observed in the sequence of trees. This strategy is known as “1-SE” variant since the work of Esposito et al. [33], which proposes ignoring the standard error constraint, calling the strategy of selecting trees based only on accuracy of “0-SE”. It is argued that 1-SE has a tendency of overpruning trees, since its selection is based on a conservative constraint $[32,33]$.
机器学习代写|决策树作业代写decision tree代考|Error-Based Pruning
This strategy was proposed by Quinlan and it is implemented as the default pruning strategy of C4.5 [89]. It is an improvement over PEP, based on a far more pessimistic estimate of the expected error. Unlike PEP, EBP performs a bottom-up search, and it performs not only the replacement of non-terminal nodes by leaves but also the grafting $g^{4}$ of subtree $T^{(t)}$ onto the place of parent $t$. Grafting is exemplified in Fig. $2.2$.
Since grafting is potentially a time-consuming task, only the child subtree $T^{\left(t^{\prime}\right)}$ of $t$ with the greatest number of instances is considered to be grafted onto the place of $t$.
For deciding whether to replace a non-terminal node by a leaf (subtree replacement), to graft a subtree onto the place of its parent (subtree raising) or not to prune at all, a pessimistic estimate of the expected error is calculated by using an upper confidence bound. Assuming that errors in the training set are binomially distributed with a given probability $p$ in $N_{x}^{(t)}$ trials, it is possible to compute the exact value of the upper confidence bound as the value of $p$ for which a binomially distributed random variable $P$ shows $E^{(t)}$ successes in $N_{x}^{(t)}$ trials with probability $C F$. In other words, given a particular confidence $C F$ (C4.5 default value is $C F=25 \%$ ), we can find the upper bound of the expected error $\left(E E_{U B}\right)$ as follows:
$$
E E_{U B}=\frac{f+\frac{z^{2}}{2 N_{x}}+z \sqrt{\frac{f}{N_{x}}-\frac{f^{2}}{N_{x}}+\frac{z^{2}}{4 N_{x}^{2}}}}{1+\frac{z^{2}}{N_{x}}}
$$
where $f=E^{(t)} / N_{x}$ and $z$ is the number of standard deviations corresponding to the confidence $C F$ (e.g., for $C F=25 \%, z=0.69$ ).
In order to calculate the expected error of node $t\left(E E^{(t)}\right)$, one must simply compute $N_{x}^{(t)} \times E E_{U B}$. For evaluating a subtree $T^{(t)}$, one must sum the expected error of every leaf of that subtree, i.e., $\sum_{s \in \lambda_{T}(t)} E E^{(s)}$. Hence, given a non-terminal node $t$, it is possible to decide whether one should perform subtree replacement (when condition $E E^{(t)} \leq E E^{T^{(t)}}$ holds), subtree raising (when conditions $\exists j \in \zeta_{t}, E E^{(j)}<E E^{(t)} \wedge$ $\forall i \in \zeta_{I}, N_{x}^{(i)}<N_{x}^{(j)}$ hold), or not to prune $t$ otherwise.
An advantage of EBP is the new grafting operation that allows pruning useless branches without ignoring interesting lower branches (an elegant solution to the horizon effect problem). A drawback of the method is the parameter $C F$, even though it represents a confidence level. Smaller values of $C F$ result in more pruning.
机器学习代写|决策树作业代写decision tree代考|Empirical Evaluations
Some studies in the literature performed empirical analyses for evaluating pruning strategies. For instance, Quinlan [94] compared four methods of tree pruning (three of them presented in the previous sections-REP, PEP and CCP 1-SE). He argued that those methods in which a pruning set is needed (REP and CCP) did not perform noticeably better than the other methods, and thus their requirement for additional data is a weakness.
Mingers [71] compared five pruning methods, all of them presented in the previous sections (CCP, CVP, MEP, REP and PEP), and related them to different splitting measures. He states that pruning can improve the accuracy of induced decision trees by up to $25 \%$ in domains with noise and residual variation. In addition, he highlights the following findings: (i) MEP (the original version by Niblett and Bratko [82]) is the least accurate method due to its sensitivity to the number of classes in the data; (ii) PEP is the most “crude” strategy, though the fastest one-due to some bad results,
it should be used with caution; (iii) CVP, CCP and REP performed well, providing consistently low error-rates for all data sets used; and (iv) there is no evidence of an interaction between the splitting measure and the pruning method used for inducing a decision tree.
Buntine [16], in his PhD thesis, also reports experiments on pruning methods (PEP, MEP, CCP 0-SE and 1-SE for both pruning set and cross-validation). Some of his findings were: (i) CCP $0-S E$ versions were marginally superior than the $1-S E$ versions; (ii) CCP 1-SE versions were superior in data sets with little apparent structure, where more severe pruning was inherently better; (iii) CCP 0-SE with crossvalidation was marginally better than the other methods, though not in all data sets; and (iv) PEP performed reasonably well in all data sets, and was significantly superior in well-structured data sets (mushroom, glass and LED, all from UCI [36]);
Esposito et al. [32] compare the six post-pruning methods presented in the previous sections within an extended C4.5 system. Their findings were the following: (i) MEP, CVP, and EBP tend to underprune, whereas 1-SE (both cross-validation and pruning set versions) and REP have a propensity for overpruning; (ii) using a pruning-set is not usually a good option; (iii) PEP and EBP behave similarly, despite the difference in their formulation; (iv) pruning does not generally decrease the accuracy of a decision tree (only one of the domains tested was deemed as “pruning-averse”); and (v) data sets not prone to pruning are usually the ones with the highest base error whereas data sets with a low base error tend to benefit of any pruning strategy.
For a comprehensive survey of strategies for simplifying decision trees, please refer to [13]. For more details on post-pruning techniques in decision trees for regression, we recommend $[12,54,85,97,113-115]$.
决策树代写
机器学习代写|决策树作业代写decision tree代考|Cost-Complexity Pruning
成本复杂度剪枝是 CART 系统的后剪枝策略,详见 [12]。它由两个步骤组成:
- 生成一系列越来越小的树,从吨并以根节点结束吨,通过以自下而上的方式连续修剪产生最低成本复杂度的子树;
- 根据其相对大小和准确性(在修剪集上,或由训练集中的交叉验证程序提供)在序列中选择最佳树。
第 1 步中的想法是修剪过的树吨一世+1通过修剪显示每个修剪叶的明显误差(训练集中的误差)增加最低的子树来获得。由于修剪节点的明显错误吨增加金额r(吨)−r吨(r),而它的叶子数量减少了|λ吨(吨)|−1单位,以下比率衡量每个修剪过的叶子的明显错误率的增加:
一种=r(r)−r吨(吨)|λ吨(吨)|−1
所以,吨一世+1通过修剪所有节点获得吨一世具有最低值一种. 吨0通过修剪所有节点获得吨谁的一种值为 0 。可以证明每棵树吨一世与不同的值相关联一种一世, 这样一种一世<一种一世+1. 在步骤 1 中构建树序列需要与内部节点数量成二次方的时间。
关于步骤 2,CCP 选择最小的树,其误差(在修剪集或交叉验证上)不超过一个标准误差 (SE),大于在树序列中观察到的最低误差。由于 Esposito 等人的工作,这种策略被称为“1-SE”变体。[33],它提出忽略标准误差约束,调用仅基于“0-SE”精度的选择树的策略。有人认为 1-SE 具有过度修剪树的趋势,因为它的选择是基于保守约束[32,33].
机器学习代写|决策树作业代写decision tree代考|Error-Based Pruning
该策略由 Quinlan 提出,并作为 C4.5 [89] 的默认剪枝策略实现。它是对 PEP 的改进,基于对预期误差的更为悲观的估计。与 PEP 不同,EBP 执行自下而上的搜索,它不仅执行非终端节点的叶子替换,还执行嫁接G4子树的吨(吨)到父母的地方吨. 嫁接示例如图 1 所示。2.2.
由于嫁接可能是一项耗时的任务,因此只有子子树吨(吨′)的吨实例数最多的被认为是嫁接到吨.
为了决定是否用叶子替换非终端节点(子树替换),将子树嫁接到其父节点的位置(子树提升)或根本不修剪,通过使用计算预期误差的悲观估计置信上限。假设训练集中的错误以给定的概率呈二项式分布p在ñX(吨)试验,可以将置信上限的确切值计算为p一个二项分布的随机变量磷节目和(吨)成功ñX(吨)概率试验CF. 换句话说,给定一个特定的信心CF(C4.5 默认值为CF=25%),我们可以找到预期误差的上限(和和在乙)如下:
和和在乙=F+和22ñX+和FñX−F2ñX+和24ñX21+和2ñX
在哪里F=和(吨)/ñX和和是对应于置信度的标准差数CF(例如,对于CF=25%,和=0.69 ).
为了计算节点的预期误差吨(和和(吨)), 必须简单地计算ñX(吨)×和和在乙. 用于评估子树吨(吨),必须将该子树的每个叶子的预期误差求和,即∑s∈λ吨(吨)和和(s). 因此,给定一个非终端节点吨,可以决定是否应该执行子树替换(当条件和和(吨)≤和和吨(吨)成立),子树提升(当条件∃j∈G吨,和和(j)<和和(吨)∧ ∀一世∈G一世,ñX(一世)<ñX(j)持有),或不修剪吨除此以外。
EBP 的一个优点是新的嫁接操作,它允许修剪无用的分支而不会忽略有趣的较低分支(对地平线效应问题的优雅解决方案)。该方法的一个缺点是参数CF,即使它代表一个置信水平。较小的值CF导致更多的修剪。
机器学习代写|决策树作业代写decision tree代考|Empirical Evaluations
文献中的一些研究对评估修剪策略进行了实证分析。例如,Quinlan [94] 比较了四种树修剪方法(其中三种在前面的章节中介绍过——REP、PEP 和 CCP 1-SE)。他认为,那些需要修剪集的方法(REP 和 CCP)的性能并没有明显优于其他方法,因此它们对额外数据的要求是一个弱点。
Mingers [71] 比较了五种修剪方法,所有这些方法都在前面的章节中介绍过(CCP、CVP、MEP、REP 和 PEP),并将它们与不同的分裂措施相关联。他指出,剪枝可以将诱导决策树的准确性提高多达25%在具有噪声和残余变化的域中。此外,他强调了以下发现:(i)MEP(Niblett 和 Bratko [82] 的原始版本)是最不准确的方法,因为它对数据中的类数很敏感;(ii) PEP 是最“粗鲁”的策略,虽然是最快的策略——由于一些糟糕的结果,
应谨慎使用;(iii) CVP、CCP 和 REP 表现良好,为所有使用的数据集提供始终如一的低错误率;(iv) 没有证据表明分裂度量和用于诱导决策树的修剪方法之间存在相互作用。
Buntine [16] 在他的博士论文中还报告了剪枝方法的实验(PEP、MEP、CCP 0-SE 和 1-SE 用于剪枝集和交叉验证)。他的一些发现是:(i) CCP0−小号和版本略优于1−小号和版本;(ii) CCP 1-SE 版本在几乎没有明显结构的数据集中表现出色,其中更严格的修剪本质上更好;(iii) 具有交叉验证的 CCP 0-SE 略好于其他方法,尽管并非在所有数据集中;(iv) PEP 在所有数据集中表现相当不错,并且在结构良好的数据集中(蘑菇、玻璃和 LED,均来自 UCI [36])显着优于;
埃斯波西托等人。[32] 在扩展的 C4.5 系统中比较了前几节中介绍的六种后修剪方法。他们的发现如下:(i)MEP、CVP 和 EBP 倾向于欠修剪,而 1-SE(交叉验证和修剪集版本)和 REP 有过度修剪的倾向;(ii) 使用剪枝集通常不是一个好的选择;(iii) PEP 和 EBP 的行为相似,尽管它们的表述不同;(iv) 修剪通常不会降低决策树的准确性(只有一个测试域被认为是“厌恶修剪”);(v) 不易修剪的数据集通常是具有最高基误差的数据集,而具有低基误差的数据集往往会受益于任何修剪策略。
有关简化决策树的策略的全面调查,请参阅[13]。有关回归决策树中的后修剪技术的更多详细信息,我们建议[12,54,85,97,113−115].
统计代写请认准statistics-lab™. statistics-lab™为您的留学生涯保驾护航。
金融工程代写
金融工程是使用数学技术来解决金融问题。金融工程使用计算机科学、统计学、经济学和应用数学领域的工具和知识来解决当前的金融问题,以及设计新的和创新的金融产品。
非参数统计代写
非参数统计指的是一种统计方法,其中不假设数据来自于由少数参数决定的规定模型;这种模型的例子包括正态分布模型和线性回归模型。
广义线性模型代考
广义线性模型(GLM)归属统计学领域,是一种应用灵活的线性回归模型。该模型允许因变量的偏差分布有除了正态分布之外的其它分布。
术语 广义线性模型(GLM)通常是指给定连续和/或分类预测因素的连续响应变量的常规线性回归模型。它包括多元线性回归,以及方差分析和方差分析(仅含固定效应)。
有限元方法代写
有限元方法(FEM)是一种流行的方法,用于数值解决工程和数学建模中出现的微分方程。典型的问题领域包括结构分析、传热、流体流动、质量运输和电磁势等传统领域。
有限元是一种通用的数值方法,用于解决两个或三个空间变量的偏微分方程(即一些边界值问题)。为了解决一个问题,有限元将一个大系统细分为更小、更简单的部分,称为有限元。这是通过在空间维度上的特定空间离散化来实现的,它是通过构建对象的网格来实现的:用于求解的数值域,它有有限数量的点。边界值问题的有限元方法表述最终导致一个代数方程组。该方法在域上对未知函数进行逼近。[1] 然后将模拟这些有限元的简单方程组合成一个更大的方程系统,以模拟整个问题。然后,有限元通过变化微积分使相关的误差函数最小化来逼近一个解决方案。
tatistics-lab作为专业的留学生服务机构,多年来已为美国、英国、加拿大、澳洲等留学热门地的学生提供专业的学术服务,包括但不限于Essay代写,Assignment代写,Dissertation代写,Report代写,小组作业代写,Proposal代写,Paper代写,Presentation代写,计算机作业代写,论文修改和润色,网课代做,exam代考等等。写作范围涵盖高中,本科,研究生等海外留学全阶段,辐射金融,经济学,会计学,审计学,管理学等全球99%专业科目。写作团队既有专业英语母语作者,也有海外名校硕博留学生,每位写作老师都拥有过硬的语言能力,专业的学科背景和学术写作经验。我们承诺100%原创,100%专业,100%准时,100%满意。
随机分析代写
随机微积分是数学的一个分支,对随机过程进行操作。它允许为随机过程的积分定义一个关于随机过程的一致的积分理论。这个领域是由日本数学家伊藤清在第二次世界大战期间创建并开始的。
时间序列分析代写
随机过程,是依赖于参数的一组随机变量的全体,参数通常是时间。 随机变量是随机现象的数量表现,其时间序列是一组按照时间发生先后顺序进行排列的数据点序列。通常一组时间序列的时间间隔为一恒定值(如1秒,5分钟,12小时,7天,1年),因此时间序列可以作为离散时间数据进行分析处理。研究时间序列数据的意义在于现实中,往往需要研究某个事物其随时间发展变化的规律。这就需要通过研究该事物过去发展的历史记录,以得到其自身发展的规律。
回归分析代写
多元回归分析渐进(Multiple Regression Analysis Asymptotics)属于计量经济学领域,主要是一种数学上的统计分析方法,可以分析复杂情况下各影响因素的数学关系,在自然科学、社会和经济学等多个领域内应用广泛。
MATLAB代写
MATLAB 是一种用于技术计算的高性能语言。它将计算、可视化和编程集成在一个易于使用的环境中,其中问题和解决方案以熟悉的数学符号表示。典型用途包括:数学和计算算法开发建模、仿真和原型制作数据分析、探索和可视化科学和工程图形应用程序开发,包括图形用户界面构建MATLAB 是一个交互式系统,其基本数据元素是一个不需要维度的数组。这使您可以解决许多技术计算问题,尤其是那些具有矩阵和向量公式的问题,而只需用 C 或 Fortran 等标量非交互式语言编写程序所需的时间的一小部分。MATLAB 名称代表矩阵实验室。MATLAB 最初的编写目的是提供对由 LINPACK 和 EISPACK 项目开发的矩阵软件的轻松访问,这两个项目共同代表了矩阵计算软件的最新技术。MATLAB 经过多年的发展,得到了许多用户的投入。在大学环境中,它是数学、工程和科学入门和高级课程的标准教学工具。在工业领域,MATLAB 是高效研究、开发和分析的首选工具。MATLAB 具有一系列称为工具箱的特定于应用程序的解决方案。对于大多数 MATLAB 用户来说非常重要,工具箱允许您学习和应用专业技术。工具箱是 MATLAB 函数(M 文件)的综合集合,可扩展 MATLAB 环境以解决特定类别的问题。可用工具箱的领域包括信号处理、控制系统、神经网络、模糊逻辑、小波、仿真等。