统计代写|机器学习作业代写machine learning代考| Continuous Attributes: Probability Density Functions

如果你也在 怎样代写机器学习machine learning这个学科遇到相关的难题,请随时右上角联系我们的24/7代写客服。

机器学习是一种数据分析的方法,可以自动建立分析模型。它是人工智能的一个分支,其基础是系统可以从数据中学习,识别模式,并在最小的人为干预下做出决定。

statistics-lab™ 为您的留学生涯保驾护航 在代写机器学习machine learning方面已经树立了自己的口碑, 保证靠谱, 高质且原创的统计Statistics代写服务。我们的专家在代写机器学习machine learning方面经验极为丰富,各种代写机器学习machine learning相关的作业也就用不着说。

我们提供的机器学习machine learning及其相关学科的代写,服务范围广, 其中包括但不限于:

  • Statistical Inference 统计推断
  • Statistical Computing 统计计算
  • Advanced Probability Theory 高等楖率论
  • Advanced Mathematical Statistics 高等数理统计学
  • (Generalized) Linear Models 广义线性模型
  • Statistical Machine Learning 统计机器学习
  • Longitudinal Data Analysis 纵向数据分析
  • Foundations of Data Science 数据科学基础
统计代写|机器学习作业代写machine learning代考| Continuous Attributes: Probability Density Functions

统计代写|机器学习作业代写machine learning代考|Discretizing Continuous Attributes

Discretizing Continuous Attributes One possibility is to resort to the so-called discretization. The simplest “trick” is to split the attribute’s original domain into two. For instance, we can replace the continuous-valued attribute age with the Boolean attribute old whose value is true for age $>60$ and false otherwise. Unfortunately, this means that at least part of the available information is lost: a person may be old, but we no longer know how old; nor do we know whether one old person is older than another old person.

The loss is mitigated if we divide the original domain into not two, but several intervals, say, $(0,10], \ldots(90,100] .^{1}$ Suppose we provide a separate bin for each of these, and place a little black ball into the $i$-th bin for each training example whose value of age falls into the $i$-th interval.

In this way, we may reach a situation similar to the one depicted in Fig. 2.2. The upper part shows the bins, and the bottom part shows a step function created in the following manner: if $N$ is the size of the training set, and $N_{i}$ is the number of balls in the $i$-th bin, then the function’s value in the $i$-th interval is $N_{i} / N$, the relative frequency of the $i$-the interval balls in the whole set. Since the area under the function is $\frac{\Sigma N_{i}}{N}=1$, we have a mechanism to estimate the probability not of a concrete value of age, but rather of this value falling into the given interval.

Probability Density Function If the step function thus constructed seems too crude, we may fine-tune it by dividing the original domain into shorter-and thus more numerous – intervals, provided that the number of balls in each bin is sufficient for reliable probability estimates. If the training set is infinitely large, we can, theoretically speaking, keep reducing the lengths of the intervals until these intervals become infinitesimally short. The result of the bin-filling exercise will then no longer be a step function, but rather a continuous function, $p(x)$, such as the one

in Fig. 2.3. Its interpretation is obvious: a high value of $p(x)$ indicates that there are many examples with age close to $x$; conversely, a low value of $p(x)$ tells us that age values in the vicinity of $x$ are rare.

Put another way, $p(x)$ is the density of values around $x$. This is why $p(x)$ is usually referred to as a probability density function. Engineers often prefer the acronym $p d f$.

Let us be disciplined about the notation. The probability of a discrete-valued $x$ will be indicated by an upper-case letter, $P(x)$. By contrast, the value of a $p d f$ at $x$ will be denoted by a lower-case letter, $p(x)$. When we want to point out that the $p d f$ has been created exclusively from examples belonging to class $c_{i}$, we do so by using a subscript, $p_{c_{i}}(x)$.

统计代写|机器学习作业代写machine learning代考|Gaussian “Bell” Function: A Standard pdf

One way to approximate a $p d f$ is by the discretization technique from the previous section. Alternatively, we may choose to rely on standardized models known to work well in many realistic situations. Perhaps the most popular among these is the Gaussian function, named after the great German mathematician.

The Shape and the Formula Describing It The shape of the curve in Fig. $2.3$ explains why it is nicknamed “bell function.” The maximum is reached at the mean, $x=\mu$, and the curve slopes down gracefully with the growing distance of $x$ from $\mu$. It is reasonable to expect that this is a good model of the pdf of such variables as the body temperature where the density peaks at $x=99.7$ degrees Fahrenheit.

Mathematically speaking, the Gaussian function is defined by the following formula where $e$ is the base of natural logarithm:
$$
p(x)=k \cdot e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}
$$

Parameters Note that the greater the difference between $x$ and $\mu$, the greater the exponent’s numerator, and thus the smaller the value of $p(x)$ because the exponent is negative. The numerator is squared, $(x-\mu)^{2}$, to make sure that the function slopes down symmetrically on both sides of the mean, $\mu$. How steep the slope is depends on $\sigma^{2}$, a parameter called variance. Greater variance means smaller sensitivity to the difference between $x$ and $\mu$, and thus a “flatter” bell curve; conversely, smaller variance implies a narrower bell curve.

The task for coefficient $k$ is to make the area under the bell function equal to 1 as required by the theory of probability. It would be relatively easy to prove that this happens when $k$ is determined as follows:
$$
k=\frac{1}{\sqrt{2 \pi \sigma^{2}}}
$$

统计代写|机器学习作业代写machine learning代考|Approximating PDFs with Sets of Gaussian Functions

While the bell function offers a good mechanism to approximate the $p d f$ in many realistic domains, it is not a panacea. Some variables simply do not behave that way. Just consider the distribution of body-weight in a group that mixes grade-school children with their parents. If we create the $p d f$ using the discretization method, we will observe two peaks: one for the kids, and the other for the grown-ups. There may be three peaks if it turns out that body-weight of fathers is distributed around a higher mean than that of the mothers. And the number of peaks can be higher still if the families come from diverse ethnic groups.

Combining Gaussian Functions In domains of this kind, a single bell function does not fit the data. But what if we combine two or more of them? If we know the diverse data subsets (e.g., children, fathers, mothers), we may simply create a separate Gaussian for each group and then superimpose the bell functions on each other. Will this solve our problem?

The honest answer is, “yes, in this specific case.” In reality, prior knowledge about diverse subgroups is rarely available. A better solution will divide the body-weight values into many random groups; in the extreme, we may go as far as to make each example a single-member “group” of its own and then identify a Gaussian center with this example’s body-weight. For $m$ examples, this results in $m$ bell function.

The Formula to Combine Them Suppose we want to approximate the $p d f$ of a continuous attribute, $x$. If we denote by $\mu_{i}$ the value of $x$ in the $i$-th example, then the $p d f$ is approximated by the following sum of $m$ Gaussian functions:
$$
p(x)=k \cdot \Sigma_{i=1}^{m} e^{-\frac{\left(x-\mu_{i}\right)^{2}}{2 \sigma^{2}}}
$$
As before, the normalization constant, $k$, is to make sure that the area under the curve is 1 . This is achieved when $k$ is calculated as follows:
$$
k=\frac{1}{m \sigma \sqrt{2 \pi}}
$$
If $m$ is sufficiently high, Eq. $2.14$ will approximate the $p d f$ with almost arbitrary accuracy.

统计代写|机器学习作业代写machine learning代考| Continuous Attributes: Probability Density Functions

机器学习代写

统计代写|机器学习作业代写machine learning代考|Discretizing Continuous Attributes

离散化连续属性 一种可能性是诉诸所谓的离散化。最简单的“技巧”是将属性的原始域一分为二。例如,我们可以将连续值属性 age 替换为布尔属性 old,它的值对于 age 为 true>60否则为假。不幸的是,这意味着至少有一部分可用信息丢失了:一个人可能老了,但我们不再知道他有多大;我们也不知道一位老人是否比另一位老人年长。

如果我们将原始域分成不是两个,而是几个间隔,那么损失就会减轻,例如,(0,10],…(90,100].1假设我们为每一个都提供了一个单独的箱子,并在里面放了一个小黑球一世- 对于年龄值落入一世-th 间隔。

这样,我们可能会遇到类似于图 2.2 中描述的情况。上半部分显示 bin,下半部分显示按以下方式创建的阶跃函数:如果ñ是训练集的大小,并且ñ一世是球的数量一世-th bin,然后是函数在一世-th 间隔是ñ一世/ñ, 的相对频率一世- 整套中的间隔球。由于函数下的面积是Σñ一世ñ=1,我们有一种机制来估计不是年龄的具体值的概率,而是这个值落入给定区间的概率。

概率密度函数 如果这样构建的阶跃函数看起来过于粗糙,我们可以通过将原始域划分为更短(因此更多)的区间来对其进行微调,前提是每个箱中的球数足以进行可靠的概率估计。如果训练集无限大,从理论上讲,我们可以不断减少区间的长度,直到这些区间变得无限短。装箱练习的结果将不再是阶跃函数,而是连续函数,p(X),比如那个

在图 2.3 中。它的解释很明显:高价值p(X)表示年龄接近的例子很多X; 相反,低值p(X)告诉我们年龄值在X很少见。

换一种方式,p(X)是周围值的密度X. 这就是为什么p(X)通常称为概率密度函数。工程师通常更喜欢首字母缩略词pdF.

让我们对符号进行纪律处分。离散值的概率X将用大写字母表示,磷(X). 相比之下,a的值pdF在X将用小写字母表示,p(X). 当我们想要指出pdF完全由属于类的示例创建C一世,我们通过使用下标来做到这一点,pC一世(X).

统计代写|机器学习作业代写machine learning代考|Gaussian “Bell” Function: A Standard pdf

一种近似的方法pdF是通过上一节的离散化技术。或者,我们可以选择依赖已知在许多实际情况下工作良好的标准化模型。其中最流行的也许是高斯函数,以这位伟大的德国数学家的名字命名。

形状和描述它的公式如图所示曲线的形状。2.3解释了为什么它被称为“钟功能”。平均值达到最大值,X=μ, 曲线随着距离的增加而优雅地向下倾斜X从μ. 可以合理地预期,这是一个很好的 pdf 模型,例如密度达到峰值的体温等变量的 pdf。X=99.7华氏度。

从数学上讲,高斯函数由以下公式定义,其中和是自然对数的底:
p(X)=ķ⋅和−(X−μ)22σ2

参数注意区别越大X和μ,指数的分子越大,因此值越小p(X)因为指数是负数。分子是平方的,(X−μ)2,以确保函数在均值的两侧对称地向下倾斜,μ. 坡度有多陡取决于σ2,一个称为方差的参数。较大的方差意味着对两者之间的差异的敏感性较小X和μ,因此“更平坦”的钟形曲线;相反,较小的方差意味着较窄的钟形曲线。

系数任务ķ就是按照概率论的要求,使贝尔函数下的面积等于1。证明这种情况发生时相对容易ķ确定如下:
ķ=12圆周率σ2

统计代写|机器学习作业代写machine learning代考|Approximating PDFs with Sets of Gaussian Functions

虽然贝尔函数提供了一个很好的机制来近似pdF在许多现实领域,它不是灵丹妙药。有些变量根本就不是那样的行为。只需考虑将小学生与父母混合在一起的群体中的体重分布。如果我们创建pdF使用离散化方法,我们将观察到两个峰值:一个是针对儿童的,另一个是针对成年人的。如果事实证明父亲的体重分布在高于母亲的平均值附近,则可能存在三个峰值。如果家庭来自不同的种族,峰值的数量可能会更高。

组合高斯函数 在此类域中,单个钟形函数无法拟合数据。但是如果我们将其中的两个或更多结合起来呢?如果我们知道不同的数据子集(例如,孩子、父亲、母亲),我们可以简单地为每个组创建一个单独的高斯函数,然后将钟形函数相互叠加。这会解决我们的问题吗?

诚实的回答是,“是的,在这种特殊情况下。” 实际上,很少有关于不同子组的先验知识。更好的解决方案是将体重值分成许多随机组;在极端情况下,我们甚至可以将每个示例都设为它自己的单个成员“组”,然后用该示例的体重确定一个高斯中心。为了米例如,这会导致米钟功能。

组合它们的公式假设我们要近似pdF具有连续属性,X. 如果我们表示μ一世的价值X在里面一世-th 例子,然后pdF近似于以下总和米高斯函数:
p(X)=ķ⋅Σ一世=1米和−(X−μ一世)22σ2
和以前一样,归一化常数,ķ, 是为了确保曲线下面积为 1 。这是实现时ķ计算如下:
ķ=1米σ2圆周率
如果米足够高,方程式。2.14将近似于pdF几乎是任意的准确度。

统计代写|机器学习作业代写machine learning代考 请认准statistics-lab™

统计代写请认准statistics-lab™. statistics-lab™为您的留学生涯保驾护航。统计代写|python代写代考

随机过程代考

在概率论概念中,随机过程随机变量的集合。 若一随机系统的样本点是随机函数,则称此函数为样本函数,这一随机系统全部样本函数的集合是一个随机过程。 实际应用中,样本函数的一般定义在时间域或者空间域。 随机过程的实例如股票和汇率的波动、语音信号、视频信号、体温的变化,随机运动如布朗运动、随机徘徊等等。

贝叶斯方法代考

贝叶斯统计概念及数据分析表示使用概率陈述回答有关未知参数的研究问题以及统计范式。后验分布包括关于参数的先验分布,和基于观测数据提供关于参数的信息似然模型。根据选择的先验分布和似然模型,后验分布可以解析或近似,例如,马尔科夫链蒙特卡罗 (MCMC) 方法之一。贝叶斯统计概念及数据分析使用后验分布来形成模型参数的各种摘要,包括点估计,如后验平均值、中位数、百分位数和称为可信区间的区间估计。此外,所有关于模型参数的统计检验都可以表示为基于估计后验分布的概率报表。

广义线性模型代考

广义线性模型(GLM)归属统计学领域,是一种应用灵活的线性回归模型。该模型允许因变量的偏差分布有除了正态分布之外的其它分布。

statistics-lab作为专业的留学生服务机构,多年来已为美国、英国、加拿大、澳洲等留学热门地的学生提供专业的学术服务,包括但不限于Essay代写,Assignment代写,Dissertation代写,Report代写,小组作业代写,Proposal代写,Paper代写,Presentation代写,计算机作业代写,论文修改和润色,网课代做,exam代考等等。写作范围涵盖高中,本科,研究生等海外留学全阶段,辐射金融,经济学,会计学,审计学,管理学等全球99%专业科目。写作团队既有专业英语母语作者,也有海外名校硕博留学生,每位写作老师都拥有过硬的语言能力,专业的学科背景和学术写作经验。我们承诺100%原创,100%专业,100%准时,100%满意。

机器学习代写

随着AI的大潮到来,Machine Learning逐渐成为一个新的学习热点。同时与传统CS相比,Machine Learning在其他领域也有着广泛的应用,因此这门学科成为不仅折磨CS专业同学的“小恶魔”,也是折磨生物、化学、统计等其他学科留学生的“大魔王”。学习Machine learning的一大绊脚石在于使用语言众多,跨学科范围广,所以学习起来尤其困难。但是不管你在学习Machine Learning时遇到任何难题,StudyGate专业导师团队都能为你轻松解决。

多元统计分析代考


基础数据: $N$ 个样本, $P$ 个变量数的单样本,组成的横列的数据表
变量定性: 分类和顺序;变量定量:数值
数学公式的角度分为: 因变量与自变量

时间序列分析代写

随机过程,是依赖于参数的一组随机变量的全体,参数通常是时间。 随机变量是随机现象的数量表现,其时间序列是一组按照时间发生先后顺序进行排列的数据点序列。通常一组时间序列的时间间隔为一恒定值(如1秒,5分钟,12小时,7天,1年),因此时间序列可以作为离散时间数据进行分析处理。研究时间序列数据的意义在于现实中,往往需要研究某个事物其随时间发展变化的规律。这就需要通过研究该事物过去发展的历史记录,以得到其自身发展的规律。

回归分析代写

多元回归分析渐进(Multiple Regression Analysis Asymptotics)属于计量经济学领域,主要是一种数学上的统计分析方法,可以分析复杂情况下各影响因素的数学关系,在自然科学、社会和经济学等多个领域内应用广泛。

MATLAB代写

MATLAB 是一种用于技术计算的高性能语言。它将计算、可视化和编程集成在一个易于使用的环境中,其中问题和解决方案以熟悉的数学符号表示。典型用途包括:数学和计算算法开发建模、仿真和原型制作数据分析、探索和可视化科学和工程图形应用程序开发,包括图形用户界面构建MATLAB 是一个交互式系统,其基本数据元素是一个不需要维度的数组。这使您可以解决许多技术计算问题,尤其是那些具有矩阵和向量公式的问题,而只需用 C 或 Fortran 等标量非交互式语言编写程序所需的时间的一小部分。MATLAB 名称代表矩阵实验室。MATLAB 最初的编写目的是提供对由 LINPACK 和 EISPACK 项目开发的矩阵软件的轻松访问,这两个项目共同代表了矩阵计算软件的最新技术。MATLAB 经过多年的发展,得到了许多用户的投入。在大学环境中,它是数学、工程和科学入门和高级课程的标准教学工具。在工业领域,MATLAB 是高效研究、开发和分析的首选工具。MATLAB 具有一系列称为工具箱的特定于应用程序的解决方案。对于大多数 MATLAB 用户来说非常重要,工具箱允许您学习应用专业技术。工具箱是 MATLAB 函数(M 文件)的综合集合,可扩展 MATLAB 环境以解决特定类别的问题。可用工具箱的领域包括信号处理、控制系统、神经网络、模糊逻辑、小波、仿真等。

R语言代写问卷设计与分析代写
PYTHON代写回归分析与线性模型代写
MATLAB代写方差分析与试验设计代写
STATA代写机器学习/统计学习代写
SPSS代写计量经济学代写
EVIEWS代写时间序列分析代写
EXCEL代写深度学习代写
SQL代写各种数据建模与可视化代写

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注