葡萄酒的产地溯源
摘要
本文主要研究的是如何对葡萄酒进行产地溯源的问题。葡萄酒中矿物质元素含量与产地土壤中矿物质组成有一定的关联性,通过检测葡萄酒中矿物质含量,以及相互比例,建立数学模型,可以实现葡萄酒的产地溯源。通过对葡萄酒样品中24种元素含量的检测结果的原始数据进行统计、分析和处理,我们得出了一个较为合理的葡萄酒的产地溯源的模型。
在问题一中,我们采用T检验法,首先进行正态分布拟合检验,判断出它们服从正态分布。
本文针对葡萄酒和葡萄质量的评价问题,通过t检验、模糊聚类分析、相关性分析等多检验、模糊聚类分析、相关性分析等多种方法,综合分析了表一关于Slavonia地区葡萄酒各种不同元素的不同含量的实验数据,建立了葡萄和葡萄酒的产地对葡萄以及葡萄酒质量的影响关系多元线性回归数学模型,运用EXCEL、Matlab软件得出了葡萄产地和葡萄酒之间的理化关系。最后,将模型结果和实际测量所含化学元素的数据相结合,做出了根据酿酒葡萄和葡萄酒理化指标对葡萄酒质量进行评价的模型对如何通过元素的数据判断葡萄酒产地评判标准提出了相关可行性方案。针对问题一,根据data.xlsx\Sheet1中Slavonia地区的数据,16个葡萄酒样品24种矿物质的检测结果,分别对数据中不同的元素首先运用t检验分析建立了显著性差异的成对数据t检验模型,分析出几组组结果具有明显的表征特性;再运用方差分析建立了方差分析模型,分析出本题中的大概所符合的规律并在此基础上建立合适的数学模型。
关键词:主成分分析法 葡萄酒 Matlab 双重多因素分析 数据分析 相关性分析多元回归 正态分布
一.问题的重述
葡萄酒中矿物质元素含量与产地土壤中矿物质组成有一定的关联性,通过检测葡萄酒中矿物质含量,以及相互比例,建立数学模型,可以实现葡萄酒的产地溯源。假设共检测每个葡萄酒样品中种矿物质,每个产地检测个样品,建立矿物质含量及组成比例与产地的关联模型,用于检测新的样品是否是同一产地。
问题一: 使用data.xlsx\Sheet1中Slavonia地区的数据,16个葡萄酒样品24种矿物质的检测结果, 试建立数学模型,表明该组葡萄酒的产地特征,针对data.xlsx\Sheet2中的两个葡萄酒样品数据加以判别是否属于该产地。
问题二:假设共有组葡萄酒样品,分别来自不同的产地,第组包含个葡萄酒样品,试根据每组样品所含的种矿物质含量数据,建立矿物质含量及组成比例与产地关联的数学模型。使用data.xlsx\Sheet1中的3个地区(Slavonia、Istria与Vojvodina)24个葡萄酒样品数据,建立数学模型并检测data.xlsx\Sheet2中的两个葡萄酒样品属于哪一个产地。
问题三:假设将问题二中来自不同产地的葡萄酒样品混在了一起,产地的数目未知,能否建立数学模型先将样品进行分类,然后利用问题二中的模型再进行产地溯源。(问题三也可以理解为:已知某组葡萄酒样品数据来自某一大的产地,如何做到对葡萄酒产地的进一步划分)。请使用data.xlsx\Sheet1中Slavonia地区的数据,对葡萄酒产地进行进一步划分,并说明data.xlsx\Sheet2中属于该产地的葡萄酒样品属于该产地的哪一个类别。
二.基本假设与符号说明
2.1 基本假设
2.2 符号说明
第组化学元素对红葡萄酒的质量影响均值的期望
第地区数据对各品种红葡萄酒的质量均值的方差
问题一的假设
第个主成分
第个元素对第地区酒的质量影响
三.问题的分析
针对问题一,根据所给数据建立葡萄酒与产地的关系数学模型。我们采用T检验法进行判断。但采用T检验法的前提是其必须服从正态分布,方差未知且相等。所以我们先对那些数据进行正态分布检验,判断其是否服从正态分布。验证服从正态分布后,我们利用T检验法判断24组元素含量数据结果的显著特性。由于元素数据的客观性,我们通过计算所给数均值的置信区间,利用置信区间的长短来判断评分的可信程度。
四.模型的建立与求解
4.1 问题一的模型建立与求解
T检验是用T分布理论来推论差异发生的概率,从而比较两个均值的差异是否显著。由于检验红葡萄酒与白葡萄酒的方法和模型一样,这里我们只给出检验葡萄酒的模型。
由于使用T检验法的前提是两个总体分布都服从正态分布,我们先利用Excel
软件计算出:
①变异系数法计算权重
先分别计算出第项指标的平均值:
然后计算出第项指标的方差:
再计算出第项指标的变异系数:
最后对进行归一化:
就得到了第项指标的权数。
就得到了第项指标的权数。
②加权求和计算理化指标总体评价值
在附件2中,带入求出的第项指标的权重,分别求出红、白葡萄和葡萄酒的理化指标总体评价值。
③葡萄酒和酿酒葡萄间的相关性分析
最终得到红、白葡萄酒和酿酒葡萄之间的相关性分别为:0.58和0.62,都大于0.5。因此,葡萄酒序号与酿酒的葡萄序号之间有一一对应的关系,即:1号白葡萄酒就对应着1号葡萄,2号白葡萄酒就对应着2号葡萄,依此类推。
模型Ⅳ 葡萄理化指标分级模型
⑴建模思路
由于葡萄酒的评价指标有多个,故先对各个葡萄酒样品的每个评价指标的评价结果求平均,然后对每个样品的平均值求和得到总分,然后采用模糊C均值聚类法分别对红、白葡萄酒进行分类,由葡萄酒的分类推得相应的酿酒葡萄的分类。最后,联系红、白葡萄的理化指标,建立葡萄理化指标分级标准。
⑵模型的建立
首先,仍以红葡萄酒为例,利用问题一中的第二组评酒员品尝总分,采用模糊C均值聚类法对两组的葡萄酒质量进行分类。
定义3 模糊C均值聚类:定义目标函数为,显然表示了各类样本到聚类中心的加权距离平方和,权重是样本对第类隶属度的次方,聚类准则取为求得极小值:
其中聚类中心为:;
其中,。
得到葡萄酒的分级后,再由附件2得到相应的葡萄分级。按照级别将葡萄重新分类,并将每个级别的葡萄的各个理化性质列出,最后得到酿酒葡萄的理化指标分级标准。
相关性分析
相关分析是描述两个变量间关系的密切程度,主要由相关系数值表示,当相关系数的绝对值越接近于1,则表示两个变量间的相关性越显著。双变量系数测量的主要指标有卡方类测量、Spearman相关系数、pearson相关系数等,由于酿酒葡萄和葡萄酒的数据为定距数据,则在进行两者间的相关性检验时用pearson相关系数来判断,其公式为:
Pearson简单相关系数检验统计量为:
其中统计量服从个自由度的分布。
回归分析
多元回归分析是研究多个变量之间关系的回归分析方法,确定变量之间数量的可能形式,并用数学模型表示如下:
其中为截距项,为偏回归系数,为残差项。
多元回归方程及其显著性检验
建立模型,要对模型进行拟合度检验,回归方程的显著性检验就是检验样本回归方程的变量的线性关系是否显著,即能否根据样本来推断总体回归方程中的多个回归系数中至少有一个不等于0,主要是说明样本回归方程的显著性。检验的方法用方差分析,这时因变量的总体变异系本分解为回归平方和与误差平方和,即表示为:
其中
此外可以用检验对整个回归进行显著性检验,即与所考虑的k个变量自变量是否有显著性线性关系,即公式为:
检验的时候分别与的临界值进行比较,若,认为回归高度显著 或称在0.01水平上显著;
。认为回归在0.05水平上显著;
则称回归在0.01水平上显著。
若,则回归不显著,此时与这个自变量的线性关系就不确切
表格 7 多元线性回归方差分析表
变差来源 |
平方和 |
自由度 |
均方 |
|
回归 |
||||
剩余 |
|
|||
总和 |
|
|
||
|
|
|
|
|
模型优点:
(3)建模过程中,充分利用EXCEL软件对数据进行筛选、排序和求均值,使计算相对简单。在不影响对结果的定性分析的情况下,对数据进行了大胆的简化,使问题变得更加简单明了。同时,模型对各种情况都做了较全面的分析,并且有些参数可以根据实际需要取一定的值,使模型具有很强的普遍性和实用性;
(4)在显著性和可靠性分析中,充分考虑了各个指标对葡萄酒质量的影响,选取了符合题意的双因素多重方差分析和信度检验方法,可知模型是合理有效的。
(5)回归分析可以准确地计量各个因素之间的相关程度与回归拟合程度的高低,提高预测方程式的效果。
(6)多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。
模型缺点:
(3)运用回归模型,只要采用的模型和数据相同,通过标准的统计方法可以计算出唯一的结果,但在图和表的形式中,数据之间关系的解释往往因人而异,不同分析者画出的拟合曲线很可能也是不一样的;
(4)在回归分析中,有时选用何种因子和该因子采用何种表达只是一种推测,这影响了该因子的多样性和某些因子的不可测性,使得回归分析方法的适用范围变窄;
5.2模型的改进
针对问题中葡萄酒与葡萄酒产地联系的研究,可以使用双重筛选逐步回归分析,其结果会更好。对于葡萄酒理化指标和葡萄的化学元素含量做回归分析,应尝试多种非线性回归分析进行比较,选择回归程度最好的一种。
5.3模型的推广
本题目能对事物做更好的定性分析和解决生活中的实际问题。并且它所涉及的模型主要建立在多元统计分析上,适用于统计量庞大,多变量对因变量、多变量对多变量的问题解答。
[1] 阳明盛,熊西文,林建华,MATLAB基础与数学软件,大连理工大学出版社,2003年。
[2] 吴礼斌.经济数学实验与建模[M].天津大学出版社.2009.8.;
[3] 姜启源等.数学模型(第三版)[M].高等教育出版社.2003.8.
[4] 李记明,《关于葡萄品质的评价指标》,《中外葡萄与葡萄酒》,1999年
[5] 许凤华 李述山 张英,《基于双重筛选的多因变量偏最小二乘逐步回归法》,《统计与决策》,2008年
[6] 马腾 赵丽 李军,《2008年份昌黎原产地葡萄酒理化特性的统计分析》,《河北科技师范学院学报》,2012年
[7] 于秀林 任雪松,《多元统计分析》,北京:中国统计出版社,1999年
[8] 葡萄酒资讯网: http://www.wines-info.com/;
[9] 杨振华等,钢管订购与运输问题一的数学模型与求解
非常抱歉!本站不支持旧版本IE浏览器~~建议使用IE10/IE11/Chrome/Firefox/Safari等高级浏览器浏览。