相关系数excel-数据分析简单例子-乔山办公网

作者：乔山办公网日期：2020-03-19 01:38:08

返回目录：excel表格制作

数据挖掘是一种技术，它将传统的数据分析方法与处理大量数据的复杂算法相结合。

数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库，发现先前未知的有用模式。

数据挖掘（Data mining）是一个跨学科的计算机科学分支。它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。

数据挖掘的基本任务

利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法，帮助企业提取数据中蕴含的商业价值，提高企业的竞争力。

数据挖掘建模过程

定义挖掘目标、数据取样、数据探索、数据预处理、挖掘建模、模型评价

Python 数据挖掘相关扩展库

Numpy 提供数组支持，以及相应的高效的处理函数
Scipy 提供矩阵支持，以及矩阵相关
Matplotlib 强大的数据可视化工具，作图库
Pandas 强大、灵活的数据分析和探索工具
StatsModels 统计建模和计量经济学，包括描述统计，统计模型估计和推断
Scikit-Learn 支持回归、分类、聚类等强大的机器学习库
Keras 深度学习库，用于建立神经网络以及深度学习模型（Anaconda Navigator）
Gensim 用来做文本主题模型的库，文本挖掘可能用到
Numpy 基本操作 (数组的操作）

import numpy as np

a= np.array([2,0,1,5])

print a,type(a)

print (a[:3])

print (a.min())

a.sort()

print (a)

b=np.array([[1,2,3],[4,5,6]])

print b

print (b*b)

print (b**2)

[2 0 1 5]

[2 0 1]

[0 1 2 5]

[[1 2 3]

[4 5 6]]

[[ 1 4 9]

[16 25 36]]

[[ 1 4 9]

[16 25 36]]

1
2
3
4
5
6
7
8
9
10
11
Scipy （矩阵预算，线性代数、积分、插值、FFT、信号处理、图像处理等的计算）

求解线性方程组和数值积分

from scipy.optimize import fsolve # 导入求解方程组的函数

def f(x):

x1=x[0]

x2=x[1]

return [2*x1-x2**2-1,x1**2-x2-2]

result=fsolve(f,[1,1])

print (result)

from scipy import integrate #导入积分函数

def g(x):

return (1-x**2)**0.5

pi_2,err=integrate.quad(g,-1,1)

print (pi_2*2),err

[ 1.91963957 1.68501606]

3.14159265359 1.00023567207e-09

1
2
3
Matplotlib 作图的基本代码

import numpy as np

import matplotlib.pyplot as plt

x=np.linspace(0,10,1000) #作图的变量自变量

y=np.sin(x)+1

z=np.cos(x**2)+1

plt.figure(figsize=(8,4)) #设置图像大小

plt.plot(x,y,label='$ sin x+1 $',color='red',linewidth=2) #作图，设置标签、线条颜色，宽度

plt.plot(x,z,'b--',label='$cos x^2+1$')

plt.xlabel('Time(s) ')

plt.ylabel('Volt')

plt.title('A Simple Example')

plt.ylim(0,2.2)

plt.legend() #显示图例

plt.show()

np.random.seed(1000)

y=np.random.standard_normal(20)

print y

x=range(len(y))

print x

plt.plot(x,y)

plt.plot(y.cumsum(),'b',lw=1.5)

plt.plot(y.cumsum(),'ro',lw=1.5)

plt.show()

[-0.8044583 0.32093155 -0.02548288 0.64432383 -0.30079667 0.38947455

-0.1074373 -0.47998308 0.5950355 -0.46466753 0.66728131 -0.80611561

-1.19606983 -0.40596016 -0.18237734 0.10319289 -0.13842199 0.70569237

1.27179528 -0.98674733]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]

np.random.seed(2000)

#y1=np.random.standard_normal((20,2))

y=np.random.standard_normal((20,2)).cumsum(axis=0)

print y

plt.figure(figsize=(9,4))

plt.subplot(121)

plt.plot(y[:,0],lw=1.5,label='1st')

plt.plot(y[:,0],'ro')

plt.grid(True)

plt.legend(loc=0)

plt.axis('tight')

plt.xlabel('index')

plt.ylabel('value')

plt.title('1st Data Set')

plt.subplot(122)

plt.bar(np.arange(len(y)),y[:,1],width=0.5,color='g',label='2nd')

plt.grid(True)

plt.legend(loc=0)

plt.axis('tight')

plt.xlabel('index')

plt.ylabel('value')

plt.title('2st Data Set')

[[ 1.73673761 1.89791391]

[-0.37003581 1.74900181]

[ 0.21302575 -0.51023122]

[ 0.35026529 -1.21144444]

[-0.27051479 -1.6910642 ]

[ 0.93922398 -2.76624806]

[ 1.74614319 -3.05703153]

[ 1.52519555 -3.22618757]

[ 2.62602999 -3.14367705]

[ 2.6216544 -4.8662353 ]

[ 3.67921082 -7.38414811]

[ 1.7685707 -6.07769276]

[ 2.19296834 -6.54686084]

[ 1.18689581 -7.46878388]

[ 1.81330034 -7.11160718]

[ 1.79458178 -6.89043591]

[ 2.49318589 -6.05592589]

[ 0.82754806 -8.95736573]

[ 0.77890953 -9.00274406]

[ 2.25424343 -9.51643749]]

Text(0.5,1,u'2st Data Set')

pandas 的简单例子 (数据的读取、处理和探索) series(类似一维数组） dataFrame（相当于一张二维的表格，每一列都是一个Series）

import numpy as np

import pandas as pd

df=pd.DataFrame([10,20,30,40],columns=['numbers'],index=['a','b','c','d'])

numbersa10b20c30d40

df.index

Index([u'a', u'b', u'c', u'd'], dtype='object')

df.columns

Index([u'numbers'], dtype='object')

print df.ix['c']

print df.ix[['a','d']]

print df.ix[df.index[1:3]]

print df.sum()

print df.apply(lambda x:x**2)

numbers 30

Name: c, dtype: int64

numbers

a 10

d 40

numbers

b 20

c 30

numbers 100

dtype: int64

numbers

a 100

b 400

c 900

d 1600

df['floats']=(1.5,2.5,3.5,4.5)

numbersfloatsa101.5b202.5c303.5d404.5

df['names']=pd.DataFrame(['Yves','Guido','Feild','Fance'],index=['a','b','c','d'])

print df

df=df.append(pd.DataFrame({'numbers':100,'floats':5.75,'names':'Henry'},index=['Z']))

print df

numbers floats names

a 10 1.5 Yves

b 20 2.5 Guido

c 30 3.5 Feild

d 40 4.5 Fance

floats names numbers

a 1.50 Yves 10

b 2.50 Guido 20

c 3.50 Feild 30

d 4.50 Fance 40

Z 5.75 Henry 100

df['floats']['a']

1.5

type(df)

pandas.core.frame.DataFrame

df['numbers']

a 10

b 20

c 30

d 40

Z 100

Name: numbers, dtype: int64

type(df['numbers'])

pandas.core.series.Series

import matplotlib.pyplot as plt

df['numbers'].cumsum().plot(style='r',lw=2.) #画numbers这列的累加图形

plt.xlabel('date')

plt.ylabel('value')

plt.show()

import pandas as pd #Series和DataFrame数据结构

s=pd.Series([1,2,3],index=['a','b','c'])

print s

d=pd.DataFrame([[1,2,3],[4,5,6]],columns=['a','b','c'])

print d

d2=pd.DataFrame(s)

print d2

print d.head()

a 1

b 2

c 3

dtype: int64

a b c

0 1 2 3

1 4 5 6

a 1

b 2

c 3

a b c

0 1 2 3

1 4 5 6

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
StatsModels 注重数据的统计建模分析，使pytohn有R语言的味道， StatsModels支持与pandas进行数据交互，强大的数据挖掘组合

from statsmodels.tsa.stattools import adfuller as ADF

from pandas.core import datetools

import numpy as np

ADF(np.random.rand(100)) #返回的结果是ADF值和p值单位根和概率值

(-11.253758305760554,

1.6868652157937374e-20,

0L,

99L,

{'1%': -3.4981980821890981,

'10%': -2.5825959973472097,

'5%': -2.8912082118604681},

31.149412019471782)

1
2
3
4
5
6
7
8
9
Scilit-Learn包括数据预处理、分类与预测、回归、聚类和模型分析

from sklearn import datasets #导入数据集

iris=datasets.load_iris() #加载数据集

print(iris.data.shape)

from sklearn import svm #建立线性SVM分类器

clf=svm.LinearSVC()#建立线性SVM分类器

clf.fit(iris.data,iris.target)# 用数据训练模型

clf.predict([[5.0,3.6,1.5,0.25]])#训练好模型之后，输入新的数据进行预测

clf.coef_ #训练好模型的参数

(150L, 4L)

array([[ 0.18424073, 0.451224 , -0.80793865, -0.45071743],

[ 0.0533189 , -0.89005676, 0.40352144, -0.93828342],

[-0.85072726, -0.98671105, 1.38088737, 1.86538905]])

1
2
3
4
5
6
Keras 搭建神经网络自编码器、循环神经网络、递归神经网络、卷积神经网络
Gensim 处理语言方面的任务，如文本相似度计算、word2Vec等

数据探索

通过检验数据集的数据质量、绘制图表、计算某些特征量等手段，对样本数据集的结构和规律进行分析的过程。

有助于选择合适的数据预处理和建模方法。

数据质量分析

缺失值、异常值、不一致的值、重复数据及含有特殊符号的数据（#、￥、*）

缺失值的处理

缺失值产生的原因
1、信息暂时无法获取，或者信息获取代价太大
2、信息被遗漏
3、属性值不存在
缺失值的影响
数据挖掘建模将丢失大量有用信息；数据挖掘模型表现出的不确定性更加显著，规律难把握；包含空值的数据建模，导致不可靠的输出。
缺失值分析
统计分析的方法，可以得到含有缺失值属性的个数。删除记录、插补、不处理

异常值分析

简单统计量分析（最大值，最小值）、箱形图分析

import pandas as pd

catering_sale='data3/catering_sale.xls' #餐饮数据

data=pd.read_excel(catering_sale,index_col=u'日期') #日期列为索引列

data.head()

销量日期2015-03-0151.02015-02-282618.22015-02-272608.42015-02-262651.92015-02-253442.1

data.describe()

销量count200.000000mean2755.214700std751.029772min22.00000025%2451.97500050%2655.85000075%3026.125000max9106.440000

import pandas as pd

catering_sale = 'data3/catering_sale.xls' #餐饮数据

data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据，指定“日期”列为索引列

import matplotlib.pyplot as plt #导入图像库

plt.figure() #建立图像

p = data.boxplot(return_type='dict') #画箱线图，直接使用DataFrame的方法

x = p['fliers'][0].get_xdata() # 'flies'即为异常值的标签

y = p['fliers'][0].get_ydata()

y.sort() #从小到大排序，该方法直接改变原对象

#用annotate添加注释

#其中有些相近的点，注解会出现重叠，难以看清，需要一些技巧来控制。

for i in range(len(x)):

if i>0:

plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))

else:

plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))

plt.show() #展示箱线图

数据特征分析

分布分析（定量数据的分布分析,定性数据的分布分析）、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析，了解数据的规律和趋势，为数据挖掘的后续环节提供支持。

统计量分析：集中趋势度量（均值、中位数、众数）；离中趋势度量（极差、标准差、变异系数、四分位间距）；

# 统计量分析

import pandas as pd

catering_sale = 'data3/catering_sale.xls' #餐饮数据

data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据，指定“日期”列为索引列

data = data[(data[u'销量'] > 400)&(data[u'销量'] < 5000)] #过滤异常数据

statistics = data.describe() #保存基本统计量

statistics.loc['range'] = statistics.loc['max']-statistics.loc['min'] #极差最大值减最小值

statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean'] #变异系数比较两个或多个具有不同单位或波动幅度的数据集的离中趋势

statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%'] #四分位数间距值越大说明变异程度越大

print(statistics)

销量

count 195.000000

mean 2744.595385

std 424.739407

min 865.000000

25% 2460.600000

50% 2655.900000

75% 3023.200000

max 4065.200000

range 3200.200000

var 0.154755

dis 562.600000

贡献度分析：A1-A7总盈利占85%

import pandas as pd

#初始化参数

dish_profit = 'data3/catering_dish_profit.xls' #餐饮菜品盈利数据

data = pd.read_excel(dish_profit, index_col = u'菜品名')

data = data[u'盈利'].copy()

data.sort_values(ascending = False)

import matplotlib.pyplot as plt #导入图像库

plt.figure()

data.plot(kind='bar')

plt.ylabel(u'盈利（元）')

p = 1.0*data.cumsum()/data.sum()

p.plot(color = 'r', secondary_y = True, style = '-o',linewidth = 2)

plt.annotate(format(p[6], '.4%'), xy = (6, p[6]), xytext=(6*0.9, p[6]*0.9), arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.2")) #添加注释，即85%处的标记。这里包括了指定箭头样式。

plt.ylabel(u'盈利（比例）')

plt.show()

相关系数excel-数据分析简单例子

返回目录：excel表格制作

相关阅读

相关系数excel-数据分析简单例子

word的公式编辑器-微软Office 365的新编辑器面板：Word的人工智能真的能让你成为更好的作家？

excel支票套打王-快速打印word表格，妙用邮件合并功能，Excel数据生成简直太方便

excel宏教程-怎样利用宏进行excel信息表的批量打印

word遇到问题需要关闭-如何关闭Word中那些让人厌烦的功能，快来学习下

word办公软件下载-办公软件合集下载，ps，pr，cad，sql等，你要的都给你

excel文件修复工具-Excel 2007“发现不可读取的内容，是否恢复此工作簿的内容”解决

热门文章

excel减法函数-Excel基础知识：五则运算之[加，减，乘,除,幂]

excel怎么合并单元格-含金量超高的合并单元格实用技巧解读！

excel乘法公式-Excel表格公式大全

excel文件打不开-用Word没法做表格？别傻了，这些强大的Word表格技巧就能轻松搞定

excel下标-Excel利用快捷键完成添加下划线，还有如何设置颜色哟

便利时代新技巧，39个Excel快捷键，白送啦！-excel教学

聚合标签

ppt怎么做_excel表格制作_office365_word文档_365办公网