乔山办公网我们一直在努力
您的位置:乔山办公网 > excel表格制作 > numpy+<em>panda</em>s除了效率对比<em>excel</e

numpy+<em>panda</em>s除了效率对比<em>excel</e

作者:乔山办公网日期:

返回目录:excel表格制作


可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。
1、可以通过传递一个list对象来创建一个Series,pandas会默认创建整型索引:

2、通过传递一个numpy array,时间索引以及列标签来创建一个DataFrame:

1、如果数据e799bee5baa6e78988e69d83366量不大,而且数据以数值为主,处理也是简单的统计,那么两者都挺好用,而且我觉得excel更好,纯粹就是所见即所得。而且即使是简单的创造新函数,或者自动化执行,用vba也能满足而且也足够便捷,语法的劣势没什么不舒服的体现。我团队及,财务数据方面的日常整理,统计和分析,以及核算底稿的生成,全都是vba,老少咸宜,完全没必要用别的工具。
2、如果需要灵活在各种显示范式中切换,切片,分组,聚合,索引,排序,并且结合各种统计函数的使用等,还是python比较合适。例如groupby的大部分基础功能通过excel透视分组筛选等也能实现,但是如果结合各种函数的使用,就远比excel灵活了,excel菜单或者vba的透视表函数,都远没有这个灵活度。我自己在整理数据,从不断分组,切片,排序和统计中寻找分析思路时,就喜欢用python不断进行各种尝试,观察数据结果,我想如果我用excel的话,会繁杂和混乱得多。所以我需要用量比较大的业务数据做分析时,我一般不用excel。
3、如果需要用复杂些的统计计量方法,excel远不能满足。有时候非要用vba去编写也可以,但效率会低10 倍不止,你随便找本统计书找个计量模型,按照它的公式写写代码就体会到了。不过这个在python上不仅这两个模块了,还有statsmodels等。我有时候对这些模块的函数不太熟悉,也懒得去看文档,有时候为了计算个指标,我也会用matlab,eviews等工具。只是这类计算器没有python那么强大的基础数据规整能力,而更适合用作数值计算。
4、如果数据不仅仅是数值型的,还有日期型,文本型(特别是多项信息长文本组成的值),用excel处理也很麻烦。把文本转化为虚拟变量准备回归,把多种多样的同义异形文本统一形式,把日期整理整齐统一口径准备做时间序列模型分析等等,用excel够累的,还不只要要插入几列做过程处理才够用。
5、涉及到web的数据分析,别养成用vba摘取网络数据的坏习惯,代码写到手抽筋。这个不展开了,我用得少,但是试过用vba写,的确让我没耐心,体检印象不好。
6、如果分析还涉及图形处理,跟其他程序的各种接口等,还是用边界更宽的python吧,毕竟excel只是个强大的孤岛,走出去拥抱其他不太容易。
Pandas是Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。
1. 基本使用:创建DataFrame. DataFrame是一张二维的表,大家可以把它想象成一张Excel表单或者Sql表。Excel 2007及其以后的版本的最大行数是1048576,最大列数是16384,超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本,无法放置在一个工作表中”。Pandas处理上千万的数据是易如反掌的sh事情,同时随后我们也将看到它比SQL有更强的表达能力,可以做e68a84e8a2ade799bee5baa6e79fa5e98193335很多复杂的操作,要写的code也更少。
说了一大堆它的好处,要实际感触还得动手码代码。首要的任务就是创建一个DataFrame,它有几种创建方式:
(1)列表,序列(pandas.Series), numpy.ndarray的字典
二维numpy.ndarray
别的DataFrame
结构化的记录(structured arrays)
(2)其中,二维ndarray创建DataFrame,代码敲得最少:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(10, 4))
df
0 1 2 3
0 0.927474 0.127571 1.655908 0.570818
1 -0.425084 -0.382933 0.468073 -0.862898
2 -1.602712 -0.225793 -0.688641 1.167477
3 -1.771992 -0.692575 -0.693494 -1.063697
4 -0.456724 0.371165 1.883742 -0.344189
5 1.024734 0.647224 1.134449 0.266797
6 1.247507 0.114464 2.271932 -0.682767
7 -0.190627 -0.096997 -0.204778 -0.440155
8 -0.471289 -1.025644 -0.741181 -1.707240
9 -0.172242 0.702187 -1.138795 -0.112005
(3)通过describe方法,可以对df中的数据有个大概的了解:
df.describe()
0 1 2 3
count 10.000000 10.000000 10.000000 10.000000
mean -0.189096 -0.046133 0.394722 -0.320786
std 1.027134 0.557420 1.258019 0.837497
min -1.771992 -1.025644 -1.138795 -1.707240
25% -0.467648 -0.343648 -0.692281 -0.817865
50% -0.307856 0.008734 0.131648 -0.392172
75% 0.652545 0.310266 1.525543 0.172096
max 1.247507 0.702187 2.271932 1.167477
2. 改变cell。
3. group by。
4. 读写文件。

我要介绍的第一项任务是把某几列相加然后添加一个总和栏。
首先我们将excel 数据 导入到pandas数据框架中

import pandas as pd
import numpy as np
df = pd.read_excel("excel-comp-data.xlsx")
df.head()

相关阅读

  • numpy+<em>panda</em>s除了效率对比<em>excel</e

  • 乔山办公网excel表格制作
  • 可以复通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。1、可以通过传递制一个百度list对象来创建一个Series,pandas会默认创建整型索引:2、通过传递一个numpy array,时间索引
关键词不能为空
极力推荐

ppt怎么做_excel表格制作_office365_word文档_365办公网