numpy+<em>panda</em>s除了效率对比<em>excel</e-乔山办公网

作者：乔山办公网日期：2020-12-14 05:38:58

返回目录：excel表格制作

可以复通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。
1、可以通过传递制一个百度list对象来创建一个Series，pandas会默认创建整型索引：

2、通过传递一个numpy array，时间索引以及列标签来创建一个DataFrame：

1、如果数据e799bee5baa6e78988e69d83366量不大，而且数据以数值为主，处理也是简单的统计，那么两者都挺好用，而且我觉得excel更好，纯粹就是所见即所得。而且即使是简单的创造新函数，或者自动化执行，用vba也能满足而且也足够便捷，语法的劣势没什么不舒服的体现。我团队及，财务数据方面的日常整理，统计和分析，以及核算底稿的生成，全都是vba，老少咸宜，完全没必要用别的工具。
2、如果需要灵活在各种显示范式中切换，切片，分组，聚合，索引，排序，并且结合各种统计函数的使用等，还是python比较合适。例如groupby的大部分基础功能通过excel透视分组筛选等也能实现，但是如果结合各种函数的使用，就远比excel灵活了，excel菜单或者vba的透视表函数，都远没有这个灵活度。我自己在整理数据，从不断分组，切片，排序和统计中寻找分析思路时，就喜欢用python不断进行各种尝试，观察数据结果，我想如果我用excel的话，会繁杂和混乱得多。所以我需要用量比较大的业务数据做分析时，我一般不用excel。
3、如果需要用复杂些的统计计量方法，excel远不能满足。有时候非要用vba去编写也可以，但效率会低10 倍不止，你随便找本统计书找个计量模型，按照它的公式写写代码就体会到了。不过这个在python上不仅这两个模块了，还有statsmodels等。我有时候对这些模块的函数不太熟悉，也懒得去看文档，有时候为了计算个指标，我也会用matlab，eviews等工具。只是这类计算器没有python那么强大的基础数据规整能力，而更适合用作数值计算。
4、如果数据不仅仅是数值型的，还有日期型，文本型（特别是多项信息长文本组成的值），用excel处理也很麻烦。把文本转化为虚拟变量准备回归，把多种多样的同义异形文本统一形式，把日期整理整齐统一口径准备做时间序列模型分析等等，用excel够累的，还不只要要插入几列做过程处理才够用。
5、涉及到web的数据分析，别养成用vba摘取网络数据的坏习惯，代码写到手抽筋。这个不展开了，我用得少，但是试过用vba写，的确让我没耐心，体检印象不好。
6、如果分析还涉及图形处理，跟其他程序的各种接口等，还是用边界更宽的python吧，毕竟excel只是个强大的孤岛，走出去拥抱其他不太容易。
Pandas是Python下一个开源数据分析的库，它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。
1. 基本使用：创建DataFrame. DataFrame是一张二维的表，大家可以把它想象成一张Excel表单或者Sql表。Excel 2007及其以后的版本的最大行数是1048576，最大列数是16384，超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本，无法放置在一个工作表中”。Pandas处理上千万的数据是易如反掌的sh事情，同时随后我们也将看到它比SQL有更强的表达能力，可以做e68a84e8a2ade799bee5baa6e79fa5e98193335很多复杂的操作，要写的code也更少。
说了一大堆它的好处，要实际感触还得动手码代码。首要的任务就是创建一个DataFrame，它有几种创建方式：
（1）列表，序列(pandas.Series), numpy.ndarray的字典
二维numpy.ndarray
别的DataFrame
结构化的记录(structured arrays)
（2）其中，二维ndarray创建DataFrame，代码敲得最少：
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(10, 4))
df
0 1 2 3
0 0.927474 0.127571 1.655908 0.570818
1 -0.425084 -0.382933 0.468073 -0.862898
2 -1.602712 -0.225793 -0.688641 1.167477
3 -1.771992 -0.692575 -0.693494 -1.063697
4 -0.456724 0.371165 1.883742 -0.344189
5 1.024734 0.647224 1.134449 0.266797
6 1.247507 0.114464 2.271932 -0.682767
7 -0.190627 -0.096997 -0.204778 -0.440155
8 -0.471289 -1.025644 -0.741181 -1.707240
9 -0.172242 0.702187 -1.138795 -0.112005
（3）通过describe方法，可以对df中的数据有个大概的了解：
df.describe()
0 1 2 3
count 10.000000 10.000000 10.000000 10.000000
mean -0.189096 -0.046133 0.394722 -0.320786
std 1.027134 0.557420 1.258019 0.837497
min -1.771992 -1.025644 -1.138795 -1.707240
25% -0.467648 -0.343648 -0.692281 -0.817865
50% -0.307856 0.008734 0.131648 -0.392172
75% 0.652545 0.310266 1.525543 0.172096
max 1.247507 0.702187 2.271932 1.167477
2. 改变cell。
3. group by。
4. 读写文件。

我要介绍知的第一项任务是把某几列相加然后道添加一个总和栏。
首先我们将版excel 数据导入到pandas数据框架中权。

import pandas as pd
import numpy as np
df = pd.read_excel("excel-comp-data.xlsx")
df.head()

本文标签：panda excel(1)python怎么做excel(1)

numpy+<em>panda</em>s除了效率对比<em>excel</e

返回目录：excel表格制作

相关阅读

numpy+<em>panda</em>s除了效率对比<em>excel</e

在excel中如何把一个单元格用右斜线分成三部分并输入文字-excel单元格划分,excel表格制作场地划分

热门文章

excel表格打不开-Excel工作表太多，4个小技巧轻松“理”起来

整个excel表格的工具栏不见了怎么办？-excel工具栏怎么还原,微表格工具栏怎么还原

<em>EXCEL</em>中如何将计算出来的错误值变成0或不显示？谢谢-excel 不显示0

excel 锁定单元格-你这么设置，就能保护特定单元格

excel乘方-初中数学北师大版幂的乘方与积的乘方每日一练1（含答案和解析

如何在<em>jsp</em>页面上提供<em>excel表格</em>

聚合标签

ppt怎么做_excel表格制作_office365_word文档_365办公网