python数据分析从入门到精通

2023-07-19 15:14 综合百科 0阅读 投稿:小七
预告:后边一段时间,我会分享一系列关于Python数据分析的内容,为大家展示一个数据分析师需要掌握什么知识,具备什么样的技能,感兴趣的可以先关注下。

要使用强大的Python数据分析模块pandas,我们首先要熟悉它的两个主要的数据结构:Series(序列)和DataFrame(数据框),或许它们无法解决所有的问题,但它们为大多数应用提供了一种可靠的、易于使用的基础。

1.生成Series(序列)

Series是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签组成。

仅由一组数据即可产生最简单的Series,其字符串表现形式为:索引在左边,值在右边。

如果我们没有为数据指定索引,那么它会自动创建一个0到N-1(N为数据的长度)的整数型索引。

我们可以通过Series的values和index属性获取其数组表示形式和索引对象:

python数据分析从入门到精通图1

2.通常,我们希望所创建的Series带有以各可以对各个数据点进行标记的索引:

python数据分析从入门到精通图2

可以看到,与普通NumPy数组相比,我们可以通过索引的方式选取Series中的单个或一组值,甚至可以进行赋值操作。

3.对Series进行NumPy数组运算(如根据布尔型数组进行过滤、标量乘法、应用数学函数等)时都会保留索引和值之间的链接。

python数据分析从入门到精通图3

4.还可以将Series看成是一个定长的有序字典,因为它是索引值到数据值的一个映射,它可以用在许多原本需要字典参数的函数中。如果数据被存放在一个Python字典中,也可以通过这个字典来创建Series。

python数据分析从入门到精通图4

可以看到,如果只传入一个字典,则结果Series中的索引就是原字典的键(有序排列)。

我们还可以同时传入一个字典和一个索引列表(元组和数组也可以,如下图所示),如下图的例子,sdata中跟states索引相匹配的值会被找出来,并按照顺序放到相应的位置。

python数据分析从入门到精通图5

但由于‘California’所对应的sdata值找不到,所以其结果为NaN(not a number,非数字,在pandas中,用于表示缺失或NA值)。pandas中的isnull()和notnull()函数可用于检测缺失数据。同时,Series也有类似的实例方法(对于pd.isnull(obj4)我们称之为对实例obj4应用函数pd.isnull(),对于obj4.isnull()我们一般称之为实例obj4的方法isnull()):

python数据分析从入门到精通图6

对缺失数据的处理,永远是数据分析和数据挖掘过程中的重要一环,我们将会在后续的内容中详细讨论。

5.对于许多应用而言,Series最重要的功能是:它在算数运算中会自动对齐不同索引的数据。关于数据对齐的内容我们也会在后续单独讲解。

python数据分析从入门到精通图7

6.Series对象本身及其索引都有一个name属性,该属性跟pandas其他的关键功能关系非常密切。Series的索引可以通过赋值的方式就地修改。

python数据分析从入门到精通图8
声明:若水百科所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系youzivr@vip.qq.com