daily pastebin goal
14%
SHARE
TWEET

Untitled

a guest Dec 19th, 2018 57 Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
  1. 对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。
  2. 在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。
  3. pandas提供了一个灵活高效的gruopby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。
  4.  
  5. 关系型数据库和SQL(Structured Query Language,结构化查询语言)能够如此流行的原因之一就是其能够方便地对数据进行连接、过滤、转换和聚合。
  6. 但是,像SQL这样的查询语言所能执行的分组运算的种类很有限。
  7. 在本章中你将会看到,由于Python和pandas强大的表达能力,我们可以执行复杂得多的分组运算(利用任何可以接受pandas对象或NumPy数组的函数)。
  8.  
  9. 在本章中,你将会学到:
  10. 使用一个或多个键(形式可以是函数、数组或DataFrame列名)分割pandas对象。
  11. 计算分组的概述统计,比如数量、平均值或标准差,或是用户定义的函数。
  12. 应用组内转换或其他运算,如规格化、线性回归、排名或选取子集等。
  13. 计算透视表或交叉表。
  14. 执行分位数分析以及其它统计分组分析。
  15.  
  16. 笔记:对时间序列数据的聚合(groupby的特殊用法之一)也称作重采样(resampling),本书将在第11章中单独对其进行讲解。
RAW Paste Data
We use cookies for various purposes including analytics. By continuing to use Pastebin, you agree to our use of cookies as described in the Cookies Policy. OK, I Understand
 
Top