pandas GROUP BY AND SUM,但在超过一定数量时创建新行

2024-08-22Python开发问题
3

本文介绍了 pandas GROUP BY AND SUM,但在超过一定数量时创建新行的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着跟版网的小编来一起学习吧!

问题描述

我当前有一个数据集,其中我尝试根据列对行进行分组,并对值为整数的列求和。

但是,问题是,一旦总和达到特定阈值,我想创建一个新行

例如,在下面的数据框中,我尝试根据公司名称对行进行分组并合计权重,但是我不希望权重超过100。

输入数据帧:

公司 权重
a 30
b 45
a 27
a 40
b 57
a 57
b 32

输出数据帧:

公司 权重
a 97
a 57
b 89
b 45

我已尝试使用GROUP BY和SUM,但是它无法检测我是否已达到最大值。

我有什么方法可以实现这一点吗?

如有任何帮助,我们将不胜感激!

推荐答案

我认为这里有必要的循环,因此为了提高性能,使用numba、修改solution from Divakar、按组调用函数GroupBy.transform,然后聚合sum

from numba import njit

@njit
def make_groups(x, target):
    result = np.empty(len(x),dtype=np.uint64)
    total = 0
    group = 0
    for i,x_i in enumerate(x):
        total += x_i
        if total >= target:
            group += 1
            total = 0
        result[i] = group
    return result

g = df.groupby("Company")["Weight"].transform(lambda x: make_groups(x.to_numpy(), 100))

df1 = (df.groupby(by=["Company", g])
        .sum()
        .reset_index(1, drop=True)
        .sort_values(['Company','Weight'], ascending=[True, False])
        .reset_index())
print (df1)
  Company  Weight
0       a      97
1       a      57
2       b      89
3       b      45

这篇关于 pandas GROUP BY AND SUM,但在超过一定数量时创建新行的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持跟版网!

The End

相关推荐

在xarray中按单个维度的多个坐标分组
groupby multiple coords along a single dimension in xarray(在xarray中按单个维度的多个坐标分组)...
2024-08-22 Python开发问题
15

Pandas中的GROUP BY AND SUM不丢失列
Group by and Sum in Pandas without losing columns(Pandas中的GROUP BY AND SUM不丢失列)...
2024-08-22 Python开发问题
17

pandas 有从特定日期开始的按月分组的方式吗?
Is there a way of group by month in Pandas starting at specific day number?( pandas 有从特定日期开始的按月分组的方式吗?)...
2024-08-22 Python开发问题
10

GROUP BY+新列+基于条件的前一行抓取值
Group by + New Column + Grab value former row based on conditionals(GROUP BY+新列+基于条件的前一行抓取值)...
2024-08-22 Python开发问题
18

PANDA中的Groupby算法和插值算法
Groupby and interpolate in Pandas(PANDA中的Groupby算法和插值算法)...
2024-08-22 Python开发问题
11

PANAS-基于列对行进行分组,并将NaN替换为非空值
Pandas - Group Rows based on a column and replace NaN with non-null values(PANAS-基于列对行进行分组,并将NaN替换为非空值)...
2024-08-22 Python开发问题
10