Pandas-Add missing years in time series data with duplicate years( pandas -在具有重复年份的时间序列数据中添加缺失年份)
本文介绍了 pandas -在具有重复年份的时间序列数据中添加缺失年份的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我有一个这样的数据集,其中某些年份的数据丢失。
County Year Pop
12 1999 1.1
12 2001 1.2
13 1999 1.0
13 2000 1.1
我想要
County Year Pop
12 1999 1.1
12 2000 NaN
12 2001 1.2
13 1999 1.0
13 2000 1.1
13 2001 nan
我尝试将索引设置为Year,然后将Reindex与另一个数据帧的Just Year方法(这里提到的Pandas: Add data for missing months)一起使用,但它给出错误:无法使用重复值重新编制索引。我也试过df.loc,但它有同样的问题。我甚至尝试了一个只有几年的空白df的完全外连接,但也不起作用。
我如何解决此问题?
推荐答案
创建多个索引,这样就不会有重复项:
df.set_index(['County', 'Year'], inplace=True)
然后使用所有组合构造一个完整的多索引:
index = pd.MultiIndex.from_product(df.index.levels)
然后重新编制索引:
df.reindex(index)
多重指数的构建未经测试,可能需要稍作调整(例如,如果所有县完全不存在一年),但我认为您明白这一点。
这篇关于 pandas -在具有重复年份的时间序列数据中添加缺失年份的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
沃梦达教程
本文标题为:pandas -在具有重复年份的时间序列数据中添加缺失
基础教程推荐
猜你喜欢
- 修改列表中的数据帧不起作用 2022-01-01
- 在同一图形上绘制Bokeh的烛台和音量条 2022-01-01
- Plotly:如何设置绘图图形的样式,使其不显示缺失日期的间隙? 2022-01-01
- 求两个直方图的卷积 2022-01-01
- 无法导入 Pytorch [WinError 126] 找不到指定的模块 2022-01-01
- 在Python中从Azure BLOB存储中读取文件 2022-01-01
- PANDA VALUE_COUNTS包含GROUP BY之前的所有值 2022-01-01
- 包装空间模型 2022-01-01
- PermissionError: pip 从 8.1.1 升级到 8.1.2 2022-01-01
- 使用大型矩阵时禁止 Pycharm 输出中的自动换行符 2022-01-01
