2025, Nov 01 16:31
Pandas में शर्त आधारित forward-fill: colA=3 से colC फैलाएँ
Pandas DataFrame में mask के साथ forward-fill सीखें: colA=3 के colC को colA=4 पंक्तियों में फैलाएँ, colB को बदले बिना. स्पष्ट और दोहराने योग्य समाधान, कोड सहित.
पंक्तियों में शर्त लगाकर मान भरना डेटा की सफाई का एक आम काम है। यहाँ उद्देश्य सीधा है: जिन पंक्तियों में colA 4 के बराबर है, वहाँ colC को उस सबसे हालिया colC से बदलना है जो colA 3 होने पर दिखा था। colB कॉलम को बिल्कुल नहीं छेड़ना है।
समस्या दिखाने वाला न्यूनतम उदाहरण
डेटा तीन कॉलम वाला Pandas DataFrame है। जिन पंक्तियों में colA बराबर 3 है, वे मान वह देते हैं जिन्हें आगे फैलाना है; जिन पंक्तियों में colA बराबर 4 है, उनके colC में वही फैला हुआ मान आना चाहिए।
from pandas import DataFrame as Frame
source_df = Frame({
'colA': [3, 4, 4, 4, 3, 4, 4, 3, 4],
'colB': ['air', 'ground', 'ground', 'ground', 'air', 'ground', 'air', 'ground', 'ground'],
'colC': ['00JTHYU1', '00JTHYU0', '00JTHYU0', '00JTHYU0', '00JTHYU4', '00JTHYU0', '00JTHYU0', '00JTHYU7', '00JTHYU0']
})
print(source_df)
इच्छित परिणाम: जिन पंक्तियों में colA 4 के बराबर है, उनका colC उस आखिरी colC पर सेट होना चाहिए जहाँ colA 3 था, जबकि colB बिल्कुल वैसा ही बना रहे।
वास्तव में मामला क्या है
colC पर सीधे ffill करने से सही नतीजा नहीं मिलेगा, क्योंकि वह उन पंक्तियों से भी आगे भर देगा जिन्हें एंकर नहीं बनना चाहिए। इरादा यह है कि केवल वे पंक्तियाँ स्रोत बनें जहाँ colA 3 के बराबर है, बाकी पंक्तियाँ स्रोत के रूप में न गिनी जाएँ। इसलिए colC को ऐसे मास्क करना पड़ेगा कि सिर्फ colA = 3 से जुड़े मान “एंकर” की तरह रहें; बाकी सबको भरते समय missing माना जाए।
समाधान
तरीका यह है: एक masked Series बनाइए जो colA 3 होने पर colC को रखे और अन्य जगह NaN हो, उस masked Series पर forward-fill चलाइए, और फिर फैले हुए मानों को सख्ती से केवल उन पंक्तियों में वापस लिखिए जहाँ colA 4 है।
from pandas import DataFrame as Frame
data_tbl = Frame({
'colA': [3, 4, 4, 4, 3, 4, 4, 3, 4],
'colB': ['air', 'ground', 'ground', 'ground', 'air', 'ground', 'air', 'ground', 'ground'],
'colC': ['00JTHYU1', '00JTHYU0', '00JTHYU0', '00JTHYU0', '00JTHYU4', '00JTHYU0', '00JTHYU0', '00JTHYU7', '00JTHYU0']
})
anchor_vals = data_tbl['colC'].where(data_tbl['colA'] == 3)
spread_vals = anchor_vals.ffill()
data_tbl.loc[data_tbl['colA'] == 4, 'colC'] = spread_vals
print(data_tbl)
इससे इच्छित परिणाम मिलता है: 4 के हर समूह को सबसे ताजा 3 से colC विरासत में मिल जाता है, और colB सुरक्षित रहता है।
colA colB colC
0 3 air 00JTHYU1
1 4 ground 00JTHYU1
2 4 ground 00JTHYU1
3 4 ground 00JTHYU1
4 3 air 00JTHYU4
5 4 ground 00JTHYU4
6 4 air 00JTHYU4
7 3 ground 00JTHYU7
8 4 ground 00JTHYU7
यह बारीकी क्यों अहम है
मास्क के बिना forward-fill करना सुविधाजनक लगता है, लेकिन इससे non-anchor पंक्तियाँ भी परिणाम को प्रभावित कर सकती हैं और आपके डेटा का आशय बदल सकता है। मास्किंग इरादे को साफ कर देती है: केवल वे पंक्तियाँ जहाँ colA 3 के बराबर है, तय करती हैं कि क्या फैलना चाहिए। यही फर्क है त्वरित जुगाड़ और ठोस, ऑडिट‑योग्य रूपांतरण में।
मुख्य बातें
जब भी किसी शर्त के आधार पर मान आगे ले जाने हों, पहले एक सशर्त source series बनाइए, उसे forward-fill कीजिए, और फिर केवल जहाँ ज़रूरत हो वहीं असाइन कीजिए। यह पढ़ने में सरल है, समझने में आसान है, colB जैसे कॉलम अपरिवर्तित रहते हैं, और यह सुनिश्चित करता है कि colA 4 के बराबर होने पर colC हमेशा उस नवीनतम मान को दर्शाए जो colA 3 पर स्थापित हुआ था।