https://pytroubles.com/hi/posts/id453-pandas-men-nested-json-ddikshnrii-konlm-ko-long-form-men-bdlen

Pandas में nested JSON/डिक्शनरी कॉलम को long-form में बदलें

pandas में डिक्शनरी/JSON कॉलम को id–schedule_name long तालिका में बदलने की साफ पाइपलाइन

Pandas में nested JSON/डिक्शनरी कॉलम को long-form में बदलें

pandas में nested JSON/डिक्शनरी कॉलम को long-form DataFrame में बदलें: keys को कॉलम बनाकर stack व reset_index से id और schedule_name की साफ मैपिंग पाएँ.

2025-10-04T05:31:46+03:00

2025-10-04T05:31:47+03:00

नेस्टेड JSON को एक साफ, विश्लेषण के लिए तैयार तालिका में समतल करना अक्सर करना पड़ता है। एक आम स्थिति: pandas की किसी कॉलम में ऐसी डिक्शनरी होती हैं, जिनमें keys पहचानकर्ता (identifiers) हैं और values पढ़ने योग्य लेबल। लक्ष्य यह है कि सभी पंक्तियों में मौजूद हर key–value जोड़ी को id और schedule_name वाले दो-स्तंभों के सुव्यवस्थित dataframe में बदल दिया जाए। दिक्कत अक्सर तब होती है जब यह रूपांतरण पूरे कॉलम पर सही तरह लागू करना हो, सिर्फ किसी एक पंक्ति पर नहीं।शुरुआती स्थितिमान लीजिए एक dataframe कॉलम में हर पंक्ति पर शेड्यूल मैपिंग वाली डिक्शनरी हैं। मोटे तौर पर यह कुछ ऐसा दिखेगा:tbl['schedules'] 0 {'3263524': 'Group 1 CORE DAYS', '3263525': 'Group 1 CORE NIGHTS', '3263526': 'Group 1 EDUCATION', '3263527': 'Group 1 ROUNDING'} 1 {'3263524': 'Group 1 CORE DAYS', '3881368': 'VS Days', '3881370': 'VS Education Shift A', '3881455': 'VS Education Shift B'} लक्षित long-form dataframe में किसी भी पंक्ति की डिक्शनरी से निकली हर जोड़ी के लिए एक पंक्ति होनी चाहिए:id schedule_name 3263524 Group 1 CORE DAYS 3263525 Group 1 CORE NIGHTS 3263526 Group 1 EDUCATION 3263527 Group 1 ROUNDING 3881368 VS Days 3881370 VS Education Shift A 3881455 VS Education Shift B एक सरल लेकिन अधूरा प्रयासमन करता है कि from_dict को किसी एक डिक्शनरी पर चला दें, पर यह सिर्फ एक ही पंक्ति संभालता है और हमें चाहिए वैसा कॉलम नाम या इंडेक्स भी नहीं बनाता:sched_map = pd.DataFrame.from_dict(tbl['schedules'].iloc[0], orient='index')यह तरीका बाकी सभी पंक्तियों को अनदेखा कर देता है और अंत में सही कॉलम नाम और एकसमान इंडेक्स पाने के लिए अतिरिक्त मेहनत भी करनी पड़ती है।असल में करना क्या हैसाफ-सुथरा समाधान सभी डिक्शनरी keys को पंक्तियों के पार मिलाकर उन्हें कॉलम की तरह संरेखित करने से शुरू होता है। डिक्शनरी की श्रृंखला (series) को एक wide dataframe में बदलना यही करता है: हर यूनिक key अपने अलग कॉलम में चली जाती है, और किसी पंक्ति में key न होने पर वहाँ NaN भरता है। इसके बाद stack लगाने से डेटा long फॉर्मेट में आ जाता है, ताकि हर key–value जोड़ी अपनी अलग पंक्ति बन जाए। stacked इंडेक्स-लेवल को नीचे एक कॉलम में लाने से डिक्शनरी keys वास्तविक डेटा के रूप में दिखने लगती हैं। फिर इन दो कॉलमों का नामकरण टेबल को सलीके से पूरा करता है, और duplicates हटाने से दोहराई गई जोड़ियाँ समेट दी जाती हैं।समाधानयह केवल pandas वाला पाइपलाइन सब कुछ साथ जोड़ देता है:flat_schedules = ( pd.DataFrame(tbl['schedules'].tolist()) .stack().reset_index(level=1) .set_axis(['id', 'schedule_name'], axis=1) .drop_duplicates(ignore_index=True) )आउटपुट:id schedule_name 3263524 Group 1 CORE DAYS 3263525 Group 1 CORE NIGHTS 3263526 Group 1 EDUCATION 3263527 Group 1 ROUNDING 3881368 VS Days 3881370 VS Education Shift A 3881455 VS Education Shift B यह चरण-दर-चरण क्यों काम करता हैपहला कदम, DataFrame(tbl['schedules'].tolist()), keys को कॉलम के रूप में संरेखित करके एक wide तालिका बना देता है। इस मध्यवर्ती आउटपुट को देखने पर असर साफ दिखता है:3263524 3263525 3263526 \ 0 Group 1 CORE DAYS Group 1 CORE NIGHTS Group 1 EDUCATION 1 Group 1 CORE DAYS NaN NaN 3263527 3881368 3881370 3881455 0 Group 1 ROUNDING NaN NaN NaN 1 NaN VS Days VS Education Shift A VS Education Shift B stack() लगाने से यही wide मैट्रिक्स long index–value series में बदल जाती है, जहाँ हर पंक्ति एक अकेली key–value जोड़ी का प्रतिनिधित्व करती है—मूल सभी पंक्तियों से निकली जोड़ियाँ भी शामिल हैं:0 3263524 Group 1 CORE DAYS 3263525 Group 1 CORE NIGHTS 3263526 Group 1 EDUCATION 3263527 Group 1 ROUNDING 1 3263524 Group 1 CORE DAYS 3881368 VS Days 3881370 VS Education Shift A 3881455 VS Education Shift B reset_index(level=1) stacked इंडेक्स से डिक्शनरी keys को एक सामान्य कॉलम में ले आता है। set_axis(['id', 'schedule_name'], axis=1) इन दो कॉलमों को नाम देता है। drop_duplicates(ignore_index=True) दोहराई गई जोड़ियों को हटाकर परिणाम को शून्य से पुनः इंडेक्स करता है।यह बारीकी क्यों अहम हैनेस्टेड JSON लेते समय उसे शुरू में ही सुथरी और पूर्वानुमेय स्कीमा में उतार देना आगे की प्रक्रियाओं में रुकावटों से बचाता है। पिवोट से पहले पंक्तियों के पार keys को ठीक तरह से संरेखित करने से बिना बताए डेटा-हानि और joins, filters या aggregations के दौरान अजीब किनारे के मामलों से बचाव होता है। डिक्शनरी वाली कॉलम से साफ long-form तालिका में रूपांतरण करने वाला छोटा-सा पाइपलाइन समझने, जाँचने और दोबारा उपयोग करने में आसान होता है।मुख्य बातेंदो-चरणीय reshape अपनाएँ: पहले डिक्शनरी keys को कॉलम की तरह संरेखित करके डेटा को wide बनाइए, फिर stack के साथ long जाएँ ताकि हर key–value जोड़ी के लिए एक पंक्ति निकले। अंत में keys को एक कॉलम के रूप में दिखाएँ, अर्थपूर्ण कॉलम नाम दें, और दोहराव को हटा दें। यह क्रम एक भरोसेमंद id और schedule_name मैपिंग देता है, जिसे आप निश्चिंत होकर अपने pandas वर्कफ़्लो के आगे जोड़ सकते हैं।

pandas, nested JSON, डिक्शनरी कॉलम, DataFrame, long-form, stack, reset_index, drop_duplicates, wide to long, flatten JSON, id, schedule_name, pandas pipeline, tidy data, reshape

2025

2025, Oct 04 05:31

pandas में डिक्शनरी/JSON कॉलम को id–schedule_name long तालिका में बदलने की साफ पाइपलाइन

शुरुआती स्थिति

मान लीजिए एक dataframe कॉलम में हर पंक्ति पर शेड्यूल मैपिंग वाली डिक्शनरी हैं। मोटे तौर पर यह कुछ ऐसा दिखेगा:

tbl['schedules']
0  {'3263524': 'Group 1 CORE DAYS', '3263525': 'Group 1 CORE NIGHTS', '3263526': 'Group 1 EDUCATION', '3263527': 'Group 1 ROUNDING'}
1  {'3263524': 'Group 1 CORE DAYS', '3881368': 'VS Days', '3881370': 'VS Education Shift A', '3881455': 'VS Education Shift B'}

लक्षित long-form dataframe में किसी भी पंक्ति की डिक्शनरी से निकली हर जोड़ी के लिए एक पंक्ति होनी चाहिए:

id        schedule_name
3263524   Group 1 CORE DAYS
3263525   Group 1 CORE NIGHTS
3263526   Group 1 EDUCATION
3263527   Group 1 ROUNDING
3881368   VS Days
3881370   VS Education Shift A
3881455   VS Education Shift B

एक सरल लेकिन अधूरा प्रयास

मन करता है कि from_dict को किसी एक डिक्शनरी पर चला दें, पर यह सिर्फ एक ही पंक्ति संभालता है और हमें चाहिए वैसा कॉलम नाम या इंडेक्स भी नहीं बनाता:

sched_map = pd.DataFrame.from_dict(tbl['schedules'].iloc[0], orient='index')

यह तरीका बाकी सभी पंक्तियों को अनदेखा कर देता है और अंत में सही कॉलम नाम और एकसमान इंडेक्स पाने के लिए अतिरिक्त मेहनत भी करनी पड़ती है।

असल में करना क्या है

साफ-सुथरा समाधान सभी डिक्शनरी keys को पंक्तियों के पार मिलाकर उन्हें कॉलम की तरह संरेखित करने से शुरू होता है। डिक्शनरी की श्रृंखला (series) को एक wide dataframe में बदलना यही करता है: हर यूनिक key अपने अलग कॉलम में चली जाती है, और किसी पंक्ति में key न होने पर वहाँ NaN भरता है। इसके बाद stack लगाने से डेटा long फॉर्मेट में आ जाता है, ताकि हर key–value जोड़ी अपनी अलग पंक्ति बन जाए। stacked इंडेक्स-लेवल को नीचे एक कॉलम में लाने से डिक्शनरी keys वास्तविक डेटा के रूप में दिखने लगती हैं। फिर इन दो कॉलमों का नामकरण टेबल को सलीके से पूरा करता है, और duplicates हटाने से दोहराई गई जोड़ियाँ समेट दी जाती हैं।

समाधान

यह केवल pandas वाला पाइपलाइन सब कुछ साथ जोड़ देता है:

flat_schedules = (
    pd.DataFrame(tbl['schedules'].tolist())
      .stack().reset_index(level=1)
      .set_axis(['id', 'schedule_name'], axis=1)
      .drop_duplicates(ignore_index=True)
)

आउटपुट:

id         schedule_name
3263524    Group 1 CORE DAYS
3263525    Group 1 CORE NIGHTS
3263526    Group 1 EDUCATION
3263527    Group 1 ROUNDING
3881368    VS Days
3881370    VS Education Shift A
3881455    VS Education Shift B

यह चरण-दर-चरण क्यों काम करता है

पहला कदम, DataFrame(tbl['schedules'].tolist()), keys को कॉलम के रूप में संरेखित करके एक wide तालिका बना देता है। इस मध्यवर्ती आउटपुट को देखने पर असर साफ दिखता है:

3263524              3263525            3263526  \
0  Group 1 CORE DAYS  Group 1 CORE NIGHTS  Group 1 EDUCATION   
1  Group 1 CORE DAYS                  NaN                NaN   
            3263527  3881368               3881370               3881455  
0  Group 1 ROUNDING      NaN                   NaN                   NaN  
1               NaN  VS Days  VS Education Shift A  VS Education Shift B

stack() लगाने से यही wide मैट्रिक्स long index–value series में बदल जाती है, जहाँ हर पंक्ति एक अकेली key–value जोड़ी का प्रतिनिधित्व करती है—मूल सभी पंक्तियों से निकली जोड़ियाँ भी शामिल हैं:

0  3263524       Group 1 CORE DAYS
   3263525     Group 1 CORE NIGHTS
   3263526       Group 1 EDUCATION
   3263527        Group 1 ROUNDING
1  3263524       Group 1 CORE DAYS
   3881368                 VS Days
   3881370    VS Education Shift A
   3881455    VS Education Shift B

reset_index(level=1) stacked इंडेक्स से डिक्शनरी keys को एक सामान्य कॉलम में ले आता है। set_axis(['id', 'schedule_name'], axis=1) इन दो कॉलमों को नाम देता है। drop_duplicates(ignore_index=True) दोहराई गई जोड़ियों को हटाकर परिणाम को शून्य से पुनः इंडेक्स करता है।

यह बारीकी क्यों अहम है

नेस्टेड JSON लेते समय उसे शुरू में ही सुथरी और पूर्वानुमेय स्कीमा में उतार देना आगे की प्रक्रियाओं में रुकावटों से बचाता है। पिवोट से पहले पंक्तियों के पार keys को ठीक तरह से संरेखित करने से बिना बताए डेटा-हानि और joins, filters या aggregations के दौरान अजीब किनारे के मामलों से बचाव होता है। डिक्शनरी वाली कॉलम से साफ long-form तालिका में रूपांतरण करने वाला छोटा-सा पाइपलाइन समझने, जाँचने और दोबारा उपयोग करने में आसान होता है।

मुख्य बातें

दो-चरणीय reshape अपनाएँ: पहले डिक्शनरी keys को कॉलम की तरह संरेखित करके डेटा को wide बनाइए, फिर stack के साथ long जाएँ ताकि हर key–value जोड़ी के लिए एक पंक्ति निकले। अंत में keys को एक कॉलम के रूप में दिखाएँ, अर्थपूर्ण कॉलम नाम दें, और दोहराव को हटा दें। यह क्रम एक भरोसेमंद id और schedule_name मैपिंग देता है, जिसे आप निश्चिंत होकर अपने pandas वर्कफ़्लो के आगे जोड़ सकते हैं।

json pandas python