https://pytroubles.com/hi/posts/id282-pandas-read-csv-men-aur-kaa-phrk-khaalii-sttring-bnaam-nan

pandas read_csv में "" और ,, का फर्क: खाली स्ट्रिंग बनाम NaN

CSV में "" और missing को अलग रखें: pandas read_csv के भरोसेमंद तरीके

pandas read_csv में "" और ,, का फर्क: खाली स्ट्रिंग बनाम NaN

CSV में quoted "" और missing (,,) को अलग पहचानें: pandas read_csv के साथ खाली स्ट्रिंग बनाम NaN संभालने के व्यावहारिक तरीके, कोड उदाहरण, स्टेप-बाय-स्टेप गाइड.

2025-09-29T09:32:06+03:00

जानबूझकर खाली स्ट्रिंग और CSV में अनुपस्थित मान को अलग-अलग पहचानना सुनने में आसान लगता है, पर pandas अक्सर दोनों को चुपचाप एक जैसा कर देता है। अगर आपकी फ़ाइल में "" जैसे खाली quoted फ़ील्ड और ,, जैसी सचमुच गायब प्रविष्टियाँ साथ मिल रही हों, तो सामान्यतः आप चाहेंगे कि पहला खाली स्ट्रिंग के रूप में बना रहे, जबकि दूसरा NaN में बदले। डिफॉल्ट रूप में read_csv() यह अंतर नहीं बचाता। सेटअप: पढ़ते समय क्या खो जाता है एक छोटा-सा CSV देखें, जहाँ दोनों पैटर्न साथ दिखते हैं: id,name,age 1,,"25" 2,"",3 3,John, डिफॉल्ट पार्सिंग के साथ लोड करने पर उद्धरणचिह्न मायने नहीं रखते; पार्सर संख्यात्मक प्रकारों का अनुमान लगा लेता है और खाली जगहों को NaN मान लेता है: import io import pandas as pd sample = """id,name,age 1,,"25" 2,"",3 3,John,""" frame_a = pd.read_csv(io.StringIO(sample)) print(frame_a.dtypes) # id int64 # name object # age float64 # dtype: object ऐसा क्यों होता है CSV में उद्धरणचिह्न केवल फ़ील्ड को सीमांकित करने और एस्केप करने का माध्यम हैं; वे किसी प्रकार (type) का संकेत नहीं होते। उद्धरण किसी फ़ील्ड के भीतर कॉमा या विशेष अक्षरों को रहने देते हैं, लेकिन प्रकार नहीं बदलते। इसलिए "25" आम तौर पर 25 की तरह ही पार्स होता है और संख्या समझा जाता है। इसी तरह, विभाजकों के बीच पूरी तरह खाली फ़ील्ड को missing के रूप में व्याख्यायित किया जाता है। quotechar को किसी और प्रतीक में बदलना "" को सादा स्ट्रिंग के तौर पर बचा सकता है, लेकिन जैसे ही आपको सचमुच कॉमा वाले पाठ को सुरक्षित रखने के लिए डबल कोट्स चाहिए, यह तरीका टूट जाता है। साथ ही बाद में आपको हर संबंधित स्ट्रिंग से कोट्स साफ़ करने का झंझट भी उठाना पड़ता है। व्यावहारिक तरीका: उद्धरणों की व्याख्या बंद करें, फिर सामान्यीकरण करें यदि आपके quoted फ़ील्ड में कभी भी सेपरेटर नहीं आता, तो आप फ़ाइल को quoting=3 (csv.QUOTE_NONE) के साथ पढ़ सकते हैं ताकि कोट्स को साधारण अक्षर माना जाए, और फिर सिर्फ़ object कॉलमों में आगे/पीछे के कोट्स हटा दें। इससे भेद बना रहता है: ,, NaN बनता है, जबकि "" सफाई के बाद खाली स्ट्रिंग रह जाता है। import io import pandas as pd payload = """id,name,age 1,,"25" 2,"",3 3,John,""" grid = pd.read_csv(io.StringIO(payload), quoting=3) # id name age # 0 1 NaN "25" # 1 2 "" 3 # 2 3 John NaN grid.update( grid.select_dtypes('O').apply( lambda col: col.str.replace(r'^"|"$', '', regex=True) ) ) print(grid) # id name age # 0 1 NaN 25 # 1 2 3 # 2 3 John NaN इस बिंदु पर, age में जो भी मान NaN नहीं हैं, वे स्ट्रिंग हैं, भले ही देखने में संख्या लगें: print(grid['age'].tolist()) # ['25', '3', nan] विकल्प: संख्याएँ संख्या ही रहें, और quoted स्ट्रिंग्स स्ट्रिंग ही रहें अगर आप चाहते हैं कि "25" स्ट्रिंग ही रहे, जबकि 3 संख्यात्मक बना रहे, तो पहले संख्यात्मक मानों को coercion के साथ बदलें और बाकी के लिए de-quoted टेक्स्ट पर वापस आ जाएँ: import io import pandas as pd payload = """id,name,age 1,,"25" 2,"",3 3,John,""" canvas = pd.read_csv(io.StringIO(payload), quoting=3) canvas.update( canvas.select_dtypes('O').apply( lambda col: pd.to_numeric(col, errors='coerce').combine_first( col.str.replace(r'^"|"$', '', regex=True) ) ) ) print(canvas) # id name age # 0 1 NaN 25 # 1 2 3.0 # 2 3 John NaN print(canvas['name'].tolist()) # [nan, '', 'John'] print(canvas['age'].tolist()) # ['25', 3.0, nan] महत्वपूर्ण सीमा quoting=3 वाला तरीका इस धारणा पर टिका है कि quoted फ़ील्ड में सेपरेटर नहीं आता। जैसे ही किसी quoted मान को कॉमा शामिल करने के लिए सचमुच quoting की ज़रूरत पड़ती है, यह तरीका काम नहीं करेगा: id,name,age 1,,"25" 2,",",3 3,John, ऐसी स्थितियों में, अगर आपको quoting के आधार पर प्रकार निकालने ही हैं, तो फ़ाइल को पहले से प्रोसेस करना या कस्टम पार्सर लिखना सबसे सुरक्षित रहता है। यह फर्क मायने क्यों रखता है अक्सर खाली स्ट्रिंग और missing मान के अर्थ अलग होते हैं। एनालिटिक्स, joins, validations और उपयोगकर्ताओं को जाने वाले एक्सपोर्ट — सब इस फर्क पर निर्भर कर सकते हैं। इन्गेस्ट पाइपलाइन की शुरुआत में ही इसे सुरक्षित रखना सूक्ष्म बग्स से बचाता है और बाद की रीवर्क से भी। निष्कर्ष CSV अपने आप में प्रकार की जानकारी एन्कोड नहीं करता; उद्धरण इसे नहीं बदलते। अगर आपको ,, को NaN और "" को खाली स्ट्रिंग की तरह बरतना है, तो quoting निष्क्रिय करके पढ़ें और फिर टेक्स्टुअल कॉलमों को सामान्य करें। अगर साथ ही आप संख्यात्मक फ़ील्ड को संख्या ही रखना चाहते हैं और quoted टेक्स्ट को स्ट्रिंग के रूप में, तो पहले numeric coercion लगाएँ और बाकी के लिए de-quoted टेक्स्ट अपनाएँ। जब आपका डेटा सच में डिलिमीटर्स को बचाने के लिए quotes पर निर्भर करता है, तो प्री-प्रोसेसिंग या कस्टम पार्सर की योजना बनाएँ।

pandas, read_csv, CSV, quoted fields, खाली स्ट्रिंग, missing values, NaN, quoting=3, csv.QUOTE_NONE, Python, डेटा क्लीनिंग, पार्सिंग, to_numeric, de-quote, ETL, डेटा इन्गेस्ट

2025

2025, Sep 29 09:32

CSV में "" और missing को अलग रखें: pandas read_csv के भरोसेमंद तरीके

सेटअप: पढ़ते समय क्या खो जाता है

एक छोटा-सा CSV देखें, जहाँ दोनों पैटर्न साथ दिखते हैं:

id,name,age
1,,"25"
2,"",3
3,John,

डिफॉल्ट पार्सिंग के साथ लोड करने पर उद्धरणचिह्न मायने नहीं रखते; पार्सर संख्यात्मक प्रकारों का अनुमान लगा लेता है और खाली जगहों को NaN मान लेता है:

import io
import pandas as pd
sample = """id,name,age
1,,"25"
2,"",3
3,John,""" 
frame_a = pd.read_csv(io.StringIO(sample))
print(frame_a.dtypes)
# id        int64
# name     object
# age     float64
# dtype: object

ऐसा क्यों होता है

CSV में उद्धरणचिह्न केवल फ़ील्ड को सीमांकित करने और एस्केप करने का माध्यम हैं; वे किसी प्रकार (type) का संकेत नहीं होते। उद्धरण किसी फ़ील्ड के भीतर कॉमा या विशेष अक्षरों को रहने देते हैं, लेकिन प्रकार नहीं बदलते। इसलिए "25" आम तौर पर 25 की तरह ही पार्स होता है और संख्या समझा जाता है। इसी तरह, विभाजकों के बीच पूरी तरह खाली फ़ील्ड को missing के रूप में व्याख्यायित किया जाता है।

quotechar को किसी और प्रतीक में बदलना "" को सादा स्ट्रिंग के तौर पर बचा सकता है, लेकिन जैसे ही आपको सचमुच कॉमा वाले पाठ को सुरक्षित रखने के लिए डबल कोट्स चाहिए, यह तरीका टूट जाता है। साथ ही बाद में आपको हर संबंधित स्ट्रिंग से कोट्स साफ़ करने का झंझट भी उठाना पड़ता है।

व्यावहारिक तरीका: उद्धरणों की व्याख्या बंद करें, फिर सामान्यीकरण करें

यदि आपके quoted फ़ील्ड में कभी भी सेपरेटर नहीं आता, तो आप फ़ाइल को quoting=3 (csv.QUOTE_NONE) के साथ पढ़ सकते हैं ताकि कोट्स को साधारण अक्षर माना जाए, और फिर सिर्फ़ object कॉलमों में आगे/पीछे के कोट्स हटा दें। इससे भेद बना रहता है: ,, NaN बनता है, जबकि "" सफाई के बाद खाली स्ट्रिंग रह जाता है।

import io
import pandas as pd
payload = """id,name,age
1,,"25"
2,"",3
3,John,""" 
grid = pd.read_csv(io.StringIO(payload), quoting=3)
#    id  name   age
# 0   1   NaN  "25"
# 1   2    ""     3
# 2   3  John   NaN
grid.update(
    grid.select_dtypes('O').apply(
        lambda col: col.str.replace(r'^"|"$', '', regex=True)
    )
)
print(grid)
#    id  name  age
# 0   1   NaN   25
# 1   2        3
# 2   3  John  NaN

इस बिंदु पर, age में जो भी मान NaN नहीं हैं, वे स्ट्रिंग हैं, भले ही देखने में संख्या लगें:

print(grid['age'].tolist())
# ['25', '3', nan]

विकल्प: संख्याएँ संख्या ही रहें, और quoted स्ट्रिंग्स स्ट्रिंग ही रहें

अगर आप चाहते हैं कि "25" स्ट्रिंग ही रहे, जबकि 3 संख्यात्मक बना रहे, तो पहले संख्यात्मक मानों को coercion के साथ बदलें और बाकी के लिए de-quoted टेक्स्ट पर वापस आ जाएँ:

import io
import pandas as pd
payload = """id,name,age
1,,"25"
2,"",3
3,John,""" 
canvas = pd.read_csv(io.StringIO(payload), quoting=3)
canvas.update(
    canvas.select_dtypes('O').apply(
        lambda col: pd.to_numeric(col, errors='coerce').combine_first(
            col.str.replace(r'^"|"$', '', regex=True)
        )
    )
)
print(canvas)
#    id  name  age
# 0   1   NaN   25
# 1   2        3.0
# 2   3  John  NaN
print(canvas['name'].tolist())
# [nan, '', 'John']
print(canvas['age'].tolist())
# ['25', 3.0, nan]

महत्वपूर्ण सीमा

quoting=3 वाला तरीका इस धारणा पर टिका है कि quoted फ़ील्ड में सेपरेटर नहीं आता। जैसे ही किसी quoted मान को कॉमा शामिल करने के लिए सचमुच quoting की ज़रूरत पड़ती है, यह तरीका काम नहीं करेगा:

id,name,age
1,,"25"
2,",",3
3,John,

ऐसी स्थितियों में, अगर आपको quoting के आधार पर प्रकार निकालने ही हैं, तो फ़ाइल को पहले से प्रोसेस करना या कस्टम पार्सर लिखना सबसे सुरक्षित रहता है।

यह फर्क मायने क्यों रखता है

अक्सर खाली स्ट्रिंग और missing मान के अर्थ अलग होते हैं। एनालिटिक्स, joins, validations और उपयोगकर्ताओं को जाने वाले एक्सपोर्ट — सब इस फर्क पर निर्भर कर सकते हैं। इन्गेस्ट पाइपलाइन की शुरुआत में ही इसे सुरक्षित रखना सूक्ष्म बग्स से बचाता है और बाद की रीवर्क से भी।

निष्कर्ष

CSV अपने आप में प्रकार की जानकारी एन्कोड नहीं करता; उद्धरण इसे नहीं बदलते। अगर आपको ,, को NaN और "" को खाली स्ट्रिंग की तरह बरतना है, तो quoting निष्क्रिय करके पढ़ें और फिर टेक्स्टुअल कॉलमों को सामान्य करें। अगर साथ ही आप संख्यात्मक फ़ील्ड को संख्या ही रखना चाहते हैं और quoted टेक्स्ट को स्ट्रिंग के रूप में, तो पहले numeric coercion लगाएँ और बाकी के लिए de-quoted टेक्स्ट अपनाएँ। जब आपका डेटा सच में डिलिमीटर्स को बचाने के लिए quotes पर निर्भर करता है, तो प्री-प्रोसेसिंग या कस्टम पार्सर की योजना बनाएँ।

pandas python string