https://pytroubles.com/hi/posts/id474-long-paarsing-luk-bihaaindd-vinddo-se-truck-puurv-maarkr-nikaalen

लॉग पार्सिंग: लुक-बिहाइंड विंडो से truck पूर्व मार्कर निकालें

दो लाइन पीछे देखकर truck से जुड़े मार्कर निकालें (Python)

लॉग पार्सिंग: लुक-बिहाइंड विंडो से truck पूर्व मार्कर निकालें

अर्ध-संरचित लॉग्स से truck मिलान पर दो लाइन पहले आने वाला तीसरा टोकन कैसे निकालें: लुक-बिहाइंड स्लाइडिंग विंडो, deque और Python के साथ सटीक, एक-पास समाधान, उदाहरण सहित।

2025-10-04T19:32:13+03:00

अर्ध-संरचित लॉग्स को पार्स करते समय अक्सर किसी मिलान के संदर्भ में पीछे या आगे देखना पड़ता है। यहाँ काम पूरी तरह सटीक है: हर वह पंक्ति ढूँढें जहाँ दूसरा टोकन truck के बराबर हो, और फिर उससे दो पंक्तियाँ पहले आने वाली लाइन से तीसरा टोकन निकालें। इनपुट एक साधारण टेक्स्ट फ़ाइल है जिसमें प्लस साइन वाली लाइनों से अलग-अलग वैल्यू-ब्लॉक विभाजित हैं, और अपेक्षित आउटपुट उन मार्कर वैल्यूज़ की सूची है जो मिलान वाली पंक्तियों से दो लाइन ऊपर होती हैं।समस्या की रूपरेखाऐसा इनपुट होने पर हमें beta और delta लौटाने हैं, क्योंकि truck दोनों बार उन मार्करों के ठीक दो लाइनों बाद आता है:apples grapes alpha pears chicago paris london yellow blue red +++++++++++++++++++++ apples grapes beta pears chicago paris london car truck van +++++++++++++++++++ apples grapes gamma pears chicago paris london white purple black +++++++++++++++++++ apples grapes delta pears chicago paris london car truck van प्रारंभिक प्रयास (और वह क्यों पर्याप्त नहीं)आम तौर पर हम फ़ाइल स्कैन करके उन पंक्तियों को इकट्ठा करने से शुरू करते हैं जिनमें दूसरा टोकन truck के बराबर है, और फिर उन्हें pandas DataFrame में डाल देते हैं। लेकिन यह तरीका सिर्फ़ मिलान हुई लाइनों को समेटता है, उन वैल्यूज़ को नहीं जो उनसे दो लाइन पहले हैं। यानी आवश्यक संदर्भ विंडो बची ही नहीं रहती।import pandas as pd rows_buffer = [] with open('input.txt', 'r') as fh: for record in fh: tokens = record.split() if len(tokens) > 1 and tokens[1] == "truck": rows_buffer.append(tokens) frame = pd.DataFrame(rows_buffer) print(frame.to_string) यह केवल मिलान वाली पंक्तियों को इकट्ठा करता है। दो लाइन ऊपर से तीसरा टोकन निकालने के लिए पढ़ते समय ही लाइनों पर एक लुक-बिहाइंड विंडो बनाए रखना होगा।असल में हो क्या रहा हैयह आवश्यकता पूरी तरह स्थितिगत और सापेक्ष है। जब वर्तमान पंक्ति का दूसरा टोकन truck होता है, तब हमें जिस वैल्यू की ज़रूरत है, वह दो पंक्तियाँ पहले वाली लाइन के तीसरे टोकन में रहती है। इसलिए इटरेशन के दौरान हाल की लाइनों का एक स्लाइडिंग विंडो संभालकर रखना ज़रूरी है। बाद में सीधे DataFrame में पंक्तियाँ चुन लेने से काम नहीं चलेगा, जब तक आस-पास का संदर्भ भी न रखा जाए।लुक-बिहाइंड विंडो के साथ सटीक समाधानइसे लागू करने का संक्षिप्त और भरोसेमंद तरीका है कि हम एक निश्चित आकार का स्लाइडिंग बफ़र रखें जो हमेशा पिछली तीन लाइनें संजोए। जैसे ही किसी पंक्ति में दूसरा टोकन truck दिखे, हम बफ़र की सबसे पुरानी एंट्री पर वापस देखते हैं और अगर तीसरा टोकन मौजूद हो तो उसे निकाल लेते हैं। जिन पंक्तियों में टोकन कम हैं (जैसे सिर्फ़ प्लस साइन वाली सेपरेटर लाइनें), उन्हें मिलान के लिए छोड़ देना चाहिए ताकि गलत संकेत न मिलें।#!/usr/bin/env python import sys from collections import deque def run(): if len(sys.argv) < 2: print("Usage: script_runner.py inputPath", file=sys.stderr) sys.exit(1) LOOKBACK = 3 ring = deque(maxlen=LOOKBACK) hits = [] with open(sys.argv[1], 'r') as src: for entry in src: parts = entry.strip().split() if len(parts) < 2: # मिलान के लिए पर्याप्त फ़ील्ड नहीं; अप्रासंगिक पंक्ति ring.append(entry) continue ring.append(entry) if len(ring) == LOOKBACK and parts[1] == "truck": target_line = ring[0] target_parts = target_line.split() if len(target_parts) >= 3: hits.append(target_parts[2]) if hits: print(hits) # वैकल्पिक: परिणाम को DataFrame में बदलें # import pandas as pd # df_out = pd.DataFrame(hits, columns=['lookbehind']) # print(df_out) if __name__ == "__main__": run() दिए गए इनपुट पर यह ['beta', 'delta'] प्रिंट करता है, जो अपेक्षित आउटपुट से मेल खाता है। रिंग बफ़र ठीक वही संदर्भ बनाए रखता है जिसकी हमें ज़रूरत है, और “दो लाइन ऊपर” देखना सरल और सुरक्षित बन जाता है।यह क्यों महत्वपूर्ण हैलाइन-आधारित प्रोसेसिंग में अक्सर निरपेक्ष इंडेक्स नहीं, बल्कि सापेक्ष स्थिति मायने रखती है: पेलोड से पहले आने वाले हेडर, पिछले सेक्शनों का सार बताने वाले ट्रेलर, या इस उदाहरण में truck जैसी सेंटिनल लाइनें। एक सरल और निर्धारक लुक-बिहाइंड तंत्र असंतुलन से बचाता है और बाद में नाज़ुक इंडेक्सिंग की ज़रूरत नहीं पड़ने देता। साथ ही, मिलान से पहले टोकन की गिनती जाँचकर यह तंत्र ख़राब या अप्रासंगिक पंक्तियों को स्वाभाविक रूप से छोड़ देता है।मुख्य सीखजब आवश्यकता लाइनों के बीच सापेक्ष स्थिति पर निर्भर हो, तो पढ़ते समय एक छोटी स्लाइडिंग विंडो में संदर्भ बनाए रखें। इससे अनावश्यक बड़े इन-मेमोरी स्ट्रक्चर जल्दी बनाने की ज़रूरत नहीं पड़ती और एक ही पास में ठीक वही निकाला जा सकता है जिसकी ज़रूरत है। यदि बाद में DataFrame चाहिए, तो स्ट्रीमिंग के बाद निकाली गई वैल्यूज़ की सूची को रूपांतरित कर लें।

लॉग पार्सिंग, लुक-बिहाइंड, स्लाइडिंग विंडो, deque, Python, truck टोकन, टेक्स्ट फ़ाइल, स्ट्रीमिंग प्रोसेसिंग, रिंग बफ़र, pandas DataFrame, पैटर्न मैचिंग

2025

2025, Oct 04 19:32

दो लाइन पीछे देखकर truck से जुड़े मार्कर निकालें (Python)

समस्या की रूपरेखा

ऐसा इनपुट होने पर हमें beta और delta लौटाने हैं, क्योंकि truck दोनों बार उन मार्करों के ठीक दो लाइनों बाद आता है:

apples    grapes    alpha   pears
chicago paris london 
yellow    blue      red
+++++++++++++++++++++
apples    grapes    beta   pears
chicago paris london 
car   truck  van
+++++++++++++++++++
apples    grapes    gamma   pears
chicago paris london 
white  purple   black
+++++++++++++++++++
apples    grapes    delta   pears
chicago paris london 
car   truck  van

प्रारंभिक प्रयास (और वह क्यों पर्याप्त नहीं)

आम तौर पर हम फ़ाइल स्कैन करके उन पंक्तियों को इकट्ठा करने से शुरू करते हैं जिनमें दूसरा टोकन truck के बराबर है, और फिर उन्हें pandas DataFrame में डाल देते हैं। लेकिन यह तरीका सिर्फ़ मिलान हुई लाइनों को समेटता है, उन वैल्यूज़ को नहीं जो उनसे दो लाइन पहले हैं। यानी आवश्यक संदर्भ विंडो बची ही नहीं रहती।

import pandas as pd
rows_buffer = []
with open('input.txt', 'r') as fh:
    for record in fh:
        tokens = record.split()
        if len(tokens) > 1 and tokens[1] == "truck":
            rows_buffer.append(tokens)
frame = pd.DataFrame(rows_buffer)
print(frame.to_string)

यह केवल मिलान वाली पंक्तियों को इकट्ठा करता है। दो लाइन ऊपर से तीसरा टोकन निकालने के लिए पढ़ते समय ही लाइनों पर एक लुक-बिहाइंड विंडो बनाए रखना होगा।

असल में हो क्या रहा है

यह आवश्यकता पूरी तरह स्थितिगत और सापेक्ष है। जब वर्तमान पंक्ति का दूसरा टोकन truck होता है, तब हमें जिस वैल्यू की ज़रूरत है, वह दो पंक्तियाँ पहले वाली लाइन के तीसरे टोकन में रहती है। इसलिए इटरेशन के दौरान हाल की लाइनों का एक स्लाइडिंग विंडो संभालकर रखना ज़रूरी है। बाद में सीधे DataFrame में पंक्तियाँ चुन लेने से काम नहीं चलेगा, जब तक आस-पास का संदर्भ भी न रखा जाए।

लुक-बिहाइंड विंडो के साथ सटीक समाधान

इसे लागू करने का संक्षिप्त और भरोसेमंद तरीका है कि हम एक निश्चित आकार का स्लाइडिंग बफ़र रखें जो हमेशा पिछली तीन लाइनें संजोए। जैसे ही किसी पंक्ति में दूसरा टोकन truck दिखे, हम बफ़र की सबसे पुरानी एंट्री पर वापस देखते हैं और अगर तीसरा टोकन मौजूद हो तो उसे निकाल लेते हैं। जिन पंक्तियों में टोकन कम हैं (जैसे सिर्फ़ प्लस साइन वाली सेपरेटर लाइनें), उन्हें मिलान के लिए छोड़ देना चाहिए ताकि गलत संकेत न मिलें।

#!/usr/bin/env python
import sys
from collections import deque
def run():
    if len(sys.argv) < 2:
        print("Usage: script_runner.py inputPath", file=sys.stderr)
        sys.exit(1)
    LOOKBACK = 3
    ring = deque(maxlen=LOOKBACK)
    hits = []
    with open(sys.argv[1], 'r') as src:
        for entry in src:
            parts = entry.strip().split()
            if len(parts) < 2:
                # मिलान के लिए पर्याप्त फ़ील्ड नहीं; अप्रासंगिक पंक्ति
                ring.append(entry)
                continue
            ring.append(entry)
            if len(ring) == LOOKBACK and parts[1] == "truck":
                target_line = ring[0]
                target_parts = target_line.split()
                if len(target_parts) >= 3:
                    hits.append(target_parts[2])
    if hits:
        print(hits)
        # वैकल्पिक: परिणाम को DataFrame में बदलें
        # import pandas as pd
        # df_out = pd.DataFrame(hits, columns=['lookbehind'])
        # print(df_out)
if __name__ == "__main__":
    run()

दिए गए इनपुट पर यह ['beta', 'delta'] प्रिंट करता है, जो अपेक्षित आउटपुट से मेल खाता है। रिंग बफ़र ठीक वही संदर्भ बनाए रखता है जिसकी हमें ज़रूरत है, और “दो लाइन ऊपर” देखना सरल और सुरक्षित बन जाता है।

यह क्यों महत्वपूर्ण है

लाइन-आधारित प्रोसेसिंग में अक्सर निरपेक्ष इंडेक्स नहीं, बल्कि सापेक्ष स्थिति मायने रखती है: पेलोड से पहले आने वाले हेडर, पिछले सेक्शनों का सार बताने वाले ट्रेलर, या इस उदाहरण में truck जैसी सेंटिनल लाइनें। एक सरल और निर्धारक लुक-बिहाइंड तंत्र असंतुलन से बचाता है और बाद में नाज़ुक इंडेक्सिंग की ज़रूरत नहीं पड़ने देता। साथ ही, मिलान से पहले टोकन की गिनती जाँचकर यह तंत्र ख़राब या अप्रासंगिक पंक्तियों को स्वाभाविक रूप से छोड़ देता है।

मुख्य सीख

जब आवश्यकता लाइनों के बीच सापेक्ष स्थिति पर निर्भर हो, तो पढ़ते समय एक छोटी स्लाइडिंग विंडो में संदर्भ बनाए रखें। इससे अनावश्यक बड़े इन-मेमोरी स्ट्रक्चर जल्दी बनाने की ज़रूरत नहीं पड़ती और एक ही पास में ठीक वही निकाला जा सकता है जिसकी ज़रूरत है। यदि बाद में DataFrame चाहिए, तो स्ट्रीमिंग के बाद निकाली गई वैल्यूज़ की सूची को रूपांतरित कर लें।

pandas python