2025, Dec 20 21:02

Невидимый неразрывный пробел U+00A0 снизил метрику SequenceMatcher

Реальный кейс: почему difflib.SequenceMatcher внезапно стал давать меньший ratio для одинаковых на вид строк. Причина — U+00A0 из OpenAI API и нормализация.

Когда показатель схожести внезапно меняется без каких‑либо обновлений кода или окружения, кажется, будто почва ушла из‑под ног. Этот разбор описывает реальный случай, когда Python‑класс difflib.SequenceMatcher начал выдавать более низкий коэффициент для тех же строк — и всё свелось к одному невидимому символу. В алгоритме нет тайны. Изменились входные данные.

Контекст и симптом

Система сравнивала две короткие строки с помощью difflib.SequenceMatcher. До определённого момента одно и то же сравнение стабильно проходило внутренний порог. После — и в разработке, и в продакшне, на Windows и Unix‑хостах — метрика упала, и проверка стала проваливаться. Никаких релизов, обновлений зависимостей или правок конфигурации не было. Единственная внешняя деталь: одна из строк приходила из OpenAI API.

База: фрагмент сравнения

Суть логики минимальна и предсказуема. Она считает долю совпадений строго по переданным последовательностям.

from difflib import SequenceMatcher as SM

similarity_score = SM(
    None,
    transcript_clean,
    expected_clean
).ratio()

Что произошло на самом деле

Алгоритм не менялся. Окружение не менялось. Поменялись входы. Строка из API транскрипции OpenAI стала содержать НЕРАЗРЫВНЫЙ ПРОБЕЛ (U+00A0) вместо обычного пробела (U+0020). Визуально эти символы часто неотличимы, но это разные кодовые точки. Поскольку SequenceMatcher детерминирован и работает с точными последовательностями, разные байты — это реальное расхождение, и итоговый коэффициент это отражает.

«Он полностью автономен и чисто функционален (результаты зависят только от переданных последовательностей). Ему ничего не известно о времени, платформе выполнения или любом другом окружении…»

Именно поэтому оценка снизилась. Входные данные разошлись на уровне Unicode‑кодпоинтов, хотя для человека строки выглядели одинаково. Как только API транскрипции стало возвращать U+00A0, сопоставитель закономерно увидел больше несовпадений и снизил балл.

Как воспроизвести эффект

Тот же эффект видно на минимальном примере, где строки различаются только видом пробела.

from difflib import SequenceMatcher as SM

left = "Hello\u00A0world"   # НЕРАЗРЫВНЫЙ ПРОБЕЛ между словами
right = "Hello world"       # обычный пробел

print(SM(None, left, right).ratio())

Хотя строки выглядят одинаково, коэффициент ниже, чем если бы обе использовали один и тот же тип пробела.

Исправление: нормализовать вход с U+00A0

Если в конвейере важен стабильный порог схожести, очистите строки перед сравнением, сопоставив U+00A0 с U+0020. Так сохраняется смысл для человека и выравниваются базовые кодовые точки.

from difflib import SequenceMatcher as SM

def strip_nbsp(x: str) -> str:
    return x.replace("\u00A0", " ")

left_norm = strip_nbsp(transcript_clean)
right_norm = strip_nbsp(expected_clean)

similarity_score = SM(None, left_norm, right_norm).ratio()

Эта правка адресует ровно наблюдаемую причину: в строку для сравнения просачивается НЕРАЗРЫВНЫЙ ПРОБЕЛ. Остальная логика остаётся прежней.

Почему это важно

Unicode — палка о двух концах в промышленной обработке текста. Две строки, одинаковые на глаз, могут отличаться набором кодовых точек, формами нормализации или семантикой пробелов. Когда дальнейшая логика опирается на детерминированные метрики схожести, на вид безобидная разница между U+00A0 и U+0020 способна сдвинуть порог решения. В нашем случае алгоритм сработал безупречно; просто входы стали не теми, что раньше. Выход — стандартизировать те входные данные, которые критичны для бизнес‑правил.

Практические выводы

Относитесь к метрикам схожести как к чистым функциям от входов и не делайте предположений об источниках. Если оценка изменилась без правок кода, проверьте точные кодовые точки сравниваемых строк. Когда источником служит API, будьте готовы к тонким изменениям, которые сохраняют читаемость для человека, но меняют машинную интерпретацию. Небольшой, целенаправленный шаг нормализации — например, преобразование U+00A0 в обычный пробел перед сравнением — возвращает стабильность, не искажая смысл текста.

Итог

difflib.SequenceMatcher не регрессировал и не зависит от времени, платформы или окружения; он лишь отражает переданные последовательности. Быстрое решение — заменить НЕРАЗРЫВНЫЙ ПРОБЕЛ (U+00A0) на обычный (U+0020) во входных данных, полученных из API транскрипции OpenAI, перед вызовом .ratio(). Сохраняйте пороги, сохраняйте сравнения — и фиксируйте невидимые различия там, где это важно, в коде.

difflib openai-api python sequencematcher