fix(pack): усечение по границе UTF-8, а не по сырому байту (паника на кириллице) by Shahinyanm · Pull Request #20 · Digital-Threads/Task-Journal

Shahinyanm · 2026-06-08T06:51:24Z

Баг

task-journal pack падал с паникой на многобайтном тексте:

thread 'main' panicked at crates/tj-core/src/pack.rs:337:26:
end byte index 2048 is not a char boundary; it is inside 'е' (bytes 2047..2049)

Усечение пакета под бюджет резало строку по сырому байтовому индексу: text[..budget].rfind('\n'). В Rust срез &str обязан попадать на границу символа — если budget (2048 для compact, 24K для full) попадал внутрь многобайтного символа, срез паниковал. Кириллица/CJK/эмодзи = 2-4 байта на символ, поэтому на русских журналах паника регулярна; на ASCII (1 байт) баг латентный — поэтому долго не всплывал.

Баг data-dependent: стреляет только когда байт на границе бюджета попадает в середину символа. Поймал на реальной задаче с длинным кириллическим телом.

Фикс

Вынес усечение в truncate_to_budget(), который перед срезом откатывает индекс на ближайшую границу символа (str::is_char_boundary, стабильный — без nightly floor_char_boundary), затем как и раньше предпочитает последний \n. Точку вызова заменил на хелпер. Поведение для ASCII не меняется.

Тесты

Два детерминированных регресс-теста:

truncate_to_budget_handles_multibyte_boundary — бюджет специально попадает внутрь 2-байтной «я» (assert!(!is_char_boundary(budget))), проверяет что нет паники и результат — валидный UTF-8;
truncate_to_budget_noop_under_budget — текст короче бюджета не трогается.

cargo test --workspace — зелёный (175 в tj-core, оба новых теста проходят). Реальная проверка: бинарь с ветки пакует кириллические задачи в обоих режимах (full — с реальным усечением) без паники.

semver patch 0.11.0 → 0.11.1, CHANGELOG обновлён.

🤖 Generated with Claude Code

pack truncation sliced the rendered text at text[..budget], panicking ("byte index N is not a char boundary") when the cutoff landed inside a multibyte char — Cyrillic/CJK/emoji journals over the pack budget. ASCII stayed safe, so it was latent. Extract truncate_to_budget() that backs up to a char boundary before slicing; add regression tests. semver patch 0.11.0 -> 0.11.1. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>

Shahinyanm merged commit f4d4f33 into main Jun 8, 2026
4 of 7 checks passed

Shahinyanm deleted the fix/pack-utf8-truncate branch June 8, 2026 07:00

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix(pack): усечение по границе UTF-8, а не по сырому байту (паника на кириллице)#20

fix(pack): усечение по границе UTF-8, а не по сырому байту (паника на кириллице)#20
Shahinyanm merged 1 commit into
mainfrom
fix/pack-utf8-truncate

Shahinyanm commented Jun 8, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

Shahinyanm commented Jun 8, 2026

Баг

Фикс

Тесты

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant