Signals Processing and Interpretation: iteration 1#3
Conversation
NikitaS4
left a comment
There was a problem hiding this comment.
Работа очень понравилось! Предложены интересные идеи с аугментацией и SSL, получены результаты, сделан их анализ. Документация максимально полная, сразу понятно, что и как делать, и что для этого нужно. Обучение модели достаточно затратное (серьёзные требования к железу + долго обучать), поэтому попробовал воспользоваться предобученной моделью (очень удобно, что есть чекпойнт с весами модели, и очень подробно показано, как пользоваться). Единственное замечание - фотографии почему-то не открываются (использую Linux Ubuntu 20.10, ошибка: "Not a JPEG file: starts with 0x76 0x65"), но я думаю, это проблема на моей стороне. Хотелось бы ещё где-то в readme видеть пример работы модели (картинка, ответ и ground truth) хотя бы на конфигурации с лучшими метриками (иначе приходится качать сразу все результаты - 1.9 ГБ)
@NikitaS4 Проверь, пожалуйста, у тебя установлен Git с Git LFS? ( |
|
@zuevval Получилось решить проблему, спасибо. Сначала забыл установить Git LFS, поставил уже потом, но не знал, что надо заново клонировать репозиторий (и не думал, что проблема возникала из-за этого). Результаты работы сети вижу, здорово :) |
|
Появился вопрос по постановке задачи. Одним из пунктов было уменьшить "Чувствительность к повороту листа в горизонтальной плоскости". Казалось бы повернув на 180 градусов, получиться другая буква. Тут наверно стоило бы ввести ограничение по углу, или же указать какие-нибудь характерные черты поворота (если такие имеются). |
Действительно, подразумевался поворот на углы 30-45 градусов. AngelinaReader/model/infer_retinanet.py Lines 464 to 466 in 992b001 |
Этот Pull Request идёт вместе с braille-systems/brl_ocr / PR #1
Прочесть про работу и про эти Pull Request'ы можно в документе report_01_20_mar.md