Только писать что-то самому или пытаться регулярными выражениями подчистить и пихать в ексель... тяжело сказать без самого файла, но софт для этого не встречал
Не хочу давать глупых советов, но может есть смысл смотреть в другую сторону - или буст на хостинге (некоторые такое позволяют, на пару часов включают аккаунт на максималки) или использовать средство импорта, похожее на sypex dumper, он такие большие файлы хавает на ура
в общем, попросил сына, он за 10 минут на питоне разобрал. можно было не терять полдня на поиск приблуды, оказывается <img height="16" width="16" alt="🤣" referrerpolicy="origin-when-cross-origin" src="https://static.xx.fbcdn.net/images/emoji.php/v9/t52/1/16/1f923.png">
XPath - так себе решение, чтобы обрабатывать XML. Он все-таки чтобы из HTML быстро вытаскивать нужные данные по шаблону. А для работы с XML уже есть готовое решение.
Comments