Текст как данные: автоматизируем формирование контента

Случалось ли вам штудировать объемный документ, чтобы извлечь из него немного нужной информации? Текст наполнен данными, но они в нем зарыты, как игрушки в песочнице. Быстро найти эти данные и затем представить их в удобной форме бывает непросто. Например, у вас есть подробное описание всех компонентов какой-нибудь системы и вам нужно наглядно показать, как они связаны между собой. На схеме или в таблице. Обычно такие задачи приходится решать вручную: читаем текст, выписываем нужное и придаем найденной информации нужный вид. Но есть и хорошие новости. Если для представления текста использовать структурированный формат (например DITA), то можно автоматически извлекать из него данные, а затем формировать из них нужный текст или даже графические элементы.

Я расскажу о собственных подходах к автоматизации формирования контента и приведу примеры реальных проектов, в которых они использовались. Нанесем еще один удар по ненавистному копипейсту и сократим объем рутинной работы.