Запущен поисковый сервис findgovdata.org, предоставляющий доступ к более чем 540 тысячам наборов данных правительства США. Особенность проекта заключается в отказе от использования LLM и тяжелых векторных баз данных в пользу гибридного поиска, оптимизированного для работы на минимальных вычислительных мощностях. Система демонстрирует высокую производительность, функционируя всего на двух ядрах центрального процессора.
Техническая реализация проекта опирается на методы эффективного индексирования и поиска, которые позволяют быстро обрабатывать массивы государственных данных без необходимости в дорогостоящей инфраструктуре для инференса нейросетей. Разработчики сфокусировались на создании легковесного решения, способного обеспечить релевантную выдачу по огромному каталогу открытых данных, что делает инструмент доступным для широкого круга исследователей и аналитиков.
Этот кейс иллюстрирует возможности оптимизации поисковых систем в условиях ограниченных ресурсов. Вместо внедрения генеративных моделей для обработки запросов, авторы применили классические алгоритмы поиска, адаптированные под масштабные хранилища структурированной и неструктурированной информации. Проект показывает, что для задач поиска и классификации данных в государственном секторе зачастую достаточно эффективной архитектуры баз данных и грамотного индексирования.