Diffbot собирают самый крупный граф знаний интернета. Система получает html-код веб-страницы, анализирует текстовые и визуальные данные и дополняет существующий граф. Граф перестраивается каждые 5 дней. Каждый месяц к графу добавляется 150 миллионов новых ассоциаций формата субъект-действие-объект.
Граф знаний, который собирает система от Diffbot, охватывает более 10 миллиардов единиц (люди, компании, продукты, местоположения и т.п.). Всего данных об этих объектах в графе — триллион бит.
Система классифицирует изображения веб-страниц на 20 категорий, описывающих содержание веб-страницы. Среди категорий — новости, обсуждения и фото. Кроме того, система анализирует текстовые данные на наличие связей формата: субъект-действие-объект. Распознанные связи добавляются в граф. Граф уже содержит данные о связях для 98% контента в интернете почти на 50 языках. Среди пользователей системы — более 400 компаний, включая такие компании, как Adidas, Nasdaq и Snap.
Графы знаний уже используются в Google Поиске, однако только для сущностей, которые чаще всего ищут. В Diffbot хотели расширить базу знаний о содержании интернета.