>>3364400
Ну я попробовал это на некоторой выборке писателей, результаты неудовлетворительные, хуле тут ещё скажешь-то. В принципе это и не удивительно, что какой-нибудь Александр Александров (634,000) даёт больше результатов чем Харуки Мураками (434,000). Можно искать каждую отдельную книгу, но это, опять же, весьма объёмно по времени и есть основания сомневаться, что результативно (даже на поиск по одним только писателям займёт по моим прикидкам около 15 часов).
>>3364407
То, что ты описываешь, это несколько неуклюжая реализация фильтра Байеса. Фильтр Байеса сам по себе хорошо работать не будет, потому что, образно выражаясь, не всё то золото, что блестит. Да, у меня мелькала мысль запилить машинное обучение на основе контента, но это идея не без недостатков. Во-первых, это уже довольно трудоёмко, как по времени написания, так и (тем более) по времени обработки. Это ж грёбаные 500 Гб в несжатом виде, порядочная часть — в какой-нибудь убогой кодировке вроде cp1251. Во-вторых, хорошо бы для начала определиться тогда с тем, что точно не хлам, а я не могу так вот сразу вспомнить всех достойных хранения писателей, нужен какой-то список, который я не знаю, где достать.