Бюджет:
2000 руб
Есть частотный словарь русского языка и анализируемый текст в котором нужно выделить жирным те слова, которых нет в частотном словаре. Так как слова в словаре в исходном значении (не измененные), то анализируемый текст нужно сначала лемматизировать. Но на выходе слова не должны быть лемматизированы.
Примерно так, но вместо 3 слов в preg_replace список из 50 тысяч слов и результат инвертировать (сейчас выделяются те, что есть в словаре, а надо наоборот):
$str = "Этот частотный словарь содержит сведения о наиболее употребительных словах современного русского языка. Он создан на основе Национального корпуса русского языка, авторитетного и представительного электронного ресурса.";
echo $str=preg_replace("/(словарь|языка|ресурс)/i","< b>\1</b>",$str);