impromptu | Программерам вопрос

Маск выпер всю команду, которая идентифицировала в Твиттере консервативных райт-вингеров. А вот интересно, как можно выуживать такой алгоритм? Ну понятно, в ФБ нас в кошачьем соо банят за выражение "fat cat", идиоты - бодипозитив должон быть в отношении животных, вдруг Мурка прочтет, что хозяйка пишет о ней в сети. Или мы пишем pus@ycat, чтобы избегнуть сексуальных коннотаций, за пусси тоже дрючат. Это понятно, как написали. Но "оценку алгоритма" сложно ж как делать-то подобную.

Но как можно выуживать превалирование консервативного трепа, если не вручную мыкались теперича безработные?

И оценить превалирование? Ну, сегодня человек недоволен этим, а завтра тем. И как именно алгоритм Твиттера потакает правым? Вот как они эту оценку-то сделали уклонистскому алгоритму. Вообще что в их понимании был этот алгоритм.

Threaded | Flat

From:

paserbyp

Это очень простая задача для программирования так как создается база данных с примерами правой или левой или любой другой риторики. Затем алгоритм состоит в том, чтобы сравнивать образцы базы данных с текстом и самое главное обновлять базу данных новыми примерами риторики. На самом деле любая риторика включает в себя штампы или патерны по которым очень легко найти и определить принадлежность к крайне правой или крайне левой риторике. Например, поиск и нахождение любых паттернов связанных с конспирологическими теориями QAnon или отрицанием результатов выборов президента или скандирование лозунга MAGA говорит о наличии правой и протрампистской пропаганды.

From:

stumari

другой вопрос - я не уверен, что мы одинаково понимаем этот твит.
Мне кажется, что там написано, что Маск уволил не "команду, которая идентифицировала в Твиттере консервативных райт-вингеров"
а "команду, которая идентифицировала, что алгоритм Твиттера усиливает именно правый фланг, по сравнению со всеми остальными"

From:

juan_gandhi

Этих людей называют программистами? Ну потому что они черные, или что?

From:

kondybas

Похожий алгоритм используется и для распознавания спама в почте. Определенные слова довольно однозначно метят весь текст. Вначале, конечно, нужно вручную собрать два больших массива писем, нормальных и спамовых. Затем сделать статанализ слов в них, и каждому слову назначить "вес" в баллах. Вес может быть как положительным, так отрицательным. Каждое сообщение проверяем на наличие слов-маркеров и суммируем их веса. Если ушли в плюс - спам. В минус - норм. Разумеется, около нуля из осторожности вердикт не выносим. Так удается отлавливать 99.99% спама, пропуская к получателю 1-2 спамовых письма на тысячу входящих.

Вышеописанное - старый алгоритм. Нынче появились более изощренные. Где оцениваются веса не отдельных слов, а их комбинаций, целых идиом, в разных словоформах. Например, если фильтр можно обмануть, написав fut cut или poossicat - это старый, т.н. "байесовский" фильтр. Новые нейросетевые фильтры могут гораздо больше. Но их тоже нужно учить, и для этого как раз и нужен штат людей, которые просматривают поток сообщений, вручную метят их штемпелем "фошызм" и скармливают нейросети для дообучения.

From:

python_regius

https://www.theguardian.com/technology/2021/oct/22/twitter-admits-bias-in-algorithm-for-rightwing-politicians-and-news-outlets

"The social media platform examined tweets from elected officials in seven countries – the UK, US, Canada, France, Germany, Spain and Japan. It also studied whether political content from news organisations was amplified on Twitter, focusing primarily on US news sources such as Fox News, the New York Times and BuzzFeed.

The study compared Twitter’s “Home” timeline – the default way its 200 million users are served tweets, in which an algorithm tailors what users see – with the traditional chronological timeline where the most recent tweets are ranked first.

The research found that in six out of seven countries, apart from Germany, tweets from rightwing politicians received more amplification from the algorithm than those from the left; right-leaning news organisations were more amplified than those on the left; and generally politicians’ tweets were more amplified by an algorithmic timeline than by the chronological timeline."

Edited Date: 2022-11-05 11:29 am (UTC)

From: (Anonymous)

Если бы мне поручили делать что-то подобное, я стал бы делать на основе нейросети, это по-моему классическая задача для неё. Причём, даже программировать не пришлось бы вообще, такие нейросети уже давно существуют. Только обучить, подавая на вход тексты, отсортированные человеком по степени экстремизма.

From:

zuka

Легко, тем более, что данных в инете на оба политических направления вагон и маленькая тележка. Науськиваешь самообучающийся алгоритм на спец базу данных - и привет.
Уже есть алгоритмы, определяющие следующую кучку случайных сайтов, использующихся для определенного типа вируса, или DDOS-атаки. Политика куда проще такого специально рандомизированного и "непредсказуемого" выбора. А уж последователи любого крыла политики - еще проще.

From:

irene221b

Просто. Выбираем 100 аккаунтов, которые считаем левыми, и 100, которые правыми. И смотрим на лайки и ретвиты. Потом заключаем, что у правых больше ретвитов не потому, что они пишут задорнее, а потому что алгоритм - пособник врагов народа.