Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

能否将讽刺站点和政治新闻站点从「假新聞網站清單」中去除?或者单列清单 #39

Open
ghost opened this issue Mar 16, 2020 · 9 comments

Comments

@ghost
Copy link

ghost commented Mar 16, 2020

可以理解 theonion.com 这种幽默讽刺性质的网站被收录,但是我发现 theintercept.com 这家获得过美国国家杂志奖和威比奖的知名媒体也被标记为“假新闻”。
希望对于讽刺站点和政治新闻站点可以单例清单,或者直接去除。
另外对于假新闻网站清单可以参照这个项目

@danny0838
Copy link
Owner

就如說明所述,假新聞網站清單目前只是簡單合併幾個外國來源,僅供備查。我們目前還未有對於「假新聞網站」的明確方針。這個可能還待集思廣義。

@liyishuai
Copy link

There are finite tags in fake-news.txt:

grep -o "//[a-z]*" fake-news.txt | sort --unique

//bias
//blog
//clickbait
//conspiracy
//fake
//hate
//junksci
//junkscience
//parody
//political
//reliable
//rumor
//satire
//satirical
//state
//unknown
//unrealiable
//unreliable

Maybe worth deduplicating the tags, and creating a separate file for each tag.

@liyishuai
Copy link

liyishuai commented Feb 4, 2022

One step further: Consider customizing labels for different blocking rules? Now I need to look up the domain in fake-news.txt to see why it was blocked (also mentioned in #53 #55 #59).

@danny0838
Copy link
Owner

目前的問題是我們根本沒多的心力去深入研究。

裡面的幾個來源網站現在已經關了,我們並不很清楚那些 tag 的具體定義,即便定義出來了,如何做相關查核,要切成幾個子清單也都是不好解決的問題。

目前這些資料就是先整理出來供有興趣的人研究,歡迎有志者自己弄一個版本庫處理,我們再評估看看能否幫忙推廣。

@gqqnbig
Copy link

gqqnbig commented Jun 4, 2024

你好,我這裡有相關的網站屏蔽規則 https://github.com/gqqnbig/news-media-blocking/blob/master/list.txt

我這裡不收集新聞自由度墊底50名國家的網站。所以中國的網站是被排除的。

對於其他網站,有如下規則:

  • image of text, missing references 圖片形式的文字、缺少來源(或者用圖片代替來源,如給一張twitter的截圖,而沒有鏈接)
  • fog (emotional), dark pattern 情緒勒索:如“狠心關閉”,“忍痛拒絕”。
  • clickbait, in particular pronoun in title. 釣魚標題、吸睛標題,尤其反對用“他”或“這”。比如:柯文哲做了件事 民調下降10%
  • infringement on intellectual property 侵犯智慧產權:主要體現在youtube channel講電影、翻譯外國影片,而不提及該電影的名字。

@danny0838
Copy link
Owner

@gqqnbig 謝謝,不過目前看起來資料量太少了,而且 branch 太多,看不太懂。

@gqqnbig
Copy link

gqqnbig commented Jun 4, 2024

資料量確實少,是我自己收集的嘛。branch的話,因為我有給網站發警告,再犯就merge branch to master。

@danny0838
Copy link
Owner

@gqqnbig 你真認真,不過我不覺得多數內容農場/惡意網站會因為幾句話改變行為,除非你有特別高的身份地位XD

而且你的名單看起來像是 uBO 的格式,我們也不是很方便直接使用。

@gqqnbig
Copy link

gqqnbig commented Jun 6, 2024

因為你前面說沒有針對「假新聞網站」的明確方針,所以我分享一下我自己對於一般性新聞媒體的標準,拋磚引玉啦。

而且我們也不是特別喜歡屏蔽網站;我們目的是為了互聯網健康發展。所以我才發封郵件意思一下,提醒一下,醜二才封,然後比如兩年後解封。

反正沒有要你用我的專案啦,給你點思路而已。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants