輿情行業(yè)一個(gè)很大的難點(diǎn)其實(shí)是輿情事件的定義,這個(gè)“定義”指的并不是概念上的,而是信息技術(shù)上的。所謂輿情分析,就是針對(duì)某一事件大量 掌握了網(wǎng)絡(luò)信息資源(包括媒體輿論報(bào)道、主流網(wǎng) 站發(fā)布、論壇持續(xù)關(guān)注、微博、微信廣泛轉(zhuǎn)發(fā)、大 V 或有一定身份的公眾人物、事件當(dāng)事人發(fā)聲等)的 基礎(chǔ)上遵循一定的理論規(guī)律、充分利用科學(xué)的方法、技術(shù)手段和信息化工具對(duì)采集到的內(nèi)容進(jìn)行 梳理運(yùn)用抽樣、分類等形式對(duì)該事件做出一個(gè) 全面的、綜合性的評(píng)價(jià)同時(shí)能夠及時(shí)預(yù)測(cè)事件的 發(fā)展態(tài)勢(shì)形成輿情分析報(bào)告并提出合理化的建議以供決策.
那么,輿情分析的流程可以大概分為,信息獲取-信息清洗-數(shù)據(jù)統(tǒng)計(jì)型分析-數(shù)據(jù)挖掘型分析-得出用于支持決策的結(jié)論或深加工數(shù)據(jù)。在輿情系統(tǒng)的社會(huì)化宏觀分析,即常規(guī)監(jiān)測(cè)中,通常只是對(duì)關(guān)鍵詞進(jìn)行大規(guī)模監(jiān)測(cè)以獲取最粗的線索,在這一步關(guān)鍵詞之間通常只是或的關(guān)系,并且數(shù)量大,也就是監(jiān)測(cè)結(jié)果成百上千,導(dǎo)致人工二次研判分析的任務(wù)量和難度都不小。但是常規(guī)監(jiān)測(cè)只是線索發(fā)現(xiàn),也就是大海撈針,對(duì)召回率和準(zhǔn)確率都有容忍度,而事件分析則不同,對(duì)兩項(xiàng)數(shù)值都有較高的要求,否則分析的結(jié)果可能會(huì)差別巨大。
然而市面上絕大多數(shù)的輿情系統(tǒng)的專題監(jiān)測(cè)(一般專題監(jiān)測(cè)、事件監(jiān)測(cè)、主題監(jiān)測(cè)功能都類似)的現(xiàn)狀是什么樣子呢?對(duì)于計(jì)算機(jī)系統(tǒng),通常從宏觀來(lái)說(shuō),就是輸入-計(jì)算-輸出,所有功能基本都離不開(kāi)這個(gè)簡(jiǎn)單的邏輯。所謂事件監(jiān)測(cè)也是如此,輸入指用哪些條件來(lái)圈定事件,計(jì)算指對(duì)符合前述設(shè)定條件的數(shù)據(jù)做什么計(jì)算,輸出則是以何種形式展示什么數(shù)據(jù)已提供結(jié)果給用戶。目前大多數(shù)國(guó)內(nèi)輿情系統(tǒng)的現(xiàn)狀是:
事件監(jiān)測(cè)輸入條件-現(xiàn)狀:支持多組關(guān)鍵詞,每組間支持多個(gè)關(guān)鍵詞,類似搜索引擎,但是組的數(shù)量更多,最終形成復(fù)雜的查詢語(yǔ)句,并且關(guān)鍵詞會(huì)在搜索引擎或特定網(wǎng)站中進(jìn)行檢索和收錄以提高召回率。時(shí)間維度,可以限定時(shí)間范圍,通常以發(fā)布時(shí)間為準(zhǔn)。數(shù)據(jù)范圍,可以限定哪些網(wǎng)站或平臺(tái)來(lái)源。附加條件,例如詞距離值,對(duì)標(biāo)題和正文的匹配傾向,主體詞、事件詞、地域等限制條件。
事件監(jiān)測(cè)數(shù)據(jù)計(jì)算-現(xiàn)狀:通常,關(guān)鍵詞進(jìn)入系統(tǒng)后,會(huì)先在目前的數(shù)據(jù)庫(kù)(一般是ES)中進(jìn)行查找,找到符合的數(shù)據(jù)并展現(xiàn)。但是好的系統(tǒng)會(huì)同時(shí)啟用多種手段提高數(shù)據(jù)召回率,例如搜索引擎、特定渠道的文章搜索等等。每篇文章都會(huì)進(jìn)行細(xì)致的NLP語(yǔ)義分析以用于更詳細(xì)的挖掘用,但是由于算力和技術(shù)問(wèn)題,大部分NLP計(jì)算都用于標(biāo)簽分類、實(shí)體提取、依存文法關(guān)系、情感分析等基本提取上了,并沒(méi)有形成很好的協(xié)同效應(yīng)。
事件監(jiān)測(cè)輸出-現(xiàn)狀:目前由于各方面成本限制,大部分市面產(chǎn)品主要以統(tǒng)計(jì)性圖表輸出為主,包括日數(shù)據(jù)量曲線圖、來(lái)源分布柱狀圖、傳播路徑樹(shù)形圖等。
這就是目前的大概現(xiàn)狀,這樣導(dǎo)致的問(wèn)題是什么呢?一個(gè)事件在網(wǎng)絡(luò)上傳播的版本會(huì)很多,標(biāo)題和正文都會(huì)有很大的變化,所以直接找出他們的共性是很難的,通過(guò)定義關(guān)鍵詞規(guī)則,實(shí)際上是將其中最大的共性找出來(lái),但是詞向量間關(guān)系無(wú)法詳細(xì)定義,關(guān)鍵詞規(guī)則目前都是布爾表達(dá)式,也就是與或非關(guān)系,僅此而已了。這就各項(xiàng)指標(biāo)極大地受制于關(guān)鍵詞規(guī)則設(shè)置的水平高低,非常不穩(wěn)定。召回率指標(biāo)在設(shè)置關(guān)鍵詞范圍廣的時(shí)候,會(huì)很高,但是監(jiān)測(cè)到的無(wú)用數(shù)據(jù)也會(huì)很多,需要篩選出來(lái);而準(zhǔn)確率則完全依賴關(guān)鍵詞規(guī)則,一字之差都可能導(dǎo)致大幅度降低甚至驢唇不對(duì)馬嘴的情況發(fā)生。而這一切已經(jīng)成為行業(yè)通病,卻無(wú)力突破。
一種可能性的嘗試是通過(guò)事件文章出發(fā),首先可以被認(rèn)為的是,當(dāng)輸入一篇文章,這篇文章是人工篩選的,可被認(rèn)為是100%匹配該事件的文章,那么系統(tǒng)把它作為輸入開(kāi)始匹配全庫(kù)數(shù)據(jù)內(nèi)所有與該文章近似,或相關(guān)的文章,所有結(jié)果集在某個(gè)閾值之下,均視為該事件的相關(guān)文章。這樣的話,就可以得到關(guān)于該事件的一個(gè)文章集合,每一個(gè)輸入該集合的新文章,就像新的節(jié)點(diǎn)一樣,可以擴(kuò)散并發(fā)散找到和它非常近似的文章。這樣的話,該事件的監(jiān)測(cè)的準(zhǔn)確率會(huì)高的驚人,完全用閾值來(lái)調(diào)控便可。唯一的問(wèn)題是召回率,但是通過(guò)不停輸入人工發(fā)現(xiàn)的新文章,并且通過(guò)算法技術(shù)擴(kuò)充已有文章的關(guān)聯(lián)文章,可以更好地提高召回率。例如,通常事件網(wǎng)絡(luò)剛發(fā)布的時(shí)候,文章版本只有幾種,很容易統(tǒng)計(jì)出來(lái)詞之間的關(guān)聯(lián),尤其是主題、地域、人名、組織和描述關(guān)系,但是后續(xù)出現(xiàn)的文章開(kāi)始變體,描述關(guān)系也開(kāi)始變化,這個(gè)時(shí)候則需要利用算法,發(fā)現(xiàn)主體間的關(guān)聯(lián),通過(guò)隱性知識(shí)而非人工提煉的顯性知識(shí)來(lái)表達(dá)這個(gè)事件。最終通過(guò)算法總結(jié)并生成檢索語(yǔ)句,從庫(kù)內(nèi)發(fā)現(xiàn)事件關(guān)聯(lián)文章。這樣的話,事件監(jiān)測(cè)便不再依賴關(guān)鍵詞的組合了,轉(zhuǎn)化為更高階的輸入條件。而且這個(gè)條件應(yīng)該是動(dòng)態(tài)迭代的,隨著事件的發(fā)酵,條件不能一成不變,要跟上變化。