客戶背景
通信發(fā)展伴生的弊端
移動通信技術(shù)的不斷發(fā)展之下,短信已經(jīng)成為人們生活中不可或缺的工具之一,但伴隨而來的垃圾短信泛濫,不但占用了電信運(yùn)營商寶貴的網(wǎng)絡(luò)資源,而且給人們的生活、工作帶來了無盡的煩惱。如何對垃圾短信進(jìn)行智能識別與實(shí)時(shí)監(jiān)測,從而提高客戶滿意度與服務(wù)質(zhì)量,成為了當(dāng)前電信行業(yè)亟待解決的問題。
不斷加劇的垃圾短信問題
在通訊信息技術(shù)不斷發(fā)達(dá)的當(dāng)今社會,短信作為一種直達(dá)用戶,成本低廉的方式,不但被越來越多的商業(yè)公司用于促銷或宣傳目的,甚至成為不法分子實(shí)施詐騙的重要手段。中國信息產(chǎn)業(yè)部報(bào)告顯示,2014年,全國移動短信業(yè)務(wù)量7630.5億條,而垃圾短信的數(shù)量就占了1/4左右,這些造成了對用戶的騷擾甚至財(cái)產(chǎn)損失的垃圾短信問題正在變得越來越嚴(yán)重。
面臨挑戰(zhàn)
增強(qiáng)垃圾短信檢測手段:挖掘垃圾短信的隱藏信息,利用更新的技術(shù)手段,提升垃圾短信防范效率。
提高垃圾短信檢測精度:傳統(tǒng)單純以字符串匹配過濾垃圾短信的方法誤檢率較高,而且事后增加關(guān)鍵詞的手段存在滯后性。
實(shí)時(shí)監(jiān)測:對短信實(shí)時(shí)監(jiān)測并完成垃圾短信的過濾,不斷降低垃圾短信到達(dá)率,提高用戶滿意度。
解決方案
部署垃圾短信實(shí)時(shí)監(jiān)測平臺:基于分布式消息隊(duì)列Kafka和流處理引擎實(shí)現(xiàn)實(shí)時(shí)的垃圾短信判斷和預(yù)警。同時(shí),結(jié)合人工確認(rèn)垃圾短信數(shù)據(jù),加入訓(xùn)練集用于機(jī)器自動學(xué)習(xí),垃圾短信判斷準(zhǔn)確率99.9%以上。
垃圾短信實(shí)時(shí)監(jiān)測平臺,實(shí)現(xiàn)垃圾短信的實(shí)時(shí)過濾:針對短信數(shù)據(jù)24小時(shí)不間斷產(chǎn)生、大規(guī)模、高并發(fā)等特點(diǎn),星環(huán)科技基于Transwarp Stream流處理計(jì)算框架研發(fā)垃圾短信實(shí)時(shí)監(jiān)測平臺,短信數(shù)據(jù)通過實(shí)時(shí)消息隊(duì)列進(jìn)入計(jì)算集群,利用事先訓(xùn)練好的模型完成數(shù)據(jù)轉(zhuǎn)換、特征提取、分析及實(shí)時(shí)判斷預(yù)警等復(fù)雜計(jì)算。模型判斷出的垃圾短信會通過人工確認(rèn),人工判斷確實(shí)為垃圾短信的數(shù)據(jù)會加入訓(xùn)練集用于模型的迭代訓(xùn)練。
星環(huán)科技垃圾短信實(shí)時(shí)監(jiān)測平臺流程圖
流計(jì)算引擎實(shí)現(xiàn)實(shí)時(shí)垃圾短信過濾:測試員模擬典型的短信發(fā)送場景,對10萬條短信數(shù)據(jù)集連續(xù)測試兩小時(shí)。測試結(jié)果顯示,每服務(wù)器節(jié)點(diǎn)每秒鐘可對1000-3000條短信實(shí)施過濾計(jì)算,正常短信和垃圾短信的識別率均在99.9%以上。
星環(huán)科技工程師程大偉說:“在垃圾短信實(shí)時(shí)監(jiān)測平臺中,網(wǎng)絡(luò)適配器不但是短信數(shù)據(jù)傳輸至流處理引擎的通道,而且是影響整個平臺性能的瓶頸,需要在90%以上高負(fù)荷的情況下保持?jǐn)?shù)據(jù)傳輸?shù)姆€(wěn)定性?!?/p>
部署垃圾短信實(shí)時(shí)監(jiān)測平臺后,垃圾短信在到達(dá)用戶之前即被實(shí)時(shí)過濾,而機(jī)器學(xué)習(xí)的機(jī)制可以不斷根據(jù)短信內(nèi)容調(diào)整或更新訓(xùn)練模型?!帮@然,垃圾短信到達(dá)率的降低將幫助運(yùn)營商提高用戶的滿意度。此外,運(yùn)營商可以根據(jù)短信規(guī)模靈活調(diào)整計(jì)算集群的服務(wù)器數(shù)量滿足過濾需求,更重要的是,運(yùn)營商原來被垃圾短信占用的網(wǎng)絡(luò)資源被釋放,運(yùn)營商可借此改進(jìn)業(yè)務(wù)運(yùn)營?!背檀髠パa(bǔ)充到。
實(shí)施效果
提高用戶滿意度:99.9%以上的垃圾短信被自動過濾,通信公司的用戶對垃圾短信的抱怨和投訴率顯著降低,提高其用戶滿意度。
提升網(wǎng)絡(luò)資源利用率:運(yùn)營商將垃圾短信占用的網(wǎng)絡(luò)資源用于其它短信業(yè)務(wù),改進(jìn)短信業(yè)務(wù)市場運(yùn)營。
實(shí)時(shí)垃圾短信監(jiān)控:通過對垃圾短信的實(shí)時(shí)監(jiān)控和持續(xù)的機(jī)器自動學(xué)習(xí)手段,不斷滿足越來越復(fù)雜的垃圾短信管理和過濾需求。
提高垃圾短信過濾效率和精度:電信運(yùn)營商根據(jù)垃圾短信的內(nèi)容整理出特定的關(guān)鍵詞,在短信到達(dá)用戶前,利用字符串匹配的方式在數(shù)據(jù)中心實(shí)施計(jì)算和過濾。
“這種基于字符串匹配的手段存在明顯的不足。首先是滯后性,運(yùn)營商只能在事后整理關(guān)鍵詞,然而發(fā)送垃圾短信的用戶會不斷的測試關(guān)鍵詞并調(diào)整短信內(nèi)容,例如:加入特殊符號、利用同音漢字等等,這使得依靠整理和分析關(guān)鍵詞的方式實(shí)現(xiàn)垃圾短信過濾效果越來越差?!背檀髠フf:“其次,伴隨關(guān)鍵詞的數(shù)量不斷增加,服務(wù)器的計(jì)算性能對垃圾短信過濾效率影響越來越大?!?/p>
此外,對于電信運(yùn)營商而言,這些垃圾短信的傳送占用和浪費(fèi)了大量寶貴的網(wǎng)絡(luò)資源。
電信運(yùn)營商急需利用更新的技術(shù)手段對海量短信數(shù)據(jù)實(shí)現(xiàn)實(shí)時(shí)運(yùn)算和分析,挖掘出有價(jià)值的垃圾短信參考依據(jù),形成機(jī)器學(xué)習(xí)的機(jī)制,實(shí)現(xiàn)自動化的垃圾短信過濾,從而充分利用網(wǎng)絡(luò)資源,并提高用戶滿意度。
星環(huán)科技流處理引擎提供強(qiáng)大的流計(jì)算表達(dá)能力,支持在流數(shù)據(jù)上進(jìn)行實(shí)時(shí)事件檢測和批處理、機(jī)器學(xué)習(xí)等復(fù)雜的計(jì)算邏輯,是電信運(yùn)營商提高垃圾短信防范的理想工具。
目標(biāo)與展望
下一步,星環(huán)科技將和電信運(yùn)營商深入合作,繼續(xù)挖掘短信發(fā)送用戶和接受用戶之間的關(guān)系,利用圖的方法進(jìn)一步提升垃圾短信過濾效率和質(zhì)量。