亚洲www啪成人一区二区麻豆,亚洲av成人区国产精品,四虎影视 国产精品,无码人妻av免费一区二区三区 ,性欧美视频videos6一9

!
也想出現(xiàn)在這里? 聯(lián)系我們
首頁廣告區(qū)塊

匿名代碼根本無法破解?不存在的!機(jī)器學(xué)習(xí)玩轉(zhuǎn)去匿名化

編者注:匿名的代碼是否真的無法破解?代碼的開發(fā)人員是否能完美隱藏?新的研究表明可以利用機(jī)器學(xué)習(xí)技術(shù)對(duì)代碼樣本的作者進(jìn)行去匿名化操作。這種操作對(duì)剽竊和隱私問題也會(huì)產(chǎn)生影響。本文將帶你了解去匿名化研究目前的結(jié)果和未來的方向。

文體學(xué)(語言文體的統(tǒng)計(jì)分析)研究者—早就知道寫作是一個(gè)獨(dú)特的、個(gè)人主義的過程。您選擇的詞匯、句法和語法都會(huì)留下痕跡。例如,只要自動(dòng)化工具有足夠的培訓(xùn)數(shù)據(jù)可供使用,它們現(xiàn)在就可以準(zhǔn)確地識(shí)別論壇帖子的作者。但最新的研究表明,文體學(xué)也可以應(yīng)用于人工語言樣本,比如代碼。事實(shí)證明,軟件開發(fā)人員也會(huì)有指紋留下。

雷切爾·格林斯塔特(Rachel Greenstadt)是美國(guó)德雷塞爾大學(xué)計(jì)算機(jī)科學(xué)的副教授。艾林·卡利斯坎(Aylin Caliskan)是格林斯塔特的前博士生、現(xiàn)任喬治·華盛頓大學(xué)助理教授。他們兩人發(fā)現(xiàn),代碼和其他形式的文體表達(dá)一樣,都是無法匿名的。在周五的DefCon黑客大會(huì)上,這兩位科學(xué)家將展示他們的多項(xiàng)研究。在研究中,他們利用機(jī)器學(xué)習(xí)技術(shù)對(duì)代碼樣本的作者進(jìn)行去匿名化操作。例如,他們的工作可能在剽竊糾紛中發(fā)揮作用,但同時(shí)它也有隱私問題,尤其是對(duì)成千上萬向世界貢獻(xiàn)開源代碼的開發(fā)者而言。

如何對(duì)代碼進(jìn)行去匿名化?

下面用一個(gè)例子對(duì)研究人員如何使用機(jī)器學(xué)習(xí)來發(fā)現(xiàn)代碼的作者進(jìn)行簡(jiǎn)單解釋。首先,他們?cè)O(shè)計(jì)的算法識(shí)別了在一些代碼樣本中找到的所有特征,有很多不同的特征。想想自然語言中存在的每一個(gè)方面:有你選擇的單詞,你把它們組合在一起的方式,句子長(zhǎng)度,等等。格林斯塔特和卡利斯坎隨后縮小了功能范圍,使其只包含了真正區(qū)別于其他開發(fā)者的功能,將列表從數(shù)十萬縮減到大約50個(gè)。

研究人員不依賴底層特性,比如代碼的格式化方式。相反,它們創(chuàng)建“抽象語法樹”來反映代碼的底層結(jié)構(gòu),而非它的任意組件。他們的技巧類似于優(yōu)先排序某人的句子結(jié)構(gòu),而不是在于他們是否縮進(jìn)一個(gè)段落的每一行。

這個(gè)方法還需要一些別的工作來教一個(gè)算法,讓它知道什么時(shí)候應(yīng)該發(fā)現(xiàn)另一個(gè)代碼示例。如果一個(gè)隨機(jī)的GitHub賬戶彈出并發(fā)布了一個(gè)代碼片段,格林斯塔特和卡利斯坎就不一定能夠識(shí)別背后的人,因?yàn)樗麄冎挥幸粋€(gè)樣本可以使用。他們可能會(huì)說,這是一個(gè)他們從未見過的代碼開發(fā)人員。然而,格林斯塔特和卡利斯坎并不需要把一生的時(shí)間都花在代碼上,他們只需要幾個(gè)短的樣本。

例如,在2017年的一篇論文中,卡利斯坎、格林斯塔特和另外兩名研究人員證明,即使是存儲(chǔ)庫站點(diǎn)GitHub上的一小段代碼,也足以區(qū)分出各個(gè)編碼者之間的區(qū)別,而且精確度相當(dāng)之高。

最令人印象深刻的是,卡利斯坎和其他研究團(tuán)隊(duì)在另一篇論文中表示,只用他們編譯的二進(jìn)制代碼就可以去匿名化程序員。在開發(fā)人員編寫完一段代碼后,一個(gè)名為編譯器的程序?qū)⑺D(zhuǎn)換成一系列的1和0,機(jī)器可以讀取這些1和0,稱為二進(jìn)制。對(duì)人類來說,這簡(jiǎn)直就是胡說八道。

卡利斯坎和與她一起工作的其他研究人員可以將二進(jìn)制分解回C++編程語言,同時(shí)保留開發(fā)人員獨(dú)特風(fēng)格的元素。假設(shè)您寫了一篇論文,使用谷歌翻譯將其轉(zhuǎn)換為另一種語言。雖然文本看起來可能完全不同,但是您編寫的方式元素仍然嵌入到了語法之類的特性中。代碼也是如此。

“風(fēng)格被保留了下來,” 卡利斯坎說?!爱?dāng)文本是以個(gè)人學(xué)習(xí)為基礎(chǔ)時(shí),就會(huì)有很強(qiáng)的風(fēng)格特征?!?/p>

為了進(jìn)行二進(jìn)制實(shí)驗(yàn),卡利斯坎和其他研究人員使用了谷歌 Code Jam年度編程挑戰(zhàn)賽的代碼樣本。機(jī)器學(xué)習(xí)算法正確地識(shí)別出了100名個(gè)體程序員,而只用了96%的時(shí)間。每個(gè)人使用8個(gè)代碼樣本。即使將樣本量擴(kuò)大到600名程序員,該算法仍能在83%的時(shí)間內(nèi)準(zhǔn)確識(shí)別。

對(duì)剽竊和隱私的影響

格林斯塔特和卡利斯坎說,他們的工作可以用來判斷編程學(xué)生是否有抄襲行為,或者開發(fā)者是否違反了雇傭合同中的非競(jìng)爭(zhēng)條款。安全研究人員可能會(huì)使用它來幫助確定創(chuàng)建一種特定類型惡意軟件的可能開發(fā)人員。

更令人擔(dān)憂的是,一個(gè)威權(quán)政府可能會(huì)使用去匿名化技術(shù)來識(shí)別背后的個(gè)人,比如說,一個(gè)規(guī)避審查的工具。這項(xiàng)研究還對(duì)那些為開源項(xiàng)目做貢獻(xiàn)的開發(fā)人員有隱私方面的影響,特別是如果他們一直使用相同的GitHub賬戶的話。

格林斯塔特說:“人們應(yīng)該意識(shí)到,在這種情況下,要百分之百地隱藏自己的身份是非常困難的?!?/p>

例如,格林斯塔特和卡利斯坎發(fā)現(xiàn),一些現(xiàn)成的混淆方法,即軟件工程師用來使代碼更復(fù)雜、安全性更高的工具,并不能成功地隱藏開發(fā)人員的獨(dú)特風(fēng)格。然而,研究人員說,在未來,程序員可能能夠使用更復(fù)雜的方法隱藏他們的風(fēng)格。

“我確實(shí)認(rèn)為,只要我們繼續(xù)進(jìn)行下去,將會(huì)發(fā)現(xiàn)一件事,那就是什么樣的混淆方法能夠掩蓋這些東西?!?格林斯塔特說:“我不相信,最后發(fā)現(xiàn)的結(jié)論是你做的每件事都是有跡可循的。無論如何,我希望不是這樣。”

例如,在另一篇論文中,由華盛頓大學(xué)的露西 ·西姆科(Lucy Simko)領(lǐng)導(dǎo)的團(tuán)隊(duì)發(fā)現(xiàn),程序員編寫代碼的目的可以是讓算法相信自身是別的程序員編寫出來的。該團(tuán)隊(duì)發(fā)現(xiàn),即使開發(fā)人員沒有專門訓(xùn)練過如何創(chuàng)建贗品,他們也可能會(huì)對(duì)自己的“編碼簽名”進(jìn)行惡搞。

未來的研究方向

格林斯塔特和卡利斯坎還發(fā)現(xiàn)了許多關(guān)于編程本質(zhì)的有趣見解。例如,他們發(fā)現(xiàn)經(jīng)驗(yàn)豐富的開發(fā)人員比新手更容易識(shí)別代碼。你越熟練,你承擔(dān)的工作就越獨(dú)特。部分原因可能是因?yàn)槌跫?jí)程序員經(jīng)常從Stack Overflow這樣的網(wǎng)站復(fù)制粘貼代碼解決方案。

同樣,他們發(fā)現(xiàn),解決更困難問題的代碼示例也更容易屬性化。通過使用62名程序員組成的樣本,這62名程序員每個(gè)人都解決了7個(gè)“簡(jiǎn)單”的問題,研究人員在90%的時(shí)間里都能夠?qū)⑺麄兊墓ぷ魅ツ涿?。?dāng)研究人員使用7個(gè)“困難”問題樣本時(shí),他們的準(zhǔn)確率下降到95%。

在未來,格林斯塔特和卡利斯坎想要了解其他因素是如何影響一個(gè)人的編碼風(fēng)格的,比如當(dāng)同一個(gè)組織的成員在一個(gè)項(xiàng)目上合作時(shí)會(huì)發(fā)生什么。他們還想探究一些問題,比如來自不同國(guó)家的人是否會(huì)以不同的方式編碼。例如,在一項(xiàng)初步研究中,他們發(fā)現(xiàn)他們可以區(qū)分加拿大和中國(guó)開發(fā)者編寫的代碼樣本,準(zhǔn)確率超過90%。

還有一個(gè)問題,相同的屬性方法是否可以在不同的編程語言中以標(biāo)準(zhǔn)化的方式使用。目前,研究人員強(qiáng)調(diào),盡管到目前為止他們的方法已經(jīng)被證明是有效的,但是去匿名化代碼仍然是一個(gè)神秘的過程。

“我們?nèi)栽谂ε宄男┦钦嬲梢詫傩曰模男┎皇??!备窳炙顾卣f:“有足夠的理由證明,這些應(yīng)該引起關(guān)注,但我希望這不會(huì)導(dǎo)致任何人都不公開發(fā)表意見的糟糕情況發(fā)生?!?/p>

聲明:本站所有文章,如無特殊說明或標(biāo)注,均為本站原創(chuàng)發(fā)布。任何個(gè)人或組織,在未征得本站同意時(shí),禁止復(fù)制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書籍等各類媒體平臺(tái)。如若本站內(nèi)容侵犯了原著者的合法權(quán)益,可聯(lián)系我們進(jìn)行處理。

給TA打賞
共{{data.count}}人
人已打賞
智能

身材輕盈性能爆棚 Pico小怪獸2體驗(yàn)

2021-4-30 21:28:00

智能

索尼PSVR頭顯銷量可觀:已突破300萬臺(tái)

2021-4-30 21:30:00

!
也想出現(xiàn)在這里? 聯(lián)系我們
首頁廣告區(qū)塊
0 條回復(fù) A文章作者 M管理員
    暫無討論,說說你的看法吧
?
個(gè)人中心
購物車
優(yōu)惠劵
今日簽到
有新私信 私信列表
搜索