網域名稱俱樂部


返回   網域名稱俱樂部 > 電腦與網路技術 > 電腦網路相關技術
論壇幫助 社區 日曆事件 今日新文章 搜尋

回覆
 
主題工具
  #1  
舊 2005-12-05, 11:08 PM
domainplayer domainplayer 目前離線
進階會員
 
註冊日期: 2002-05-31
文章: 4,757
發送 ICQ 消息給 domainplayer
預設 跪求幫忙

請教各位!!
教授要我編輯藥學年刊,
丟了幾百個學者專家投搞的檔案給我...

檔名的格式如下:

PC-001-論文名.doc
.
.
.
PC-673-論文名.doc


問題來了...
裡面可能有些檔案是重複的
例如PC-059-Biflavonoids from Clusia rosea.doc
PC-405-Biflavonoids from Clusia rosea.doc這兩個檔名其實是相同的,
差別只在開頭PC-後面的數字, 主要是因為投稿者在不同時間重複送出造成的...

因為檔名前包含數字, 我沒法使用按字母順序排列來檢查哪些是重覆的,
請問有人知道我該怎麼做, 才能找出那些重複的檔案嗎??

一個一個找會找到眼花..
懇求各位告知祕技!!
PS. 相同檔名的檔案大小可能會不同,
因為有的人重覆修改寄出了好幾次....
__________________
1515
回覆時引用此篇文章
  #2  
舊 2005-12-05, 11:26 PM
monkey 的頭像
monkey monkey 目前離線
進階會員
 
註冊日期: 2003-12-16
文章: 1,972
預設

給你一個祕技...

你就把他從 pc-001 一直排到pc-673就可以了

^^"
__________________
回覆時引用此篇文章
  #3  
舊 2005-12-05, 11:33 PM
domainplayer domainplayer 目前離線
進階會員
 
註冊日期: 2002-05-31
文章: 4,757
發送 ICQ 消息給 domainplayer
預設

啥咪意思><"
monkey兄可以請你詳細解釋一下嗎??
__________________
1515
回覆時引用此篇文章
  #4  
舊 2005-12-05, 11:54 PM
licheng licheng 目前離線
進階會員
 
註冊日期: 2004-06-11
住址: localhost
文章: 950
預設

引用:
作者: domainplayer
因為檔名前包含數字, 我沒法使用按字母順序排列來檢查哪些是重覆的,
請問有人知道我該怎麼做, 才能找出那些重複的檔案嗎??
那麼,如果兩個檔案內容是一樣的﹝只做了些微的修改﹞,除了檔名前面的 PC-xxx,後面的檔名,應該是相同的,是不是?

如果是的話,問題就簡單了。

先將所有的檔案,擺在同一個目錄底下,開一個 DOS 視窗,切換到擺置檔案的目錄,然後下達:

dir *.doc /b > output.txt

將 output.txt 的內容刪除前面的 PC-xxx,再排序,就可以找出哪些是重複的檔案。

刪除前面的 PC-xxx,我是使用 Unix 的 sed 指令。用 vim 也可以。

至於排序的方式很多。我是使用 Unix 移植到 Win32 的一個指令 sort,不知道 Windows 底下有沒有其他類似的東西?

大不了,你將 output.txt 的內容 pm 給我,我將排序結果 pm 給你。
回覆時引用此篇文章
  #5  
舊 2005-12-06, 12:21 AM
game.tw game.tw 目前離線
進階會員
 
註冊日期: 2002-10-01
文章: 1,370
預設

引用:
作者: licheng
那麼,如果兩個檔案內容是一樣的﹝只做了些微的修改﹞,除了檔名前面的 PC-xxx,後面的檔名,應該是相同的,是不是?

如果是的話,問題就簡單了。

先將所有的檔案,擺在同一個目錄底下,開一個 DOS 視窗,切換到擺置檔案的目錄,然後下達:

dir *.doc /b > output.txt

將 output.txt 的內容刪除前面的 PC-xxx,再排序,就可以找出哪些是重複的檔案。

刪除前面的 PC-xxx,我是使用 Unix 的 sed 指令。用 vim 也可以。

至於排序的方式很多。我是使用 Unix 移植到 Win32 的一個指令 sort,不知道 Windows 底下有沒有其他類似的東西?

大不了,你將 output.txt 的內容 pm 給我,我將排序結果 pm 給你。
上方提供的範例中的兩個相同檔案是
PC-059-Biflavonoids from Clusia rosea.doc與
PC-405-Biflavonoids from Clusia rosea.doc
若刪除前方的 PC-???-再進行排序,雖可得到結果,
但卻得不到前面的編號....
兩個或多個Biflavonoids from Clusia rosea.doc ,是沒有意義的...
因為沒有前面的編號,無法確定前面的檔名編號為何,無法進行後續動作

所以產生的結果,應該包含原有的完整檔名,又排序編號後方的檔案,
這樣對Domainplayer才有意義!

必須從第8個字開始進行排序!
__________________
Gamer.info
回覆時引用此篇文章
  #6  
舊 2005-12-06, 12:27 AM
game.tw game.tw 目前離線
進階會員
 
註冊日期: 2002-10-01
文章: 1,370
預設

看了自己的回覆之後,想了一個用Windows解決的可能方式...
一樣需要輸出output.txt ,用編輯程式去換前的檔案資訊,只留下檔案列表!
開一個Excel ,並用 資料 -> 匯入 功能,把output.txt匯進來...
分隔方式選擇 "-" ,這樣滙入的格式會變成
PC 059 檔名
再用資料中的排序,將檔名作擴大排序...
應該就可以了.......

我用想的,沒實際運作,但應該可行!
__________________
Gamer.info
回覆時引用此篇文章
  #7  
舊 2005-12-06, 12:30 AM
licheng licheng 目前離線
進階會員
 
註冊日期: 2004-06-11
住址: localhost
文章: 950
預設

引用:
作者: game.tw
PC-059-Biflavonoids from Clusia rosea.doc與
PC-405-Biflavonoids from Clusia rosea.doc
若刪除前方的 PC-???-再進行排序,雖可得到結果,
但卻得不到前面的編號....
兩個或多個Biflavonoids from Clusia rosea.doc ,是沒有意義的...
因為沒有前面的編號,無法確定前面的檔名編號為何,無法進行後續動作
不會沒有意義的。

譬如,已經取得 output.txt 列表,並找出

Biflavonoids from Clusia rosea.doc

這個相同的檔名,那麼,只要以該檔名為關鍵字,在 output.txt 裡面搜尋,就可以找出有哪些編號的檔案,包含 Biflavonoids from Clusia rosea.doc。如此,自然就找出哪些檔案是重複的。

前提是,相同的檔案,除了 PC-xxx 之外,檔名也必須相同。

通常,只要 uniq 這個指令,就可以很快找出重複者是誰。
回覆時引用此篇文章
  #8  
舊 2005-12-06, 12:33 AM
licheng licheng 目前離線
進階會員
 
註冊日期: 2004-06-11
住址: localhost
文章: 950
預設

引用:
作者: game.tw
看了自己的回覆之後,想了一個用Windows解決的可能方式...
一樣需要輸出output.txt ,用編輯程式去換前的檔案資訊,只留下檔案列表!
開一個Excel ,並用 資料 -> 匯入 功能,把output.txt匯進來...
分隔方式選擇 "-" ,這樣滙入的格式會變成
PC 059 檔名
刪除 PC-xxx- 這個動作,只要一個 cut 指令即可。不需要用到 Excel....
回覆時引用此篇文章
  #9  
舊 2005-12-06, 12:37 AM
哈啦 的頭像
哈啦 哈啦 目前離線
論壇管理員
 
註冊日期: 2002-05-28
文章: 23,013
預設

還是請各位專家幫domainplayer直接處理比較快吧。
__________________
咖啡走路
微博


您是網站站長嗎?歡迎到站長俱樂部 一起討論吧。
按我看版規
code.club
回覆時引用此篇文章
  #10  
舊 2005-12-06, 12:48 AM
game.tw game.tw 目前離線
進階會員
 
註冊日期: 2002-10-01
文章: 1,370
預設

引用:
作者: licheng
刪除 PC-xxx- 這個動作,只要一個 cut 指令即可。不需要用到 Excel....
Licheng兄所提的,都是 正規表示式....
是我一直想學的.....
目前只會用單一個 grep 來看東西~_~!!!
像是 ps -l | grep corn 這樣
其他的都不太懂,也就更不敢用了....
Domainplayer的問題....
在Linux中,其實就不用那麼頭痛了.........

ps:當下正在鳥哥的站內努力中
__________________
Gamer.info
回覆時引用此篇文章
回覆


發文規則
不可以發表新主題
不可以發表回覆
不可以上傳附件
不可以編輯自己的文章

啟用 BB 代碼
論壇啟用 表情符號
論壇啟用 [IMG] 代碼
論壇禁用 HTML 代碼



所有時間均為 +8。現在的時間是 05:53 AM


本站主機由網易虛擬主機代管
Powered by vBulletin® 版本 3.8.4
版權所有 ©2000 - 2024,Jelsoft Enterprises Ltd.