読者です 読者をやめる 読者になる 読者になる

2014

the whole world is peaceful.

TOWER RECORDS ONLINE の AutoPageirze SITEINFO 検証について

new!!!

I split the AutoPageirze SITEINFO of TOWER RECORDS ONLINE - 2014


nextLink

orign
//*[@class='listModel-atclContext']/li[contains(span,'次の')]//a
|
//p[@class='nextLink']/a
|
//a[img/@class='next rollImg']
|
id('panelayout_1_maincolumn_1_BlogEntryLink')/dd[1]/a
|
//ul[@class='listModel-inlineMenuLink']/li/a[contains(@href,number(//ul[@class='listModel-inlineMenuLink']/li/strong)-1)]

nextLink1
//*[@class='listModel-atclContext']/li[contains(span,'次の')]//a
nextLink2
//p[@class='nextLink']/a
nextLink3
//a[img/@class='next rollImg']
nextLink4
id('panelayout_1_maincolumn_1_BlogEntryLink')/dd[1]/a
nextLink5
//ul[@class='listModel-inlineMenuLink']/li/a[contains(@href,number(//ul[@class='listModel-inlineMenuLink']/li/strong)-1)]

pageElement

orign
id('entryContent')/div/*
|
//div[
  @class='inMdl-featureItemCell' 
  or
  contains(@class,'inMdl-atclHeadlineDefCell')
  or
  contains(@class,'inMdl-specialBnrRow')
  or
  @class='searchArticleList01'
  or
  (@class='searchSectionLine01' and div/@class='searchArticleList01')
  or
  @class='tableColumn01'
  or
  @class='searchSectionLast01'
]
|
//ul[@class='inMdl-mgznBknbrList']/li
|
//table[
  @class='nmnlPosterArchiveTbl'
  or
  @class='tableModel-recBase1'
]/tbody

pageElement1
id('entryContent')/div/*
pageElement2
//div[@class='inMdl-featureItemCell']
pageElement3
//div[contains(@class,'inMdl-atclHeadlineDefCell')]
pageElement4
//div[contains(@class,'inMdl-specialBnrRow')]
pageElement5
//div[@class='searchArticleList01']
pageElement6
//div[(@class='searchSectionLine01' and div/@class='searchArticleList01')]
pageElement7
//div[@class='tableColumn01']
pageElement8
//div[@class='searchSectionLast01']
pageElement9
//ul[@class='inMdl-mgznBknbrList']/li
pageElement10
//table[@class='nmnlPosterArchiveTbl']/tbody
pageElement11
//table[@class='tableModel-recBase1']/tbody

url

^http://tower\.jp/

pattern

No exampleUrl nextLink pageElement pattern
1 http://tower.jp/article/series/2008/11/20/100046303 nextLink1 pageElement1 pattern1
2 http://tower.jp/article/interview nextLink2 pageElement2 pattern2
3 http://tower.jp/article/series nextLink2 pageElement2 pattern2
4 http://tower.jp/article/news nextLink2 pageElement3 pattern2
5 http://tower.jp/article/feature_item nextLink2 pageElement2 pattern2
6 http://tower.jp/article/campaign nextLink2 pageElement3 pattern2
7 http://tower.jp/article/feature nextLink2 pageElement4 pattern2
8 http://tower.jp/search/article/test nextLink3 pageElement5 pattern3
9 http://tower.jp/search/artist/test nextLink3 pageElement8 pattern3
10 http://tower.jp/search/item/test nextLink3 pageElement7 pattern3
11 http://tower.jp/mag/bounce/bounce_back nextLink5 pageElement9 pattern4
12 http://tower.jp/nomusicnolife/nmnl_back nextLink2 pageElement10 pattern5
13 http://tower.jp/store/event nextLink2 pageElement11 pattern6

nextLink4 いずれの exampleUrl にもマッチせず。
pageElement6 いずれの exampleUrl にもマッチせず。

所感

理解するのにスゲー時間掛った。ここからパターンを分類して SITEINFO を分割して保守しやすくするのが筋だと思いますけど、これすごい面倒くさいです。わたしは、保守したくないです。

https://twitter.com/taizooo/status/509198352462790656

サイト構造が異なる場合には別々の SITEINFO を作るべきだと思います。単純にわかりやすさのためです。あなたと私自身のタワーレコードのサイトへの興味よりも、タワーレコードのサイトとそのSITEINFOの寿命の方が長いと思われるのがその理由です。

わたしからは、以上です。

powered by hatena blog.
the nikki system for lifelogging junkies.

all posts © their original owners.
writing is reusable solely under the BY Creative Commons License.