Tag Archives: Internet Archive

HTTPS sites going missing in the Internet Archive?

The Wayback Machine is a wonderful piece of technology. What it does is scrape sites on the internet and store the history of the publically available internet. It’s a very important task in this ever-changing environment.

However I’ve noticed just now – though I may just have been unlucky – that HTTPS sites, i.e. sites using SSL encryption, are not archived. I noticed this because I wanted to archive the site Free & Social – a StatusNet instance that the Swedish Pirate Party runs. So I posted a message on their forum, hoping to clarify whether this is a feature or a bug:

I’ve tried searching on the web and checking the FAQ, but I couldn’t seem to find an answer to why SSL sites don’t work with the Wayback Machine.

With more and more sites using https, everything from personal blogs to just about any site with a login, it would be a shame that the Internet Archive could not fetch these. Is there a technical difficulty that must be managed, or other reasoning behind this?

If I’m just mistaken and the https sites I’ve tried have malfunctioned for other reasons, I apologize. But from what I can see, a large (and growing) part of the internet is unfortunately not part of this mission as long as only HTTP connections get crawled.

I’m thinking maybe they don’t crawl SSL sites for some odd reason, like identity verification and so. Something like they can’t serve the site “properly” afterwards, or maybe arguing SSL sites are more secret. But I would argue that SSL sites are only SSL because cleartext transmissions are too easy to manipulate – the content is indistinguishable.

Nedlagd anmälan och kommande RKF-busskort

Polisanmälan mot mig för “bedrägeri”/”urkundsförfalskning” är nedlagd, fick jag veta igår av polisen som förhörde mig. Trevligt såhär innan jul att slippa vara misstänkt för fängelsegivande brott etc. etc.

För ett par dagar sedan såg jag dessutom från Länstrafiken i Västerbotten att de överanvänder ordet “säkerhet” i nyheten om “nästa generations betalsystem” (som ändå redan hunnit bli beprövad!) för kollektivtrafiken. Tom Westerberg, ekonomichefen som uttryckligen försvarat anmälan mot mig, försäkrar läsarna att det nya systemet givetvis är mycket bättre. Man kan t.o.m. “växa i det nya systemet” (fast det är sluten och inlåst mjukvara).

Och för att säkerställa hela systemet har vi anlitat ett företag som ska analysera säkerheten i det nya betalsystemet inklusive busskortens säkerhet.

Tyvärr har ingen pratat med Umeå Hackerspace, som gärna hade hjälpt till med sin ideella kraft att analysera det nya systemet. Vi hade hoppats på att få hjälpa till, samt att de kanske från sin sida kunde visa lite ödmjukhet trots allt. Men nu övergår de enligt nyheten alltså till RKF-specifikationen för busskorten. Som t.ex. Västtrafik kört sedan 2007(?).

Men ändå – mycket trevligt. Säkra busskort som man inte kan spåra människor genom? I like it! Fast jag läste på Flashback igår, sådär huxflux, att RKF-korten hos Västtrafik ironiskt nog inte alls är särskilt säkra.

Hej Tom. Vad sade ert säkerhetsanalysföretag? Standard konsultbabbel? Oj. Surprise.

Och vad kostar de “nya” maskinerna som ska byta ut samtliga existerande bussläsare trots att de kör samma kommunikationstandard? Multum? Jag hade i alla fall inte betalat mer än 1000kr/st för hårdvaran, då det inte är mer än så det kostar för en Linuxburk, simpel fri mjukvara och valfri kortläsare. Vad har kostnaden blivit för Länstrafiken månntro? Inklusive alla konsulteranden fram och tillbaka. Slöseri med skattemedel om jag får säga det själv. Det är ju främst kommuner och landsting som betalar.

Och har man ö.h.t. analyserat sms-biljetterna? Eller ingår detta i den undanhushade RKF-specifikationen (som finns hos Internet Archive) som är för osäker för att vanliga dödliga ska få ta del av det? Till skillnad från fri mjukvara där säkerheten består av den allmänna granskningen, förstås.

Skicka Skunk till Archive.org?

Jag läser terrorrubriker på DN som säger att Sajternas innehåll riskerar att gå förlorat. Det gäller förstås Lunarstorm och Skunk (och Playahead tydligen) som lägger ner, förmodligen på grund av Facebooks omåttliga popularitet.

Frågan är varför inte dessa communities gör internet en tjänst och bidrar med sitt material till organisationen Internet Archive som ideellt bedriver arkiveringsverksamhet, samt den underbara Wayback Machine.

Jag anser att ansvariga företag bör skicka dit samtlig information som är publikt tillgänglig (dvs i praktiken att man bara behöver registrera ett konto för att ta del av det). Särskilt Skunk, eftersom det är den definitivt mest anrika sidan. Lunarstorm och Playahead har väl aldrig varit särskilt attraktiva.

Fler har ju täckt ämnet men få (ingen?) har nämnt simpel arkivering, om än DN skriver om Kungliga Bibliotekets projekt Kulturarw3. Fast det förstås, ju fler arkiverare desto bättre, jag råkar bara ha hört mer om Internet Archive. Rasmus Fleischer skrev t.ex. om Skunkgruppen, som nu har lyckats få ta över driften.

Fast så länge man inte gör som The Times bryr jag mig ej.

Jag förespråkar öppet, tydligt och klart att man bör låta saker dö. Internet består av förnyelse. Inget varar för evigt, inte i interaktiv form åtminstone. Så släpp det, bevara gärna innehålle för framtiden, och gå vidare.

Nu menar jag förstås inte att folk borde använda Facebook. Det vore ju bara hemskt och horribelt – privata amerikanska företag känns läskigt överlåta information om all sin nätnärvaro till. Men det verkar ju komma ett decentraliserat alternativ skrivet som fri mjukvara… Om man nu inte gör som mig och förespråkar SMTP.

PS. Även för ett år sedan fanns det engagemang att rädda Skunk.nu märker jag hos piratbyråkraten blay. Så detta bör egentligen inte komma som en nyhet.